Consorcio MAVIR: Blog

El reto de conseguir inversión para una empresa de base tecnológica

brainsins — Tue, 03 Jul 2012 07:40:31 +0000

Hace poco anunciábamos en el blog de BrainSINS la consecución de una ronda de inversión de 400.000€ liderada por el fondo de inversión Inverready Capital Risk. Cuando se escribe sobre estos temas, siempre se focaliza sobre los aspectos positivos, especialmente porque es una muy buena noticia para cualquier startup, al dotarles de recursos para su consolidación y crecimiento, y se dejan de lado algunos aspectos menos “bonitos” pero que conviene tener en cuenta para planificar un proceso de inversión.

Si bien el ecosistema de startups en España está mejorando a pasos agigantados, como se puede ver por la cada vez mayor cantidad y calidad de opciones de ayuda a la creación de startups (viveros, incubadoras, aceleradoras, etc.), conviene tener en cuenta que las Empresas de Base Tecnológica (EBT) tienen ciertas particularidades que las hace más sensibles durante los procesos de obtención de financiación. El principal obstáculo reside en el tipo de inversiones que priman en España, que son básicamente inversiones en empresas que “clonan” o importan ciertos modelos de negocio de éxito en otras zonas geográficas. Gracias a esta tendencia, hemos vivido en España (al igual que en muchas otras partes), una fiebre de outlets virtuales (BuyVip, Privalia, VipVenta, etc.), otra fiebre de los “groupones” (Groupalia, Buy The Face, Reduti, Offerum, etc.), y muchas otras.

Las Empresas de Base Tecnológica no se basan en copiar o adaptar modelos de negocio de éxito en otros países, si no que son empresas centradas en el desarrollo de una tecnología propia y diferencial. Así pues, son radicalmente opuestas a los “clones” que comentábamos anteriormente, ya que si cuentan con tecnología propia, pero o bien carecen de modelo de negocio, o su modelo de negocio no ha sido probado con éxito en otras áreas geográficas. Esto implica que son empresas con un mayor nivel de riesgo, aunque también con un mayor nivel de expectativas, ya que si consiguen rentabilizar su tecnología, al ofrecer un valor diferencial, y con ello unas elevadas barreras de entrada, su posicionamiento en el mercado les permite crecer más rápidamente y ocupar una posición dominante en el mercado. Ese es el caso de empresas como Google, que si bien tardo en tener claro su modelo de negocio, ha conseguido una posición en el mercado que no podría haber obtenido sin una tecnología única y diferencial.

Por otro lado, los inversores españoles también prefieren empresas B2C, es decir, cuyo mercado son consumidores finales, y no empresas B2B. La razón principal que se suele dar para esta preferencia es que las empresas B2C tienen unas mayores expectativas de crecimiento, al tener un mercado final más amplio. Básicamente, más valen muchos pocos que pocos muchos. Pero para la mayoría de las EBTs, resulta más simple orientarse como empresas B2B, ofreciendo su tecnología a otras empresas, ya bien sea mediante licenciamiento de tecnología, Software as a Service, o de múltiples otras formas. Las empresas B2B suelen ser empresas más tecnológicas, mientras que las empresas B2C son empresas con un mayor nivel de orientación a marketing, y por tanto el encaje de EBT con B2B suele ser casi perfecto.

Aunque podríamos mentar muchos otros factores, solo quedándonos con dos de los principales factores que marcan la mayoría de las inversiones en España, podemos ver que las EBT se encuentran en una posición muy desfavorable para obtener inversión, o al menos para defender valoraciones más adecuadas a su nivel de desarrollo. Ni son empresas que suelan basarse en un modelo de negocio de probado éxito, ni empresas que suelan dirigirse a la masa de usuarios. Esto no quita que una EBT pueda conseguir una buena ronda de financiación, ya que todos los años se realizan múltiples inversiones de este tipo en España. Pero sí que conviene tener en cuenta estos factores si estamos planteándonos montar una EBT, para planificar de forma más adecuada el proceso de obtención de inversión, y que no “nos pille el toro” durante el proceso.

José Carlos Cortizo (@josek_net) es Fundador y CTO de BrainSins, una startup madrileña que desarrolla sistemas de recomendación enfocados a mejorar los ingresos de negocios en Internet, con especial énfasis en sitios de comercio electrónico.

Taller de reputación online en LREC

damiano — Wed, 27 Jun 2012 08:58:13 +0000

El mes pasado tuve la oportunidad de participar en “Language Engineering for Online Reputation Management”, taller que tuvo lugar en la conferencia sobre recursos lingüísticos y evaluación LREC (Language Resources and Evaluation Conference), en Estambul (Turquía).

El taller tenía como objetivo poner en común las distintas perspectivas, tanto académicas y empresariales, sobre un tema que cada vez suscita más interés: la gestión de reputación online. El uso cada vez más extendido de los medios sociales y la dinamicidad en que los usuarios comparten tanto información factual como opiniones sobre compañías, personajes públicos y productos generan la necesidad clara de analizar y mantener la imagen pública de las compañías en la red.

Julio Gonzalo (UNED) fue quien inauguró el taller describiendo el objetivo del mismo y dando una visión global de las dos principales tareas en reputación online: auditoría de imagen (profiling) y monitorización (monitoring). Ambas tareas serán por primera vez objeto de estudio como campaña de evaluación en el RepLab 2012, que tendrá lugar en la conferencia CLEF en septiembre de 2012 en Roma (Italia). A continuación, Miguel Lucas de Acteo presentó un estudio que compara 15 herramientas comerciales de monitorización online, realizado en colaboración con Llorente y Cuenca, en el que se concluye que no existe la herramienta perfecta y que hay un amplio margen de mejora en lo que se refiere al análisis automático de menciones (análisis de sentimientos, filtrado de contenido no relevante en consultas ambiguas, etc.)

Ralph Steinberger del Joint Reseach Centre (JRC, European Comission) presentó el trabajo realizado junto a Alexandra Balahur titulado “The Challenge of Processing Opinions in Online Contents in the Social Web Era”, en el que se analizan las principales diferencias y similitudes entre las definiciones clásicas de “minería de opiniones” y “análisis de sentimientos” y la polaridad asociada a la reputación de una entidad en medios online. Patrick Brennan (Juola & Associates) nos contó cómo los métodos de estilometría pueden servir para extraer información demográfica, como el género o edad, del autor. Fredrik Olsson de Gavagai, presentó la arquitectura de Ethersource, un componente software que se encarga de proporcionar anotaciones semánticas a las menciones recuperadas previamente de Twitter, basado en semántica distribucional y modelos de espacio vectorial.

Ernest Aredarenko (University of Eastern Finland) ha presentado el framework SoMEST (Social Media Event Sentiment Timeline). Por un lado, el framework tiene un componente que se encarga de monitorizar noticias para extraer entidades y eventos definidos previamente en una ontología. Por otro lado, el componente de minería de opiniones clasifica la polaridad (positiva, negativa o neutral) de opiniones utilizando una aproximación de aprendizaje automático.

Por mi parte, he presentado un corpus para la identificación de aspectos y objetos de opinión de compañías en Twitter, trabajo que he realizado durante mi estancia en el grupo de investigación ILPS (Information and Language Processing Systems) de la Universidad de Amsterdam.

Para finalizar el taller, hemos discutido los resultados de una encuesta rellenada por los participantes, sobre las tareas en las que se trabaja, las distintas fuentes de información utilizadas, idiomas, etc. Parece ser que los dos escenarios principales, profiling y monitorización, son ampliamente compartidos tanto desde el punto de vista académico como empresarial. Por otro lado, las redes sociales y, especialmente, los servicios de microblogging como Twitter son los medios más prioritarios para la monitorización, aunque en algunos escenarios como en el ámbito político, las noticias en medios online, y los comentarios asociados a las mismas, suelen tener prioridad.

Me congratula enormemente ver cómo las necesidades de los expertos en reputación online pueden traducirse en retos científicos para investigadores de tecnologías de acceso a la información, en donde evaluaciones objetivas permiten medir la calidad de herramientas automáticas que optimizan el esfuerzo de los analistas de reputación online.

Los artículos del taller Language Engineering for Online Reputation Management ya están disponibles.

Damiano Spina es Ingeniero en Informática por la Universidad Complutense de Madrid. Actualmente es investigador en el Grupo de Procesamiento del Lenguaje Natural y Recuperación de Información de la UNED y está realizando su tesis doctoral en la aplicación de tecnologías de la lengua para la gestión de reputación online, abarcando tareas tareas como la desambiguación de entidades nombradas, el resumen de “social streams” en tiempo real y la minería de opiniones.

Los buscadores añaden semántica a sus consultas

Victor Peinado — Mon, 21 May 2012 09:00:31 +0000

Los buscadores web están incorporando de manera progresiva técnicas de procesamiento lingüístico cada vez más sofisticadas, con el objetivo de interpretar lo que los usuarios realmente quieren decir cuando teclean una consulta, proporcionar mejores respuestas y eliminar la ambigüedad semántica. Hasta ahora la mayoría de los buscadores trataban las consultas como meras cadenas de caracteres. El reto ahora es interpretar esas cadenas de texto, identificar los conceptos y entidades a los que se refieren, en definitiva, comprender las consultas para ofrecer respuestas y no enlaces. Algo que buscadores como Ask.com o Wolfram|Alpha llevan tiempo persiguiendo.

La semana pasada se celebró en Madrid la reunión de LiMoSINe, un proyecto europeo del Séptimo Programa Marco en el que participa un equipo multinacional conformado por miembros del Grupo NLP&IR-UNED, las universidades de Amsterdam, Glasgow y Trento, el Barcelona Media Research de Yahoo! y la empresa LLORENTE & CUENCA. Como explica el profesor Julio Gonzalo en esta entrevista para ElConfidencial.coml, el proyecto tiene como objetivo facilitar el trabajo de los consultores de comunicación a la hora de resumir la ambigüedad que se produce en Internet y enriquecer las búsquedas. A partir de la salida que proporcionan distintos motores de búsqueda, LiMoSINe busca comprender los textos en de la Web mediante análisis lingüístico, identificar de qué entidades y productos se habla, y las relaciones que se establecen entre ellos.

En esta misma línea, Google acaba de presentar su Knowledge Graph (GKG) bajo el lema things, not strings. Knowledge Graph funciona como una capa extra que se añade al buscador y que analiza las búsquedas de los usuarios para identificar posibles nombre propios que hagan referencia a personajes y celebrities, lugares, compañías, monumentos, canciones y bandas de música, clubes y equipos deportivos, conceptos, etc., y los enlaza con la información estructura publicada en fuentes como Wikipedia, Freebase y CIA World Factbook. El resultado de todo esto es que, cuando en un consulta se identifica el nombre de una entidad reconocida, el interfaz de búsqueda no solo muestra el tradicional ránking de resultados con las páginas web relevantes, sino que incorpora información relacionada con la entidad y la muestra de manera estructurada. Según Google, este intento por comprender mejor las consultas de los usuarios nos va a permitir aprender y descubrir nueva información a través de las búsquedas.

Los detalles de GKG están descritos en este paper de Valentin I. Spitkovsky y Angel X. Chang publicado en LREC 2012 “A Cross-Lingual Dictionary for English Wikipedia Concepts” y las colecciones de datos están disponibles. Mike Bergman ha publicado también un interesante análisis en Deconstructing the Google Knowledge Graph.

ECIR 2012 Barcelona (1 – 5 Abril de 2012)

jmschnei — Fri, 27 Apr 2012 16:48:52 +0000

En semana santa tuve el privilegio de asistir a la conferencia ECIR 2012 que se celebró en Barcelona. Esta conferencia está considerada como un referente en la recuperación de información a nivel europeo y es un marco inmejorable para conocer los últimos avances en la materia de recuperación de información, ya sea en modelos teóricos, sistemas de evaluación o aplicaciones.

Se celebraron dos charlas invitadas que corrieron a cargo de Paolo Boldi y Yoelle Maarek. Paolo presentó sus trabajos sobre redes aplicadas a IR, mientras que Yoelle presentó trabajos de análisis del usuario en búsquedas web en función de LOGS y CLICKS, además de los modelos de transiciones entre interacciones.

Para finalizar la conferencia, se llevó a cabo un ‘Industry Day’, en el que empresas relevantes del sector presentaron sistemas comerciales o investigaciones propias.

Además de la conferencia, se celebraron conjuntamente una serie de workshops y tutoriales focalizados en temas particulares relacionados con IR. Los workshops fueron: (i) Information Retrieval Over Query Sessions (SIR2012), (ii) Task-Based and Aggregated Search (TBAS) y (iii) Searching 4 Fun!. Los tutoriales que tuvieron lugar fueron: (i) Question Answering Systems: History and Architecture, (ii) Quantum Information Access and Retrieval, (iii) Designing the Search Experience, (iv) Music Information Retrieval 2.0 y (v) From Expert Finding to Entity Search on the Web. Toda la información relacionada con los tutoriales se puede encontrar aquí.

El primer workshop de ‘Information Retrieval Over Query Sessions’ tenía pinta de ofrecer una visión de sesiones de búsqueda pero no cumplió mis expectativas y únicamente manejaba la consulta. Eso sí, en una sesión completa de búsqueda. La primera charla de este workshop correspondió a Mounia Lalmas que presentó un trabajo centrado en ‘User Engagement’. Esta área se centra en investigar cómo y porqué los usuarios están o dejan de estar implicados en el uso de una aplicación o sistema. El resto de las charlas se centraban en la reformulación de la consulta mediante el uso de contexto y el análisis de LOGS..

Además, asistí al workshop ‘Task-based and Agreggated Search (TBAS)’ con gran interés dado que está cercanamente relacionado con mis temas de investigación. Se centraba en la búsqueda de información en diferentes fuentes y las técnicas actuales de fusión (agregación) que se utilizan. Uno de los organizadores del workshop es Birger Larsen, profesor en la Royal School of Library and Information Science de Copenague.

La charla invitada fue llevada a cabo por Kalervo Järvelin, profesor titular de la universidad de Tampere. Hizo una presentación del estado actual del área de investigación, tanto de la búsqueda basada en tareas como de la búsqueda agregada. La búsqueda basada en tareas es una búsqueda que no persigue la satisfacción de una necesidad de información aislada sino que busca completar una tarea concreta. La búsqueda agregada persigue la fusión de diferentes tipos de documentos y la forma en la que se le muestran al usuario. Simplificándolo, se podría considerar que mi investigación está ubicada dentro del área de búsqueda agregada y por eso me parece todavía más interesante la frase que presentó Kalervo: ‘Information integration finding relevant information from various sources learning about it: contents, structures, semantics and heterogeneous factors of resources harmonizing information for presentation’. Esta frase simboliza perfectamente la búsqueda agregada.

El resto de las charlas presentaban sistemas diversos en lo que se podían encontrar desde un sistema de contextualización que considera los documentos de la colección como una red enlazada de la que obtiene información hasta un par de sistemas que hacen fusión de documentos (Agreggated Search) de la colección iSearch que utilizan la mayoría de los sistemas presentados al workshop. Esta colección es buena para el estudio de las interacciones de usuario, pero en lo que se refiere a mi ámbito de investigación no os suficiente, puesto que aun teniendo documentos de diferente tipo, no contempla documentos de diferente formato.

Me gustaría destacar el trabajo de Thomas Beckers y Norbert Fuhr, en el que se presenta una arquitectura teórica para sistemas de IR basada en niveles. Esta división en niveles es muy apropiada porque se aproxima a una posible arquitectura definida en mi investigación. El nivel funcional de la arquitectura es el que define la secuencia de actuación de los procesos para completar la ejecución. Beckers y Fuhr dividen este nivel en tres partes, una que se encarga de las funciones de búsqueda, organización y presentación de resultados, otra que maneja las sesiones de búsqueda y otra que se encarga de las tácticas y estrategias de búsqueda.

La principal conclusión que obtuve de la conferencia es que las colecciones de evaluaciones (por lo menos las considerablemente grandes) están en poder de las grandes empresas que las generan (Google, Yahoo! o Microsoft) y que todavía son reacias a distribuirlas libremente para investigación. Debido a esto, las investigaciones que necesitan de estas colecciones se ven perjudicadas en detrimento de estas empresas.

La segunda conclusión es que tanto las redes sociales como los dispositivos móviles adquieren cada vez más protagonismo en la investigación, tanto para desarrollar aplicaciones como para aplicar técnicas propias de ellos (tecnologías móviles y de redes sociales).

Julián Moreno Schneider es Ingeniero de Telecomunicaciones por la Universidad Carlos III de Madrid desde 2009. Actualmente Profesor de Ayuda al Máster del Área de Ciencias de la Computación e Inteligencia Artificial del Departamento de Informática de la Universidad Carlos III de Madrid y miembro del Grupo de Bases de Datos Avanzadas. Sus líneas de interés son la tecnologías del lenguaje humano (recuperación y extracción de información multilingüe en distintos dominios y búsqueda de respuestas), interacción hombre-máquina y tecnología domótica.

Finalmente Watson ganó a la humanidad

antonio.sanz — Fri, 18 Feb 2011 18:00:36 +0000

[Artículo publicado originalmente en el blog Supercomputación de Consumo el 18/02/2011]

Lo veníamos diciendo y se hizo realidad. Watson, el supercomputador de IBM, terminó ganando a los mejores concursantes humanos en el concurso televisivo “Jeopardy!” (tipo Pasapalabra). Mucho potencial de cálculo, una sorprendente capacidad de aprendizaje, un análisis profundo de datos, interpretación del lenguaje natural creado por la humanidad para superar a la humanidad. Con miedo de una mala imagen mediática, IBM se ha apresurado a analizar la victoria de Watson a través de un titular directo y esclarecedor en su web: “Humans win!” (“La humanidad gana”). Porque sin duda es un gran avance técnico, científico y un paso más en la aplicación de la inteligencia artificial.

Ahora se abren nuevas perspectivas de aplicación, en las finanzas, en call centers, para la búsqueda automática de la enfermedad dada la sintomatología, etc. En definitiva, respuestas automáticas más inteligentes. Puedes seguir los comentarios de los creadores de Watson a lo largo del video resumen de la final de “Jeopardy! The IBM Challenge”:

Watson, el superordenador de IBM más listo del mundo, gana los encuentros previos de Jeopardy

antonio.sanz — Wed, 19 Jan 2011 18:00:16 +0000

[Artículo publicado originalmente en el blog Supercomputación de Consumo el 19/01/2011]

Leemos en el blog de Sinapsis de nuestro compañero Antonio de Orbe que Watson, el supercomputador del que ya hemos hablado en este blog, ¡se ha enfrentado ya a humanos en fases de calentamiento del concurso Jeopardy!

Watson, el superordenador de IBM más listo del mundo ha ganado los encuentros de entrenamiento de Jeopardy. Ya están disponibles algunos vídeos de las rondas de entrenamiento. Cuando comenzó su andadura hace ya 4 años, el comportamiento de Watson era desesperante para sus creadores. Tras enormes esfuerzos, Watson está a punto de competir con previsible éxito en Jeopardy (concurso televisivo americano semejante a Pasapalabra). Ken Jennings y Brad Rutter, los dos mejores concursantes de la historia de Jeopardy serán sus rivales durante tres días, el 14, 15 y 16 de febrero de 2011.

Watson, llamado así por el fundador de IBM Thomas J. Watson, fue construido por un equipo de científicos de IBM que se propuso lograr un gran reto – construir un sistema de cálculo que rivalizara con los humanos en capacidad para responder a preguntas formuladas en lenguaje natural con velocidad, precisión y confianza. El formato Jeopardy! proporciona un desafío definitivo, porque las pistas del juego implican analizar sutilezas, ironía, adivinanzas y otras complejidades en las que sobresalen los seres humanos y los ordenadores tradicionalmente no lo hacen. El premio del concurso será de 1M de dólares. Los concursantes ya han anunciado que donarán parte de sus ganancias.

Según se acerca el enfrentamiento que verán en directo millones de americanos, IBM ha puesto en marcha su maquinaria mediática y hay ya disponible mucha información sobre Watson. Dado que se trata de lenguaje natural y relativo a la cultura americana, el material presenta una indudable dificultad para los hablantes no nativos de inglés. En el futuro, Watson manejará también otros idiomas.

Watson implementa cientos de algoritmos de lenguaje natural inéditos hasta la fecha. Lo hace en paralelo de modo que llega a varias respuestas distintas (en los vídeos disponibles se muestran las 3 mejores). Realiza un análisis de confianza en las mismas y solo responde cuando está razonablemente seguro de alguna de ellas (en Jeopardy las respuestas incorrectas son penalizadas).

¿Cuál es la novedad? ¿No es lo que hace Google? No, Google depende de nosotros al menos de dos formas. En primer lugar, necesita que formulemos las preguntas en lenguaje de ordenador, eligiendo unas pocas palabras como claves cuya relación es intrascendente. Así, el perro negro de la casa no se distingue de la casa negra del perro, el perro de la casa negra o la casa del perro negro. En segundo lugar, Google nos lanza una lista de resultados entre los que nosotros debemos elegir.

Pero Watson hace esto a un coste: una gigantesca capacidad de proceso y almacenamiento. En concreto:

10 racks servidores POWER7 750
con 15 terabytes de RAM y 2,880 núcleos de procesamiento
hasta 80 teraflops (80.000.000.000.000 operaciones por segundo)

¿De qué forma interacciona Watson con los humanos? Esta es quizá una pequeña desilusión. No usa reconocimiento de voz. “No puede ver ni oír” por lo recibe la información como texto electrónico, en el mismo instante en que la pregunta incide en las retinas de los otros concursantes. Aunque los concursantes a veces aprietan el pulsador antes de conocer la respuesta correcta (porque creen que la conocen y así tienen algún segundo extra), Watson debe esperar a estar seguro. Entonces, un dedo mecánico aprieta el pulsador (exactamente el mismo tipo que usan los concursantes humanos). Cuando el presentador le cede el turno, Watson convierte su respuesta de texto a voz sintetizada y habla.

“Cuando lo habitual es avanzar centímetros en Inteligencia Artificial, nosotros hemos avanzado kilómetros” dicen John Kelly III, ejecutivo de IBM y Dave Ferrucci, creador de la criatura. Los siguientes pasos: “El mundo de la medicina, o Doctor Watson si prefieren”. Watson puede consultar todos los textos médicos del mundo en segundos. Después, buscar interacciones potenciales entre medicamentos, antecedentes judiciales de un caso, conformidad con la legislación en el mundo financiero, call centers…

Actividades y colaboración con empresas del Consorcio MAVIR

Victor Peinado — Thu, 18 Feb 2010 07:00:04 +0000

[Artículo publicado originalmente en el Notiweb del 18/02/2010]

El Consorcio MAVIR “Mejorando el Acceso y la Visibilidad de la Información Multilingüe en Red para la Comunidad de Madrid” (S0505/TIC0267) es una red de investigación co-financiada durante el periodo 2006-2009 por la Comunidad de Madrid bajo el IV PRICIT. El núcleo del consorcio está formado por grupos de I+D de universidades, empresas de base tecnológica, hospitales e instituciones culturales.

El equipo investigador tiene vocación claramente interdisciplinar y está formado por ingenieros, informáticos, lingüistas y documentalistas que investigan juntos en aplicaciones de Procesamiento del Lenguaje Natural y Tecnologías de la Lengua para el Acceso a la Información Multimedia y Multilingüe en el dominio médico, cultural y de seguridad. Alrededor se ha ido desarrollando una fructífera comunidad de investigadores del área en España y el extranjero y empresas relacionadas con el Acceso y la Gestión a la Información, el mundo de la Web y la Ingeniería Lingüística que ha permitido establecer nuevos contactos, unir fuerzas y participar en proyectos de I+D conjuntos.

MAVIR investiga nuevas formas de interactuar con buscadores y desarrolla prototipos de sistemas de acceso a la información que incorporan tecnología lingüística. Actualmente hay pocos buscadores comerciales capaces de ir más allá de la consulta formada por palabras claves, capaces de interpretar consultas realizadas en lenguaje natural o de proporcionar una respuesta precisa a una pregunta concreta o un resultado más elaborado que una mera lista de sitios web. Los grupos de investigación y las empresas de MAVIR desarrollan prototipos y productos comerciales que van desde sistemas que permiten interpretar consultas complejas expresadas en lenguaje natural, hacer búsquedas inteligentes incorporando información semántica o clasificar los resultados de los buscadores y visualizarlos de forma que nos permitan navegar a través de las relaciones que entre ellos se establecen.

ACTIVIDADES PÚBLICAS DEL CONSORCIO

Una parte importante de los esfuerzos del consorcio se dedican a la organización de actividades públicas de formación, divulgación y difusión de nuestros resultados científicos: elaboración de catálogos tecnológicos,seminarios para investigadores, talleres y jornadas científicas y de transferencia de tecnología. Una vez al año, con el objetivo de hacer un repaso de las actividades del año, celebramos durante dos días nuestras Jornadas MAVIR. Estas jornadas están dedicadas a un tema o un dominio de aplicación concreto, y sirven como punto de encuentro tanto para los socios del consorcio como para los potenciales destinatarios de nuestra tecnología. El primer día las sesiones tienen un perfil más investigador: con el objetivo de abrir nuevas líneas de investigación entre nuestros socios y ampliar nuestra red de contactos, invitamos a ponentes de renombre internacional que nos presentan los últimos avances de sus trabajos. El segundo día lo solemos dedicar a la industria y programamos, junto con las empresas del consorcio, mesas redondas, showrooms y demostraciones de productos.

En 2006 celebramos las I Jornadas MAVIR en Ciudad Universitaria, de forma conjunta entre la Universidad Nacional de Educación a Distancia (UNED) y la Universidad Politécnica de Madrid (UPM). Las sesiones estuvieron centradas en las aplicaciones de la tecnología lingüística en los buscadores y el mundo de la Web. En 2007, el campus de la Universidad Europea de Madrid (UEM) acogió la segunda edición, dedicada a los casos de éxito de las Tecnologías de la Lengua en aplicaciones para las empresas. Para la tercera edición elegimos como sede el Consejo Superior de Investigaciones Científicas (CSIC) y dedicamos las jornadas al acceso y la gestión de forma inteligente de los contenidos multimedia. Finalmente, la última edición, hace solo unos meses, se celebró en la Universidad Autónoma de Madrid (UAM) y se ha centrado en la nueva realidad de la Web: las Redes Sociales.

Los últimos tres años hemos aprovechado la celebración de las jornadas para entregar el Premio MAVIR al mejor trabajo fin de carrera o tesis de máster. Patrocinado por las empresas asociadas del consorcio y dirigido a estudiantes que hubiesen presentado su trabajo en cualquier universidad española, el premio está dotado con 1.600 € en metálico.

COLABORACIÓN UNIVERSIDAD-EMPRESA

El consorcio cuenta actualmente con 12 compañías que participan en nuestras actividades en calidad deempresas asociadas. La mayoría de ellas son pequeñas y medianas empresas de base tecnológica que realizan una importante apuesta por la investigación y la innovación tecnológica. Bajo la figura de estos consorcios de la Comunidad de Madrid co-financiados por el IV PRICIT, las empresas asociadas no pueden recibir subvención directa para el desarrollo de sus actividades. Por lo tanto, el mayor beneficio que les ha aportado la participación en la red de contactos de MAVIR se ha materializado en la obtención de recursos adicionales a través de otras convocatorias de proyectos conjuntos con las universidades.

DAEDALUS e iSOCO son dos de las empresas que tradicionalmente han venido colaborando con nosotros. Ambas surgieron en la década de los 90 como spin-offs de grupos de investigación ya consolidados y han venido a aportar su experiencia a la hora de transferir al mercado los desarrollos tecnológicos del laboratorio. La colaboración en proyectos conjuntos de I+D que ya existía con Bitext, Thera y Answare Tech se ha reforzado durante los últimos cuatro años. El Grupo ALMA y la Agencia EFE son dos ejemplos de empresas que han contratado directamente a grupos del consorcio para proyectos de investigación.

Durante este periodo se han establecido contactos con nuevas empresas de base tecnológica de fuera de la Comunidad de Madrid como Corex y VÓCALI, que han participado activamente en las actividades públicas del consorcio. MAVIR también ha servido para apoyar la creación de Wipley, una red social para videojugadores fundada por jóvenes investigadores de la Universidad Europea de Madrid.

Sin embargo, una de las tareas pendientes es la incorporación formal al consorcio de empresas de gran tamaño con líneas de investigación similares a los intereses del consorcio. Así pues, uno de los objetivos que nos hemos marcado para el futuro es tratar de atraer a grandes empresas integradoras y a organismos públicos y privados para los cuales la presencia en la Web sea un factor estratégico. Hasta el momento ha habido contactos y hemos contado con algunas de estas entidades en las jornadas científicas y de transferencia tecnológica que hemos organizado, pero queremos encaminar nuestros esfuerzos a establecer relaciones de colaboración estables y continuas.

NUEVO CONSORCIO MAVIR

Desde hace un par de semanas el nuevo consorcio ha echado a andar, esta vez bajo la figura del programa MA2VICMR “Mejorando el Acceso, el Análisis y la Visibilidad de la Información y los Contenidos Multilingües y Multimedia en Red para la Comunidad de Madrid” (P2009/TIC1542). A esta nueva propuesta se han incorporado investigadores de cuatro grupos de investigación de la UPM, la Universidad Rey Juan Carlos (URJC) y la UAM. La experiencia y las capacidades de estas incorporaciones son complementarias a las tecnologías a los investigadores del anterior consorcio y nos permitirán integrar en nuestros prototipos tecnologías como el reconocimiento del habla y la síntesis de voz, la web semántica y el procesamiento de imágenes y vídeo.

Tecnologías de la Lengua para buscar información en la Web de manera más natural

Victor Peinado — Thu, 22 Jan 2009 07:00:10 +0000

[Artículo publicado originalmente en el Notiweb del 22/01/2009]

Se ha convertido casi en un tópico: vivimos rodeados de información y el volumen de ésta crece más rápidamente de lo que somos capaces de asumir. 2008 será recordado, entre otras cosas, porque ha sido el año en el que Internet mató a la estrella de la tele. Hace unas semanas se publicó la noticia de que por primera vez los españoles pasábamos más tiempo navegando en Internet que viendo la televisión. Y mientras navegamos por Internet estamos accediendo y generando distinto tipo de información (texto, imágenes y, cada vez más, vídeo) en diversas lenguas.

Los sistemas de acceso a la información que utilizamos más a menudo hoy en día son seguramente los motores de búsqueda. Pensemos por ejemplo en el catálogo de una biblioteca. Si necesitamos encontrar un determinado libro sobre Shakespeare, podemos teclear el nombre y revisar centenares de resultados entre las obras del propio Shakespeare como autor, las biografías y los libros de literatura que hablan sobre él, en inglés, castellano y probablemente otras lenguas. Siendo más concretos, si estamos buscando determinada biografía escrita por otro autor y conocemos más datos sobre el libro, podemos añadir términos adicionales a nuestra consulta o hacer una consulta por campos, diciendo explícitamente cuál es el nombre del autor y cuáles son las palabras del título. En definitiva, un catálogo de una biblioteca es un motor de búsqueda sobre una base de datos con información bibliográfica organizada por campos sobre la que podemos hacer búsquedas acerca de autores, títulos, editoriales, fechas de publicación, números ISBN, etc. Pero tengamos claro que, cuando lanzamos una consulta, el buscador no entiende las palabras que tecleamos: las trata como simples cadenas de texto y devuelve una lista ordenada de publicaciones del catálogo que contienen dichas cadenas de texto.

Un buscador web funciona de forma similar. En este caso, la base de datos (a la que llamamos índice) se construye de forma automática rastreando la Red y capturando la información de las páginas web y de los documentos publicados generando un índice que suele ser varios órdenes de magnitud mayor que cualquier catálogo de biblioteca. A diferencia de las fichas una biblioteca, cuya estructura está más o menos normalizada, la información disponible en la Web no tiene una estructura regular y los buscadores tratan de interpretar el significado de las páginas a partir de su estructura para representar el contenido de la mejor forma posible. Existen páginas web que contienen texto libre (un artículo periodístico), información organizada en tablas (horarios de trenes), hilos de conversaciones en un foro, comentarios y anotaciones a un vídeo o una foto y enlaces a otras páginas. Al construir el índice de un buscador web se asume, por ejemplo, que los títulos de las páginas, las negritas y el texto de los enlaces contienen información clave para describir su contenido. A partir de aquí, un buscador web funciona de forma similar a un catálogo bibliotecario: el usuario expresa una necesidad de información en forma de consulta y el sistema devuelve una lista de resultados relevantes ordenados según distintos criterios de relevancia. En los buscadores más sofisticados, estos resultados se muestran personalizados según la localización, el idioma, las preferencias y el perfil del usuario.

Estudiando la interacción de los usuarios con los motores de búsqueda se han identificados dos tipos principales de consultas: informacionales y navegacionales. En las primeras, el usuario busca información sobre un determinado asunto y espera adquirir conocimiento nuevo explorando los resultados devueltos por el buscador. Entran dentro de esta categoría necesidades de información del estilo “¿dónde está Springfield?”, “¿qué temas trató el presidente en su último discurso?” o “¿qué representaciones teatrales hay hoy en cartelera?”. Bajo la segunda categoría se encuentran aquellas consultas que lanzamos con el objetivo de llegar a determinada página web o recurso que sabemos con certeza que existe pero no tenemos localizado, por ejemplo: “quiero leer el notiweb de madri+d”, “¿cuál es la web del BOE?”, “necesito descargar tal aplicación para visualizar documentos PDF”.

Cuando utilizamos cualquiera de los buscadores tradicionales de hoy en día, expresamos estos dos tipos de necesidades de información de la mejor forma que podemos lanzando consultas similares formadas por listas de términos o palabras clave. Pero aquí ya empiezan los problemas: ¿Cómo decide el buscador si con “Springfield” nos referimos a una ciudad ficticia de una serie de televisión, a una capital de estado o una marca de ropa? ¿De qué presidente estamos hablando? ¿Cómo identifica el buscador que las referencias a “el Presidente del Gobierno”, “José Luis Rodríguez Zapatero” o “ZP” pueden referirse a la misma persona y pueden resultarnos interesantes? Un motor de búsqueda tradicional devuelve una lista de resultados supuestamente relevantes para la consulta y poco más, el usuario (más o menos avezado) se busca la vida a partir de aquí. ¿No sería más lógico pedirle al buscador lo que buscamos sin necesidad de usar palabras clave? ¿Qué hacemos ante una lista de resultados con millones de páginas web? ¿Cómo nos enfrentamos ante una lista de resultados escritos en una lengua extranjera que no comprendemos?

Día a día aumenta el tráfico de contenido multimedia en internet debido al éxito creciente de sitios web como Youtube, Flickr, Myspace o Facebook, en los que podemos acceder a imágenes y vídeos que los propios usuarios publican y organizan. Junto a esto, los medios de comunicación están inmersos en una carrera por publicar en la Red todos los contenidos que generan, casi en tiempo real. Es posible buscar contenido multimedia publicado en estas comunidades, pero los buscadores utilizan la misma estrategia que cuando nos enfrentamos a la búsqueda de documentos textuales: los usuarios expresan su necesidad de información con palabras clave y los motores de búsqueda devuelven aquellos vídeos o imágenes que contienen los términos de la consulta en la información asociada (título o descripción del contenido, categorías, comentarios). ¿Cómo podemos buscar imágenes, audio o vídeos de forma más eficaz?

Llamamos lenguaje natural a los idiomas que hablamos los seres humanos como el español, el chino, el inglés o el tagalo. Estos idiomas se caracterizan por estar cargados de expresividad y ambigüedad, lo que desemboca habitualmente en malentendidos y en situaciones cotidianas más o menos divertidas. Por otro lado, existen los lenguajes artificiales creados por el hombre para interaccionar con las máquinas, como Java, SQL o HTML. Al contrario que los anteriores, éstos se caracterizan por ser más rígidos ya que están diseñados precisamente para ser concisos y no ambiguos. El Procesamiento del Lenguaje Natural (PLN) es un área multidisciplinar de informática, inteligencia artificial y lingüística que estudia el lenguaje como interacción entre hombre y máquinas y cuyo objetivo último es hacer que las máquinas nos entiendan y que mejore nuestra experiencia con ellas.

El Consorcio MAVIR (Mejorando el Acceso y la Visibilidad de la Información Multilingüe en Red para la Comunidad de Madrid) es una red de investigación cofinanciada por la Comunidad de Madrid formada por grupos de I+D de universidades, empresas de base tecnológica, hospitales e instituciones culturales. El equipo investigador tiene un perfil multidisciplinar y está formado por ingenieros, informáticos, lingüistas y documentalistas que investigan juntos investiga en aplicaciones de Procesamiento del Lenguaje Natural y Tecnologías de la Lengua para el Acceso a la Información Multimedia y Multilingüe en el dominio médico, cultural y de seguridad. Algunas de estas tecnologías ya existen en herramientas y productos como los correctores ortográficos y de estilo, los sistemas de traducción automática, los asistentes virtuales que atienden a los clientes en algunas webs de bancos y grandes almacenes y los sistemas de pregunta-respuesta de algunas páginas web.