[Artículo publicado originalmente en el Notiweb del 22/01/2009]

Se ha convertido casi en un tópico: vivimos rodeados de información y el volumen de ésta crece más rápidamente de lo que somos capaces de asumir. 2008 será recordado, entre otras cosas, porque ha sido el año en el que Internet mató a la estrella de la tele. Hace unas semanas se publicó la noticia de que por primera vez los españoles pasábamos más tiempo navegando en Internet que viendo la televisión. Y mientras navegamos por Internet estamos accediendo y generando distinto tipo de información (texto, imágenes y, cada vez más, vídeo) en diversas lenguas.

Los sistemas de acceso a la información que utilizamos más a menudo hoy en día son seguramente los motores de búsqueda. Pensemos por ejemplo en el catálogo de una biblioteca. Si necesitamos encontrar un determinado libro sobre Shakespeare, podemos teclear el nombre y revisar centenares de resultados entre las obras del propio Shakespeare como autor, las biografías y los libros de literatura que hablan sobre él, en inglés, castellano y probablemente otras lenguas. Siendo más concretos, si estamos buscando determinada biografía escrita por otro autor y conocemos más datos sobre el libro, podemos añadir términos adicionales a nuestra consulta o hacer una consulta por campos, diciendo explícitamente cuál es el nombre del autor y cuáles son las palabras del título. En definitiva, un catálogo de una biblioteca es un motor de búsqueda sobre una base de datos con información bibliográfica organizada por campos sobre la que podemos hacer búsquedas acerca de autores, títulos, editoriales, fechas de publicación, números ISBN, etc. Pero tengamos claro que, cuando lanzamos una consulta, el buscador no entiende las palabras que tecleamos: las trata como simples cadenas de texto y devuelve una lista ordenada de publicaciones del catálogo que contienen dichas cadenas de texto.

Un buscador web funciona de forma similar. En este caso, la base de datos (a la que llamamos índice) se construye de forma automática rastreando la Red y capturando la información de las páginas web y de los documentos publicados generando un índice que suele ser varios órdenes de magnitud mayor que cualquier catálogo de biblioteca. A diferencia de las fichas una biblioteca, cuya estructura está más o menos normalizada, la información disponible en la Web no tiene una estructura regular y los buscadores tratan de interpretar el significado de las páginas a partir de su estructura para representar el contenido de la mejor forma posible. Existen páginas web que contienen texto libre (un artículo periodístico), información organizada en tablas (horarios de trenes), hilos de conversaciones en un foro, comentarios y anotaciones a un vídeo o una foto y enlaces a otras páginas. Al construir el índice de un buscador web se asume, por ejemplo, que los títulos de las páginas, las negritas y el texto de los enlaces contienen información clave para describir su contenido. A partir de aquí, un buscador web funciona de forma similar a un catálogo bibliotecario: el usuario expresa una necesidad de información en forma de consulta y el sistema devuelve una lista de resultados relevantes ordenados según distintos criterios de relevancia. En los buscadores más sofisticados, estos resultados se muestran personalizados según la localización, el idioma, las preferencias y el perfil del usuario.

Estudiando la interacción de los usuarios con los motores de búsqueda se han identificados dos tipos principales de consultas: informacionales y navegacionales. En las primeras, el usuario busca información sobre un determinado asunto y espera adquirir conocimiento nuevo explorando los resultados devueltos por el buscador. Entran dentro de esta categoría necesidades de información del estilo “¿dónde está Springfield?”, “¿qué temas trató el presidente en su último discurso?” o “¿qué representaciones teatrales hay hoy en cartelera?”. Bajo la segunda categoría se encuentran aquellas consultas que lanzamos con el objetivo de llegar a determinada página web o recurso que sabemos con certeza que existe pero no tenemos localizado, por ejemplo: “quiero leer el notiweb de madri+d”, “¿cuál es la web del BOE?”, “necesito descargar tal aplicación para visualizar documentos PDF”.

Cuando utilizamos cualquiera de los buscadores tradicionales de hoy en día, expresamos estos dos tipos de necesidades de información de la mejor forma que podemos lanzando consultas similares formadas por listas de términos o palabras clave. Pero aquí ya empiezan los problemas: ¿Cómo decide el buscador si con “Springfield” nos referimos a una ciudad ficticia de una serie de televisión, a una capital de estado o una marca de ropa? ¿De qué presidente estamos hablando? ¿Cómo identifica el buscador que las referencias a “el Presidente del Gobierno”, “José Luis Rodríguez Zapatero” o “ZP” pueden referirse a la misma persona y pueden resultarnos interesantes? Un motor de búsqueda tradicional devuelve una lista de resultados supuestamente relevantes para la consulta y poco más, el usuario (más o menos avezado) se busca la vida a partir de aquí. ¿No sería más lógico pedirle al buscador lo que buscamos sin necesidad de usar palabras clave? ¿Qué hacemos ante una lista de resultados con millones de páginas web? ¿Cómo nos enfrentamos ante una lista de resultados escritos en una lengua extranjera que no comprendemos?

Día a día aumenta el tráfico de contenido multimedia en internet debido al éxito creciente de sitios web como YoutubeFlickrMyspaceFacebook, en los que podemos acceder a imágenes y vídeos que los propios usuarios publican y organizan. Junto a esto, los medios de comunicación están inmersos en una carrera por publicar en la Red todos los contenidos que generan, casi en tiempo real. Es posible buscar contenido multimedia publicado en estas comunidades, pero los buscadores utilizan la misma estrategia que cuando nos enfrentamos a la búsqueda de documentos textuales: los usuarios expresan su necesidad de información con palabras clave y los motores de búsqueda devuelven aquellos vídeos o imágenes que contienen los términos de la consulta en la información asociada (título o descripción del contenido, categorías, comentarios). ¿Cómo podemos buscar imágenes, audio o vídeos de forma más eficaz?

Llamamos lenguaje natural a los idiomas que hablamos los seres humanos como el español, el chino, el inglés o el tagalo. Estos idiomas se caracterizan por estar cargados de expresividad y ambigüedad, lo que desemboca habitualmente en malentendidos y en situaciones cotidianas más o menos divertidas. Por otro lado, existen los lenguajes artificiales creados por el hombre para interaccionar con las máquinas, como Java, SQL o HTML. Al contrario que los anteriores, éstos se caracterizan por ser más rígidos ya que están diseñados precisamente para ser concisos y no ambiguos. El Procesamiento del Lenguaje Natural (PLN) es un área multidisciplinar de informática, inteligencia artificial y lingüística que estudia el lenguaje como interacción entre hombre y máquinas y cuyo objetivo último es hacer que las máquinas nos entiendan y que mejore nuestra experiencia con ellas.

El Consorcio MAVIR (Mejorando el Acceso y la Visibilidad de la Información Multilingüe en Red para la Comunidad de Madrid) es una red de investigación cofinanciada por la Comunidad de Madrid formada por grupos de I+D de universidades, empresas de base tecnológica, hospitales e instituciones culturales. El equipo investigador tiene un perfil multidisciplinar y está formado por ingenieros, informáticos, lingüistas y documentalistas que investigan juntos investiga en aplicaciones de Procesamiento del Lenguaje Natural y Tecnologías de la Lengua para el Acceso a la Información Multimedia y Multilingüe en el dominio médico, cultural y de seguridad. Algunas de estas tecnologías ya existen en herramientas y productos como los correctores ortográficos y de estilo, los sistemas de traducción automática, los asistentes virtuales que atienden a los clientes en algunas webs de bancos y grandes almacenes y los sistemas de pregunta-respuesta de algunas páginas web.

MAVIR investiga nuevas formas de interactuar con buscadores y desarrolla prototipos de sistemas de acceso a la información que incorporan tecnología lingüística. Actualmente hay pocos buscadores comerciales capaces de ir más allá de la consulta formada por palabras claves, capaces de interpretar consultas realizadas en lenguaje natural o de proporcionar una respuesta precisa a una pregunta concreta o un resultado más elaborado que una mera lista de sitios web. Los grupos de investigación y las empresas de MAVIR desarrollan prototipos y productos comerciales que van desde sistemas que permiten interpretar consultas complejas expresadas en lenguaje natural, hacer búsquedas inteligentes incorporando información semántica o clasificar los resultados de los buscadores y visualizarlos de forma que nos permitan navegar a través de las relaciones que entre ellos se establecen.

Tagged with:  
Share →