Los buscadores web están incorporando de manera progresiva técnicas de procesamiento lingüístico cada vez más sofisticadas, con el objetivo de interpretar lo que los usuarios realmente quieren decir cuando teclean una consulta, proporcionar mejores respuestas y eliminar la ambigüedad semántica. Hasta ahora la mayoría de los buscadores trataban las consultas como meras cadenas de caracteres. El reto ahora es interpretar esas cadenas de texto, identificar los conceptos y entidades a los que se refieren, en definitiva, comprender las consultas para ofrecer respuestas y no enlaces. Algo que buscadores como Ask.com o Wolfram|Alpha llevan tiempo persiguiendo.
La semana pasada se celebró en Madrid la reunión de LiMoSINe, un proyecto europeo del Séptimo Programa Marco en el que participa un equipo multinacional conformado por miembros del Grupo NLP&IR-UNED, las universidades de Amsterdam, Glasgow y Trento, el Barcelona Media Research de Yahoo! y la empresa LLORENTE & CUENCA. Como explica el profesor Julio Gonzalo en esta entrevista para ElConfidencial.coml, el proyecto tiene como objetivo facilitar el trabajo de los consultores de comunicación a la hora de resumir la ambigüedad que se produce en Internet y enriquecer las búsquedas. A partir de la salida que proporcionan distintos motores de búsqueda, LiMoSINe busca comprender los textos en de la Web mediante análisis lingüístico, identificar de qué entidades y productos se habla, y las relaciones que se establecen entre ellos.
En esta misma línea, Google acaba de presentar su Knowledge Graph (GKG) bajo el lema things, not strings. Knowledge Graph funciona como una capa extra que se añade al buscador y que analiza las búsquedas de los usuarios para identificar posibles nombre propios que hagan referencia a personajes y celebrities, lugares, compañías, monumentos, canciones y bandas de música, clubes y equipos deportivos, conceptos, etc., y los enlaza con la información estructura publicada en fuentes como Wikipedia, Freebase y CIA World Factbook. El resultado de todo esto es que, cuando en un consulta se identifica el nombre de una entidad reconocida, el interfaz de búsqueda no solo muestra el tradicional ránking de resultados con las páginas web relevantes, sino que incorpora información relacionada con la entidad y la muestra de manera estructurada. Según Google, este intento por comprender mejor las consultas de los usuarios nos va a permitir aprender y descubrir nueva información a través de las búsquedas.
Los detalles de GKG están descritos en este paper de Valentin I. Spitkovsky y Angel X. Chang publicado en LREC 2012 “A Cross-Lingual Dictionary for English Wikipedia Concepts” y las colecciones de datos están disponibles. Mike Bergman ha publicado también un interesante análisis en Deconstructing the Google Knowledge Graph.