El mes pasado tuve la oportunidad de participar en “Language Engineering for Online Reputation Management”, taller que tuvo lugar en la conferencia sobre recursos lingüísticos y evaluación LREC (Language Resources and Evaluation Conference), en Estambul (Turquía).

El taller tenía como objetivo poner en común las distintas perspectivas, tanto académicas y empresariales, sobre un tema que cada vez suscita más interés: la gestión de reputación online. El uso cada vez más extendido de los medios sociales y la dinamicidad en que los usuarios comparten tanto información factual como opiniones sobre compañías, personajes públicos y productos generan la necesidad clara de analizar y mantener la imagen pública de las compañías en la red.

Julio Gonzalo (UNED) fue quien inauguró el taller describiendo el objetivo del mismo y dando una visión global de las dos principales tareas en reputación online: auditoría de imagen (profiling) y monitorización (monitoring). Ambas tareas serán por primera vez objeto de estudio como campaña de evaluación en el RepLab 2012, que tendrá lugar en la conferencia CLEF en septiembre de 2012 en Roma (Italia). A continuación, Miguel Lucas de Acteo presentó un estudio que compara 15 herramientas comerciales de monitorización online, realizado en colaboración con Llorente y Cuenca, en el que se concluye que no existe la herramienta perfecta y que hay un amplio margen de mejora en lo que se refiere al análisis automático de menciones (análisis de sentimientos, filtrado de contenido no relevante en consultas ambiguas, etc.)

Ralph Steinberger del Joint Reseach Centre (JRC, European Comission) presentó el trabajo realizado junto a Alexandra Balahur titulado “The Challenge of Processing Opinions in Online Contents in the Social Web Era”, en el que se analizan las principales diferencias y similitudes entre las definiciones clásicas de “minería de opiniones” y “análisis de sentimientos” y la polaridad asociada a la reputación de una entidad en medios online. Patrick Brennan (Juola & Associates) nos contó cómo los métodos de estilometría pueden servir para extraer información demográfica, como el género o edad, del autor. Fredrik Olsson de Gavagai, presentó la arquitectura de Ethersource, un componente software que se encarga de proporcionar anotaciones semánticas a las menciones recuperadas previamente de Twitter, basado en semántica distribucional y modelos de espacio vectorial.

Ernest Aredarenko (University of Eastern Finland) ha presentado el framework SoMEST (Social Media Event Sentiment Timeline). Por un lado, el framework tiene un componente que se encarga de monitorizar noticias para extraer entidades y eventos definidos previamente en una ontología. Por otro lado, el componente de minería de opiniones clasifica la polaridad (positiva, negativa o neutral) de opiniones utilizando una aproximación de aprendizaje automático.

Por mi parte, he presentado un corpus para la identificación de aspectos y objetos de opinión de compañías en Twitter, trabajo que he realizado durante mi estancia en el grupo de investigación ILPS (Information and Language Processing Systems) de la Universidad de Amsterdam.

Para finalizar el taller, hemos discutido los resultados de una encuesta rellenada por los participantes, sobre las tareas en las que se trabaja, las distintas fuentes de información utilizadas, idiomas, etc. Parece ser que los dos escenarios principales, profiling y monitorización, son ampliamente compartidos tanto desde el punto de vista académico como empresarial. Por otro lado, las redes sociales y, especialmente, los servicios de microblogging como Twitter son los medios más prioritarios para la monitorización, aunque en algunos escenarios como en el ámbito político, las noticias en medios online, y los comentarios asociados a las mismas, suelen tener prioridad.

Me congratula enormemente ver cómo las necesidades de los expertos en reputación online pueden traducirse en retos científicos para investigadores de tecnologías de acceso a la información, en donde evaluaciones objetivas permiten medir la calidad de herramientas automáticas que optimizan el esfuerzo de los analistas de reputación online.

Los artículos del taller Language Engineering for Online Reputation Management ya están disponibles.


Damiano Spina es Ingeniero en Informática por la Universidad Complutense de Madrid. Actualmente es investigador en el Grupo de Procesamiento del Lenguaje Natural y Recuperación de Información de la UNED y está realizando su tesis doctoral en la aplicación de tecnologías de la lengua para la gestión de reputación online, abarcando tareas tareas como la desambiguación de entidades nombradas, el resumen de “social streams” en tiempo real y la minería de opiniones.

Share →