El ojo del Estado en internet: Información en línea que se redacta sola

La lectura con máquinas se usa para crear dossiers informativos sobre personas y organizaciones a partir de la traducción de sitios de noticias

Tienen el aspecto de páginas de Wikipedia, escritas por una comunidad de redactores. Sin embargo, estos artículos (breves perfiles de personas y organizaciones, junto a listas de organizaciones, personas y acontecimientos relacionados) en realidad están escritos por ordenadores, en lo que supone una nueva apuesta del Pentágono por construir máquinas que puedan seguir los acontecimientos mundiales y proporcionen a los analistas de inteligencia resúmenes útiles casi en tiempo real.

El prototipo del sistema es parte de un sitio no público construido para las agencias de inteligencia por Raytheon BBN en Cambridge, Massachusetts (Estados Unidos), y su entrega al gobierno estadounidense está programada para finales de este año. Recopila información de 40 sitios web de noticias que están escritos en inglés, chino y árabe, y en última instancia cubrirá cientos de sitios de noticias en todos los idiomas principales. Además, en el futuro el sistema se vinculará con una la red ya existente de análisis de las emisiones de televisión.

En el nuevo sitio, si buscas información sobre el movimiento yihadista nigeriano Boko Haram, se obtiene un resumen completo generado por ordenador: «Fundado por Mohammed Yusuf en 2002, Boko Haram está liderado por Ibrahim Abubakar Shekau. (Entre sus líderes anteriores está Mohammed Yusuf). Tiene su sede en Maiduguri. Se ha descrito como ‘una nueva secta fundamentalista radical’, ‘el principal generador de caos en el estado’, ‘una secta fracturada sin estructura clara’ y ‘la secta extremista equivocada’.»

No hay duda de que el artículo en Wikipedia sobre Boko Haram es más claro. Pero el sistema de BBN captura todo lo que aparece en los sitios de noticias, no solo los temas sobre los que la gente ha elegido escribir en Wikipedia, y añade información de forma constante y automática, afirma Sean Colbath, científico sénior de BBN Technologies, que mostró la tecnología. «Yo me podría poner a leer 200 artículos para aprender más acerca de Bashar Al-Assad (el dictador sirio), pero me gustaría tener una máquina que me lo contase todo», afirma Colbath. (El sistema, por cierto, recoge el hecho de que el brutal Al-Assad es un oftalmólogo certificado).

El proceso comienza con la detección de una «entidad», un nombre o una organización, como por ejemplo Boko Haram, teniendo en consideración que la ortografía del nombre puede cambiar. Después, se identifican otras entidades (eventos y personas) que estén conectadas, junto con declaraciones hechas por y sobre el tema. «Las relaciones entre las entidades se extraen de forma automática», indica Colbath. «La máquina aprende, tras recibir ejemplos, la forma de unir estas relaciones y llenar los espacios en blanco».

La página de Boko Haram pasa a enumerar las organizaciones y las declaraciones asociadas sobre el grupo. Al hacer clic en cualquiera de ellas podemos ir a las fuentes de noticias originales, que suelen ser traducciones de artículos publicados originalmente en árabe por sitios como Al-Sharq en Qatar y Al-Balad en el Líbano.

El proyecto BBN es fruto del esfuerzo más reciente la Agencia de Proyectos Avanzados de Investigación en Defensa (DARPA) por construir máquinas que lean como lo hacen los humanos, un desafío de décadas de antigüedad que se fue investigando con cada vez más interés desde hace algunos años. Bajo el programa de investigación de la DARPA, SRI International, IBM y Raytheon BBN han construido varios prototipos.

Bonnie Dorr, directora de programa para el proyecto en la DARPA, señala que la tecnología incorpora las mejoras más recientes dentro de la lectura por máquinas, lo que le permite una mejor comprensión de aquellos momentos en que el mismo evento básico se describe de múltiples formas, como por ejemplo ‘Joe está casado con Sue’ y ‘Sue es la esposa de Joe’, así como en el caso de tener que determinar el sentimiento implícito en frases como ‘realmente impresionante’.

Hacer un resumen automático de un texto es notoriamente difícil, debido a la dificultad para detectar el humor, el sarcasmo, la información obviamente incorrecta, las expresiones idiomáticas, así como las variantes ortográficas y de sintaxis, por no hablar de los problemas inherentes a la interpretación y la traducción de las fuentes de información en diferentes idiomas.

Fuente: Technology Review. Aportado por Eduardo J. Carletti

Más información: