Darpa está desarrollando un motor de búsqueda para la Web Oscura (Dark Web)

DARPA está desarrollando un nuevo motor de búsqueda que pretende arrojar luz sobre la Dark Web y descubrir patrones y relaciones en los datos en línea para ayudar a hacer cumplir la ley y demás seguimientos de las actividades ilegales

El proyecto, denominado Memex, ha estado en marcha durante un año y está siendo desarrollado por 17 equipos de diferentes contratistas que están trabajando con la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) de los militares norteamericanos. Google y Bing, con resultados de búsqueda influenciados por popularidad y el ranking, sólo pueden capturar aproximadamente el cinco por ciento de la internet. El objetivo de Memex es construir un mejor mapa de mayor cantidad de contenido de Internet.

«El principal problema que estamos tratando de encarar es un abordaje estandarizado a la internet, donde [los resultados de la búsqueda se basen] en publicidad para el consumidor y clasificación», dice el Dr. Chris White, director del programa de Memex, que dio una demostración del motor al programa 60 Minutes.

Para lograr este objetivo, Memex no sólo «raspa» el contenido de los millones de páginas web regulares que son ignoradas por los motores de búsqueda comerciales, sino que también será un registro de miles de sitios en la llamada Dark Web, sitios tales como el emporio de las drogas Silk Road, que son parte de la red TOR de servicios ocultos.

Estos sitios, que tienen direcciones web .onion, sólo se pueden acceder a través del navegador TOR, y sólo por aquellos que conocen la dirección específica de un sitio. Aunque sí existen sitios que listan algunas páginas ocultas de servicios a menudo en torno a un tema específico, y ya hay, incluso, un motor de búsqueda llamado Grams para descubrir sitios de venta de drogas ilícitas y otros artículos de contrabando, la mayoría de los servicios ocultos siguen estando muy por debajo del alcance del radar.

White dice que parte del proyecto Memex está dirigida a determinar cuánto tráfico TOR está relacionado con sitios de servicios ocultos. «Las mejores estimaciones anteriores estaban en dígitos individuales de miles», dice. «Pero creemos que hay, en cierto momento, entre 30.000 y 40.000 sitios ocultos Hidden Service Onion que tienen contenido en ellos que uno podría índizar».

El contenido de Hidden Services es público —en el sentido de que no es protegido por contraseña—, pero no es fácilmente accesible a través de un motor de búsqueda comercial. «Estamos tratando de avanzar hacia un mecanismo automatizado para encontrar [sitios de servicios ocultos] y hacer accesible el contenido público de ellos», dice White. El equipo Darpa también quiere encontrar una manera de entender mejor el volumen de negocios de dichos sitios: las relaciones que existen, por ejemplo, entre dos sitios cuando uno de ellos cae y aparece un sitio aparentemente sin relación.

Pero los creadores de Memex no sólo quieren indexar el contenido de los sitios no descubiertos aún. También quieren utilizar métodos automatizados para analizar ese contenido con el fin de descubrir relaciones ocultas que podrían ser útiles a la policía, los militares, e incluso al sector privado. El proyecto Memex actualmente cuenta con ocho socios que participan en las pruebas y el despliegue de prototipos. White no dice quiénes son los socios, pero ellos planean probar el sistema en torno a varias áreas temáticas o dominios. El primer dominio apuntado son los sitios que parecen estar implicados en la trata de personas. Pero la misma técnica podría aplicarse al seguimiento de los brotes de Ébola o «cualquier dominio donde haya una flujo de contenidos en línea, en el que no vas a conseguirlo si haces una consulta a la vez y un enlace a la vez», dice.

En una demostración realizada para 60 Minutes, el equipo de White mostró cómo la Ley posiblemente podría seguir el movimiento de las personas, tanto de trata como de traficantes, basándose en los datos relacionados con la publicidad en línea para el sexo. Lo emitido en 60 Minutes no dejó en claro cómo se hizo esto, y parece centrarse en la dirección IP de donde fueron alojados los anuncios, lo que implica que seguir un anuncio que se mueve de una dirección IP a otra podía revelar a la policía dónde está ubicado el traficante. Pero White dice que la dirección IP es la información menos importante que analizan. En su lugar, se centran en apuntar otros datos.

«A veces es una función de la dirección IP, pero a veces es una función de un número de teléfono o la dirección en el anuncio, o la geolocalización de un dispositivo que ha publicado el anuncio», dice. «A veces hay otros artefactos que contribuyen a la ubicación.»

Por ejemplo, un anuncio que intenta vender los servicios sexuales de una mujer o un niño en un entorno regional podría aparecer en otro lugar e incluir una dirección regional, o número de teléfono. White dice que este tipo de datos han sido utilizados por los investigadores para encontrar mujeres que fueron objeto de trata.

«Se puede imaginar un escenario en el que las personas se están moviendo por todo el país con las mujeres y está interesado publicitarlas, por lo que publican anuncios en diferentes lugares. Puede involucrar a las mismas mujeres y algo de la misma información, como números de teléfono. Con métodos de conectar el contenido a través de atributos, lo que significa que comparten el mismo número o la imagen que aparece en los anuncios, usted puede crear una red para comprender dónde están conectadas estas cosas y dónde puede estar situadas».

 

 

Él señala que la conexión de los anuncios en línea con el mundo real no siempre es exacta o una concordancia de uno-a-uno. «Pero eso es por eso que hay investigadores y fiscales involucrados para interpretar y tomar decisiones. Darpa sólo crea la tecnología, y las organizaciones adoptan la tecnología para usarla».

White no va a decir cuánto cuesta el programa, pero dice que es comparable a otros proyectos de ciencia de la infomación que han sido financiados en $ 10 a $ 20 millones de dólares.

Fuente: Wired. Aportado por Eduardo J. Carletti

Más información: