¿Es posible detener el spam? - Sección Zapping de Axxón, número 266

Lamentablemente, todos sabemos lo que es el spam. Se trata de la contracción de las palabras inglesas "spiced ham", y hace referencia a un célebre sketch del grupo británico Monty Python, en el cual iban a un bar y lo único que había era jamón picante, "spam". A medida que se quejaban y discutían con el camarero, la conversación se iba perdiendo entre una marea de "spam", "spam", "spamspamspam...", que quedaba como única palabra inteligible del diálogo.

La palabra spam define hoy al correo electrónico publicitario, espurio, repetitivo y no solicitado que inunda nuestras casillas de correo en forma permanente.

Todos somos sus víctimas, y a un nivel nunca visto en la historia. La mayor parte del spam proviene de sólo 19 empresas de publicidad ubicadas en o alrededor de Boca Ratón, estado de la Florida. Esas 19 compañías distribuyen la friolera de 54 millones de correos electrónicos no solicitados al día. Mediante un simple cálculo, veremos que suman cerca de 20 mil millones de mensajes al año.

Todos somos sus víctimas, en efecto. Pero ¿se puede hacer algo al respecto?

Joshua Goodman, David Heckerman y Robert Rounthwaite (en adelante, GH&R), escribiendo en el número de abril de 2005 de Scientific American, opinan que sí, aunque la tarea no es nada fácil. Y tienen bastante experiencia y autoridad para hablar. Los dos últimos crearon, en 1997, el primer filtro antispam basado en sistemas capaces de aprender, mientras que Heckerman es el director del Grupo de Aprendizaje de Máquinas y Estadísticas Aplicadas (MLAS) de Microsoft Resarch. Goodman y Rounthwaite ayudaron a organizar el Equipo de Producto de Microsoft que produjo las tecnologías antispam presentes en Exchange, Outlook, MSN y Hotmail. Goodman es también miembro del MLAS e investigador privado acerca del email y el spam. Por lo tanto, conocen del tema y saben lo que escriben.

Como GH&R, tenemos en claro que, como se trata de un asunto social y comercial tanto como técnico, las implicaciones son muchas y difíciles.

El spam convive con nosotros desde hace casi 30 años, ya que fue en 1978 cuando la empresa de marketing que manejaba los negocios de DEC (Digital Equipment Corporation) envió a 400 personas, vía Arpanet, un correo no solicitado exaltando las virtudes del nuevo —para la época— ordenador DecSystem 20.

El spam ha recorrido un largo camino desde entonces: más de los dos tercios de todo el tráfico de mail que circula hoy en día consisten sólo en spam. Un tercio de todos los usuarios de mail del mundo denuncian que el 80% de los mails que reciben diariamente es sencillamente spam.

Las nuevas tecnologías llegan para agravar el problema: técnicas como el denominado "phishing" hacen que los correos espurios parezcan haber sido remitidos por instituciones o individuos en el cual la víctima confía, logrando de este modo evadir los filtros establecidos en los sistemas antispam. Los spams de phishing están orientados, en verdad, a robar las claves de la computadora del usuario y las de sus tarjetas de crédito u otra información críticamente sensible. El phishing genera pérdidas anuales de más de 1200 millones de dólares por año, sólo en usos criminales de tarjetas de crédito.

Los robots colaboran con este desastre: en los salones de chat acechan robots que simulan ser usuarios humanos (usted nunca sabe si está conversando con una persona o no, circunstancia que demuestra la dificultad de evitar que el Test de Turing ofrezca falsos positivos) que permanentemente intentan convencer a sus víctimas de que se dirijan a sitios pornográficos. Los sistemas tipo Messenger bombardean a sus usuarios con spIM, equivalentes al spam del correo común. Los "spammers de enlaces" destruyen blogs enteros, por el simple expediente de corromper los rankings de los buscadores: cada vez que alguien busca el tema que usted ofrece en su bitácora, el enlace que devuelve el buscador remite en realidad a un sitio de naturaleza sexual. Su ranking cae abruptamente, y pronto su sitio no recibirá más visitas porque será filtrado como pornográfico.

Pero no todo está perdido: a pesar de que la actividad de estos delincuentes parece estar socavando —cuando no dinamitando— las comunicaciones de Internet tal como las conocemos hoy, Goodman y sus colegas afirman que "existen varias técnicas para disuadir a los spammers e interceptar sus mensajes, y varias otras están a punto de lograrse".

Pero la pregunta que surge a continuación es: ¿por qué ha proliferado el spam de esta manera monstruosa?

GH&R responden: "La causa son las fuerzas del mercado que lo favorecen: aunque no es completamente gratis, el spam es incomparablemente más barato que la publicidad convencional. Cada mensaje cuesta alrededor de un centésimo de centavo de dólar". Ello implica que un spammer hace una venta (digamos que un usuario le compra un producto por 11 dólares). Aún cuando la tasa de efectividad del spam sea inferior a 1:100.000, el spammer habrá seguido obteniendo una rentabilidad positiva. Se entiende que, en estas circunstancias, será muy difícil desalentarlo. A pesar de que sólo una cantidad ridículamente pequeña de los usuarios de mail compran o han comprado jamás un producto ofrecido a través del spam, el resto de nosotros sufre por su causa.

La sorda lucha entre spammers y antispams tiene, hoy, las características de una verdadera carrera armamentista de la Guerra Fría: uno de los rasgos más irritantes del spam estriba en que, a cada paso que los ingenieros en sistemas se atreven a dar para contrarrestarlo, el spammer responde con un cambio inteligente e innovador que le permite rodear el obstáculo. Esta espiral de avances ha determinado una especie de evolución pseudobiológica en ambos bandos, la cual se acompaña por el hecho desolador de que tanto técnicos como legisladores históricamente han hallado grandes dificultades para definir lo que es spam y lo que no.

La mayoría de las legislaciones dicen que un spam es "un correo no solicitado, de índole comercial y proveniente de un remitente con el cual el receptor no posee una relación comercial preexistente". Es una buena definición, pero desgraciadamente no sirve para nada. Imagine esta situación: yo publiqué un cuento en Axxón. A los dos meses, recibo una propuesta de New Line para convertir mi cuento en una película. El mail de New Line entra de lleno en las categorías de la definición anterior: yo no lo solicité, es comercial y nunca tuve ninguna relación con New Line Cinema. De modo que un filtro que se rigiera por esa definición debiese haber descartado el mensaje, y mi cuento se perdería de ser dirigido por Rob Reiner y protagonizado por Natasha Hendstridge. ¡Pero ese mensaje no es spam, aunque lo parezca!

Una definición alternativa dice que el spam es típicamente masivo. Pero tampoco sirve. Los mismos GH&R afirman que, para preparar las ponencias de un congreso sobre spam, solicitaron artículos a 50 expertos sobre spam de todo el mundo. Los especialistas sobre spam no se quejaron de que unos desconocidos los spamearan sobre temas relativos al spam.

Posiblemente la mejor definición sea decir que el blanco del spam es muy difuso (está dirigido al bulto y no a un target específico) y que se caracteriza por ser no deseado y no haber sido solicitado.

Como se ve, la definición concreta es extraordinariamente difícil, pero, como en el caso de la pornografía, cualquiera lo reconoce cuando lo ve.

Heckerman se asoció con Goodman y Rounthwaite en 1997, cuando les sugirió que sus avances en software capaz de aprender podían implicar una nueva y efectiva línea de acercamiento al problema del spam. Pronto comprendieron que la solución no sería única, sino un compendio de aproximaciones técnicas, desarrollos legales y estrategias a nivel de la industria de la informática en su conjunto.

Las primeras soluciones a que arribaron comprendían tecnologías similares a las que usan los antivirus, es decir, sistemas de reconocimiento de definiciones o "huellas digitales" . El ingeniero muestra a su software ejemplos de spam y permite que el sistema busque similitudes con los correos entrantes del cliente. Si las encuentra, considera que el correo que las contiene es un spam y lo elimina.

La generación de huellas digitales procede así: el sistema hace un cálculo, como por ejemplo, sumar el número de letras "a" del mensaje más 10 veces la cantidad de "b" más 100 veces la cantidad de "c", y así sucesivamente. Una vez hecha la cuenta, archiva el resultado como "huella digital" de un mensaje de spam. Luego, revisa la casilla de correo del usuario y se fija en si hay otros mensajes que tengan el mismo o similar resultado. Si es así, entiende que se trata también de spam.

El contraataque de los spammers fue sencillo: simplemente comenzaron a incluir texto al azar en sus mensajes. Los antispammers hicieron entonces que sus programas buscaran texto que obviamente fuera azaroso. Los spammers incluyeron en sus mensajes texto no random pero sí completamente no relacionado con la intención comercial del spam: así, por ejemplo, uno recibe una propaganda de medicamentos que trae incluido el reporte meteorológico para el área de Portland. Ese texto sólo pretende confundir al sistema de identificación de huellas digitales del programa antispam.

En lugar de persistir con esta tecnología, GH&R decidieron explotar las capacidades de aprendizaje de los programas más nuevos. Este software no se deja confundir por texto random, ni por líneas de informes meteorológicos (o lo que sea).

Fue por ello que los tres investigadores decidieron comenzar a aprovechar las características de los sistemas dotados de capacidad de aprendizaje, en lugar de insistir en el uso de los perimidos e imprecisos métodos de reconocimiento de definiciones.

Los sistemas con capacidad de aprendizaje son programas altamente especializados, que pueden aprender a distinguir los mensajes de spam de los emails legítimos. La principal peculiaridad de estos sistemas, apuntan los ingenieros, es que no se dejan confundir con tanta facilidad por algunas palabras o frases incluidas al azar para desvirtuar y enmascarar la verdadera naturaleza del mensaje espurio.

"De primera intención", explican GH&R, "lo intentamos con el método de aprendizaje mecánico más simple y conocido. El algoritmo Naive Bayes comienza considerando las probabilidades de que cada palabra aparezca en un mensaje. ´Click´, ´here´ y ´unsuscribe´ (o sus equivalentes castellanos "pinche", "aquí" o "desuscribirse"), por ejemplo, deben tener cada uno una posibilidad de 0,9 —siendo 1 la certeza— de aparecer en un mensaje si éste es spam, pero sólo tendrán una probabilidad de 0,2 de estar presentes en un mensaje de cualquier otro origen". Lo que hacen los científicos, entonces, es multiplicar las probabilidades de todas las palabras presentes en un mensaje y utilizar luego un principio estadístico conocido como Regla de Bayes, a través de la cual obtienen una estimación de si el mensaje es un spam o no. Los estudiosos declaran que "La estrategia Naive Bayes trabaja increíblemente bien en determinar a qué debe parecerse un email genuino, y, como todos los métodos basados en el aprendizaje, resiste los intentos más simples para confundirla". Sin embargo, GH&R son bien conscientes de las limitaciones del sistema. El sistema asume que cada palabra del email es independiente de las demás (calcula las probabilidades de cada palabra en forma aislada), y esta presunción es falsa. "Pinche", "aquí" y "desuscribirse" tienen altas probabilidades de aparecer juntas, y el hecho de considerar que no puede conducir a un grave error.

Es por este tipo de dificultades que la investigación se concentró en los modelos lineales discriminativos, que mejoran las decisiones de los modelos por medio de asignar "pesos" a ciertas características. Estas condiciones incluyen palabras y propiedades, una de las cuales podría consistir en determinar si el mensaje fue enviado a muchos destinatarios o sólo a usted. Convengamos en que es mucho más probable que se trate de un spam si en el campo To: ("para") hay cinco mil personas. Estos modelos pueden —en cierto sentido—, aprender las relaciones entre las palabras, por ejemplo, "entendiendo" que no debe asignar mucho peso a palabras que tienden a aparecer en grupos, como "click", "here" y "unsuscribe" (o sus similares en otros idiomas). Por dar un ejemplo: digamos que un modelo de Naive Bayes ve estas tres palabras, que a menudo están asociadas con el spam. Puede llegar a la conclusión de que la mera aparición de ellas constituye suficiente evidencia de que el mensaje es de naturaleza vil, llevándolo a veces a eliminar un email válido. Por el contrario, un modelo entrenado discriminativamente sabría que esas palabras tienden a aparecer juntas, asignándole entonces un peso menor y más razonable. Un sistema de estas características podría incluso llegar a aprender que palabras como "here" o "aquí" no deben recibir peso alguno en absoluto, porque, aunque son muy comunes en los mensajes de spam, son también tan usuales en el lenguaje en general que no ayudan a diferenciar lo bueno de lo malo. Los métodos discriminativos pueden también descubrir que ciertas palabras se cancelan entre sí. Aunque una palabra como "húmedas" (refiriéndose a mujeres en los spams pornográficos) sea enormemente común en el tráfico ilegal, cuando "húmedas" se encuentra detrás de la palabra "condiciones" existirá una alta probabilidad de que se trate de un reporte meteorológico y no de un aviso de muchachas ligeras de cascos (y de ropas). En este caso, el mensaje sería legítimo y no correspondería considerarlo spam.

Una ventaja adicional de los sistemas de Naive Bayes es que son fáciles de entrenar. Por contraste, determinar los pesos relativos en un sistema de discriminación es mucho más difícil. Se necesita que los programadores intenten con muchos conjuntos distintos de pesos relativos para palabras y características, de modo que puedan después utilizar el que ofrece un mejor desempeño general en diferenciar spam de mensajes verdaderos.

Afortunadamente, los investigadores han hecho grandes avances en este sentido: algoritmos como Sequential Minimal Optimization Algorithm (SMOA), desarrollado por John C. Platt de Microsoft, y el Sequential Conditional Generalized Iterative Scaling (SCGIS), creado por nuestro conocido experto Joshua Goodman, uno de los miembros de GH&R y autor del trabajo de SciAm en que se basa este Zapping, son decenas de miles de veces más veloces que las técnicas utilizadas anteriormente. Y esto es crítico cuando se trata de manejar enormes cantidades de datos para entrenar antispams, millones de mensajes y cientos de miles de valores de pesos.

A pesar de todo esto, los sistemas antispam, por mejores que sean, siempre han sido vulnerables al oscurecimiento intencional de las letras, palabras u objetivos mediante cambios o agregado de caracteres. Esta técnica de confusión se ha manifestado como una de las preferidas de los spammers. Esta limitación alcanza también a los antispam capaces de aprender.

Así, los spammers suelen escribir "M0NEY" (con un 0 en lugar de una O) en vez de "MONEY", o n@ked ("desnud@s") en lugar de "naked". También utilizan trucos de HTML (Hypertext Markup Language, el lenguaje en el que se programan, por ejemplo, las páginas web o los emails con imágenes y colores). Así, dividen una palabra en varias partes ("cl" e "ick" en vez de "click"). Como las palabras prohibidas ("money", "naked", "click") ya no se encuentran presentes, el mensaje falaz tiene buenas probabilidades de pasar los filtros y llegar a la casilla de correo. "La buena noticia", afirman GH&R, "consiste en que los sistemas de aprendizaje pueden también aprender a distinguir estos intentos de confundirlos".

Mientras tanto, volvamos a las leyes del mercado. Hemos dicho que la publicidad vía spam es la más barata de todas. Pero: ¿es efectiva? Cualquier persona a la que le preguntemos si los spammers hacen buen negocio nos dirá que cree que no. Asumimos, por tanto, que muy pocas personas (en realidad, un porcentaje infinitesimalmente pequeño de los destinatarios) responden a los avisos de spam buscando comprar el producto o servicio que en ellos se ofrecen. GH&R nos desasnan: "Desafortunadamente, esa interpretación es totalmente errónea. Los que desean un producto o servicio ilícito o ilegal no esperan que su fabricante o vendedor los publicite en un medio respetable". A poco que lo pensemos, nos daremos cuenta de que los tres investigadores están en lo cierto: si usted desea comprar pornografía, tratar con mujeres de vida airada o devorar cajas y cajas de productos contra la impotencia sexual sin receta ni supervisión médica, es improbable que recurra a la Cámara de Comercio de su país o a las Páginas Amarillas... y todos esos productos y servicios son fácilmente asequibles a través del spam. Si la publicidad existe —verdad de Perogrullo— es porque en alguna parte hay demanda.

GH&R, por lo tanto y al igual que los demás desarrolladores de filtros antispam, han tenido que volcarse a lo que los investigadores denominan modelos de n-grams ("engramas"). Un engrama consiste simplemente en subdividir las palabras en las secuencias que contienen, utilizando estos fragmentos para detectar las palabras que con frecuencia se asocian con el spam. Volviendo a uno de nuestros ejemplos anteriores, a menudo surgido del spam porno, supongamos que un mensaje contiene la frase "n@ked l@dies", que ningún filtro basado en definiciones puede reconocer. Los engramas extraerán de esta frase las subsecuencias "n@", n@k, n@ke, n@ked, "l@", y así sucesivamente. Utilizará entonces estos fragmentos —que él sabe que vienen sólo en los spam— para comparar en adelante los textos de los mensajes, en vez de limitarse al ya casi no utilizado "naked".

Las técnicas basadas en engramas también son útiles para mejorar la capacidad de los filtros cuando se los aplica a lenguajes diferentes. El ejemplo que dan GH&R es el del japonés y el chino: estos idiomas no utilizan espacios para separar las palabras, de modo que descubrir dónde termina una y comienza la otra es casi imposible. En este tipo de lenguas, los engramas sencillamente analizan cada posible palabra y fragmento de palabra.

La respuesta de los spammers al problema que se les plantea ahora es una de las más cínicas, repudiables y vergonzosas que imaginarse pueda: como todos hemos visto en nuestras bandejas de entrada, están ahora intentando confundir a los antispam por el sencillo expediente de incluir el texto del aviso en una imagen, normalmente en formato .jpg o .gif. Por supuesto que el sistema de filtrado no puede revisar el texto dentro de una imagen, con lo que, en apariencia, el envío de publicidad en forma de imágenes adjuntas pareciera ser la victoria final de estos marginales del mundo de la publicidad.

Los filtros de los que hablan GH&R, sin embargo, tienen aún otros recursos, como por ejemplo revisar los links o enlaces al pie del mensaje, investigando si refieren a un sitio conocido o no, y hacer un ranking de la buena o mala reputación del remitente.
Otra cosa que se podría hacer con los textos incluidos en imágenes es el uso del reconocimiento óptico de caracteres (OCR) para filtrar los spam. Así como muchas imágenes insertas en los spams han sido obtenidas utilizando OCR y un scanner, el procedimiento inverso puede encontrar y entender el texto dentro de la imagen e incorporarlo a los registros del software de aprendizaje del filtro.

Sabiendo que la mayoría de los usuarios de computadoras conectadas a Internet son niños, uno de los peores aspectos del spam (éste, ya, directamente encuadrado en las actividades criminales) es la constante aparición en nuestras casillas de fotos pornográficas. Por suerte, los investigadores han hecho también grandes avances en sus esfuerzos por frustrar el ingreso de material de este tipo a nuestras computadoras. El campo de trabajo es muy amplio, porque tanto podrá servir para evitar que nos bombardeen con estas fotos, como impedir el acceso de nuestros hijos a sitios web pornográficos o evitar que los pornógrafos se aprovechen de los sistemas de alojamiento gratuito de sitios web para distribuir su producto.

Se utilizan para ello sistemas de reconocimiento de gráficos, que, si bien funcionan relativamente bien, basan su funcionamiento en parámetros que fácilmente pueden inducir a error o disparar falsos positivos.

Para comprender cómo ocurre esto, hagámonos la siguiente pregunta: ¿qué es lo que caracteriza a una imagen de índole sexual? Evidentemente, la presencia de una gran cantidad de piel desnuda que ocupe un porcentaje sustancial de la superficie de la imagen. De modo que los filtros antiimágenes pornográficas funcionan según este principio. Sin embargo, fotografías como las que se muestran resultarán ser "pornográficas" para todos los filtros:

GH&R están investigando, también, el análisis de la información de las URLs (Universal Resource Locator) a efectos de distinguir el spam. Como se sabe, una dirección URL (por ejemplo http://www.qrstuvwxyz.com.es) remite a un determinado sitio web, simplemente con pinchar el mouse sobre ella.

Si uno se fija bien, verá que más del 95% de los spam contienen, en algún sitio, una URL activa. Se ha demostrado, por consiguiente, que el principal objetivo de todo spammer es lograr que el desprevenido usuario víctima haga click sobre la URL provista y desemboque en el sitio web propiedad del publicitario delictuoso. De ello se desprende que las direcciones URL son unos excelentes sujetos para que los filtros antispam las analicen.

La información que acarrean las URLs es valiosa, y se basa en ciertas características. Las URLs de los principales sitios relacionados con el spam son muy bien conocidas, y pueden incluirse en las definiciones de los filtros antispam. Segundo, los spammers cambian de sitio web (y, por lo tanto, de URLs) muy a menudo, en tanto que las URLs de los sitios legítimos suelen ser mucho menos dinámicas. Por ejemplo, http://www.microsoft.com, http://www.clarin.com.ar, http://www.rae.es o http://axxon.com.ar se han mantenido sin cambios por meses, años o décadas, y ello también puede enseñarse a los filtros antispam. Por inmediata consecuencia, todo link a una URL previamente desconocida para el filtro es un obvio sospechoso de estar incluido en un mensaje spam.
Por otro lado, la información acerca de las URLs también puede indicar claramente que un mensaje no es spam: si el mensaje que usted recibe tienen una URL referida a un sitio reconocido como no spammer (el de Axxón, por ejemplo), o si directamente no contiene URLs en absoluto, las probabilidades de que ese mensaje sea de publicidad despreciable es astronómicamente baja. Vamos, que jamás un spammer hará publicidad gratuita a Scientific American, a Axxón o a la Academia Nacional de Medicina. Aunque... pensándolo bien, será mejor que no les demos ideas, so pena de encontrar las URLs de nuestros propios sitios al pie de imágenes o propagandas non sanctas.

Aunque la mayoría de las técnicas de filtrado parecen funcionar más o menos bien, la lucha de spammers y antispammers es como la de antivirus y programadores de gusanos: una historia de nunca acabar. A cada avance de un lado se responde con otro del bando opuesto, y de allí nuestra mencionada comparación con la carrera armamentista.

Es por eso que los investigadores GH&R proponen que, en lugar de continuar con esta espiral de violencia desde aquí ad astra et ad infinitum,

corresponde abordar el problema desde otro costado. Hay que asumir que, así como los terroristas nunca dejarán de intentar poner bombas, los programadores de virus nunca dejarán de escribirlos y los spammers nunca renunciarán a enviarnos su desangelada publicidad no solicitada. Por lo tanto, lo que ansían GH&R es cambiar las reglas del juego, entendiéndose por esto que el usuario víctima, los proveedores de servicio de Internet y los fabricantes de programas antispam comiencen a solicitar de los spammers más de lo que ellos están dispuestos a dar o de lo que pueden invertir en su negocio. Un buen ejemplo de ello son los sistemas "de probanza". ¿Cómo funcionan estos y qué es la prueba que requieren?

Volviendo atrás al primer spam conocido, GH&R recuerdan que las direcciones de aquellos primeros 400 destinatarios fueron tipeadas a mano trabajosamente. "Hoy", dicen, "la práctica totalidad del spam es generada y enviada en forma automática. Si el remitente puede demostrar que él o ella es un ser humano, por lo tanto seguramente no es un spammer, y su mensaje puede ser considerado válido". Burla burlando, caemos de nuevo en manos del Test de Turing. Moni Naor, del israelí Instituto Weizmann de Ciencias, hizo uso de este concepto en el primer sistema de probanza conocido. Naor propuso utilizar lo que hoy se conoce como HIPs (Human Interactive Proofs, "Medios de Prueba Interactivos Humanos"), CAPTCHAs (Completely Automated Public Turing Test to Tell Computers and Humans Apart, es decir, "Test de Turing Público Totalmente Automatizado para Diferenciar entre Humanos y Ordenadores"), o Test de Turing inversos.

¿Qué significa todo esto? Un HIP es un problema o rompecabezas diseñado para ser facilísimo para la mayoría de los humanos, pero casi imposible para una computadora. Todos nos hemos asociado a una lista de correos o a cualquier sitio web en el cual, antes de franquearnos el acceso, se nos exige que reconozcamos algunos textos o caracteres parcialmente deformados u oscurecidos. El cerebro humano es muy bueno para encontrar formas ocultas en un contexto dado, pero las máquinas no encuentran sentido en los gráficos distorsionados. De este modo, la lista de correos o el sitio de Internet verifican que están tratando con un ser humano verdadero. Es una de las formas más simples del Test de Turing.

En el problema que nos ocupa, podría incluirse un HIP: antes de entregar un mensaje, el servidor de correos del destinatario busca al remitente en su lista de personas u organizaciones "confiables". Si lo encuentra, entrega el mensaje sin más. En caso contrario, devuelve al remitente un mensaje conteniendo un sencillo HIP. Si el remitente resuelve el HIP, la respuesta viaja hasta el servidor que, con la confirmación de que en el otro extremo hay una persona y no un dinosaurio, una computadora o una bomba termonuclear, transfiere el mensaje a la casilla de tráfico entrante del destinatario. ¿Complicado? A esto nos obligarán nuestros amigos, los despreciables spammers. Por supuesto que el sistema es molesto: a nadie le gusta tener que resolver un rompecabezas o a reconocer letras deformes para enviar un simple email. Incluso, a veces, los HIPs de reconocimiento de caracteres me han parecido incomprensibles, dado el alto grado de distorsión de los caracteres. La solución, en ese caso, es recargar la página para que el sistema ofrezca un juego diferente. Si la página es muy pesada o nuestra conexión muy lenta, es obvio que será peor el remedio que la enfermedad. Algunos usuarios directamente se niegan a permitir que se dude de su condición humana, y se rehusan de lleno a resolver HIP alguno por razones de orgullo, ética, ideología o moral.

Otro mecanismo de probanza alternativo, también desarrollado por Naor junto con su colega Cynthia Dwork, usa rompecabezas generados por computadora. Para entregar un mensaje, el sistema de mail del receptor exige que se resuelva un rompecabezas. La idea es probar que el remitente ha invertido en el envío del mensaje más tiempo y recursos de los que un spammer puede disponer a esos efectos. "Los rompecabezas computacionales son como los de piezas de cartón que vienen en cajas: difíciles de resolver pero fáciles de verificar", declaran GH&R. "En promedio, requieren muchos segundos o incluso minutos enteros para ser resueltos, pero la corrección de los resultados se verifica en escasos milisegundos". La idea es obligar a los spammers a comprar muchas enormes, poderosas y costosísimas computadoras para resolver los problemas, lo que volverá sus costos publicitarios prohibitivos de inmediato.

Un tercer sistema de probanza utiliza incluso dinero real. El remitente adjunta a su mensaje una especie de cheque virtual que opera contra su cuenta bancaria. Este cheque electrónico es de un valor muy pequeño, digamos un centavo de peso argentino, un tercio de centavo de euro o medio centavo de dólar. Los únicos mensajes que son procesados por los servidores de correo son los que contienen el cheque; los otros son eliminados sin más trámite. Si un mensaje en concreto es considerado válido, el servidor de correo del destinatario simplemente ignora el cheque. Si, en cambio, se demuestra que se trata de un spam, el sistema cobra el cheque y se lo acredita en la cuenta del destinatario (o, aún mejor, lo dona automáticamente a la Asociación Argentina de Lucha contra el Mal de Chagas-Mazza). El servidor de email puede incluso disponer de información sobre las cuentas y los balances del remitente, de modo que un software de cálculo contable verifique que el volumen de mensajes liberados por ese individuo o empresa no supere los valores que su estado financiero puede abordar. Si este límite se supera, estamos sin lugar a dudas en presencia de un spammer (o de alguien que tiene serios problemas con sus acreedores o con la autoridad fiscal de su país).

La esencia de este sistema es la siguiente: para un usuario legítimo es gratuito, pero a los spammers les cuesta un centavo por mensaje. Si recordamos la estimación del principio de este artículo, un centavo es 100 veces el costo de cada spam antes de la implementación de este nuevo filtro. Para los individuos o compañías legítimas, el costo de los cheques virtuales vendrán incluidos en la factura de su proveedor de servicios de Internet o en el precio del software de correo. Como él no es un spammer, nunca se acreditarán sus cheques y el dinero podrá ser reclamado en el futuro, de modo que el filtrado no le costará nada. ¿Alguien puede dudar de que este método literalmente destruirá a los spammers?

Sin embargo, a pesar de su lógica inatacable, este tipo de sistemas antispam basados en intercambios financieros pueden ser extremadamente difíciles de poner en práctica en el mundo real.

La principal contra es que cualquier implementación informática, por pequeña o simple que sea, ocasiona ciertos gastos fijos: tiempo de procesador, espacio en disco, energía eléctrica, mano de obra, tiempo y atención por parte de los administradores. De aquí se desprende que el sistema no será verdaderamente gratuito. Quedan otras preguntas laterales que merecen ser meditadas, y casi todas se refieren a la infraestructura bancaria referida a los micropagos electrónicos que el sistema exigirá. Algunas de ellas son: ¿De dónde saldrá el dinero para efectuar los pagos? ¿Cómo se realizarán las operaciones en sí? ¿Quién será el que en última instancia se quede con el beneficio? ¿Qué sistemas se implementarán para evitar los fraudes? Aunque ninguno de estos problemas es insoluble, estas y otras preguntas aún permanecen sin respuesta.

GH&R afirman con soltura: "Nuestra estrategia preferida para detener el spam combina tecnologías de filtrado con una amplia selección de exámenes de probanza: HIPs, rompecabezas y microcheques. De tal modo, si un remitente no se encuentra en la lista de personas seguras, el email será derivado a un filtro antispam basado en sistemas de aprendizaje informático, que habrá sido diseñado para comportarse de modo ferozmente agresivo. Si el mensaje es aunque sea apenas sospechoso, se desafiará a su autor. La mayor parte de los mensajes enviados de un ser humano a otro, sin embargo, no recibirán respuesta al desafío: el número de probanzas decaerá dramáticamente. El remitente será puesto ante una disyuntiva: resolver un HIP, armar un rompecabezas, o hacer un micropago. Si el remitente posee un software de versión reciente, este resolverá el rompecabezas automáticamente, de manera transparente para el usuario". Para ello, como es obvio, el costo del posible spam deberá estar incluido en el software, lo cual no gustará a todos. Si el software no es de los más modernos y el remitente no figura en la "lista blanca" del destinatario, tendrá que resolver el rompecabezas, descifrar el HIP o hacer un micropago.

La pregunta —que es también la del autor de este Zapping— sigue en pie: ¿cuántos de nosotros, que bajamos a todos los santos del cielo cada vez que Altavista nos propone un HIP, estaremos dispuestos a pagar un centavo, armar un complicado rompecabezas o descifrar cuatro letras que parecen jeroglíficos sólo para mandar un saludo de cumpleaños a nuestra tía Maruja?

Es claro que las compañías o instituciones, grandes o pequeñas, pueden hacer mucho por sí mismas para intentar morigerar el problema del spam. Una solución completa requerirá, además, de la cooperación de toda la industria del hardware y el software y de todos los gobiernos nacionales. Que ese momento llegue, cuando los gigantes del software se sacan los ojos entre ellos y muchos son condenados por las leyes antimonopólicas, cuando los fabricantes de hardware hacen ex profeso sus productos incompatibles con los de la competencia y cuando las naciones luchan, se bombardean y guerrean entre sí todo el tiempo, puede ser más bien una expresión de deseos o sencillamente fruto de un milagro.

La realidad es que dos tercios de todos los emails que circulan hoy en día utilizan lo que se llama direcciones de remitente obtenidas por "spoofing", esto es, falsas. Ello es posible, según GH&R, porque "los protocolos de mail que se utilizan hoy en día están basados en la confianza: los remitentes simplemente declaran quiénes son y los destinatarios les creen. Este concepto funcionaba bien en los comienzos de Internet, antes de que proliferara el spam y antes de que se comenzara a usar el email para operaciones de negocios".

Como todos los que vivimos de la computación sabemos, es más fácil pasar a Mike Tyson por el ojo de una aguja que cambiar un protocolo de comunicaciones. Y en lo que respecta a los protocolos de email, más fácil sería pasar por el ojo de la aguja a una manada de elefantes indios.

Sin embargo, un nuevo estándar de la industria está dirigido al problema del spoofing de direcciones de mail: se lo denomina SIDF, lo que significa Sender ID Framework, algo así como "Marco de Referencia de Identificación de Remitentes". El SIDF opera agregando información adicional al servidor de nombre de dominios (DNS), que le permite poseer un listado de las direcciones IP (Internet Protocol, "Protocolo de Internet") que se supone están autorizadas a enviar emails desde un dominio determinado.

Clarifico: la dirección IP es una dirección numérica de cuatro términos separados por puntos, del tipo "vvv.xxx.yyy.zzz". Supongamos que la dirección IP del servidor DNS de Axxón es 201.199.56.175. Todos los DNSs del mundo saben que los mensajes que provienen de la dirección 201.199.56.175 corresponden a un remitente cuyo dominio (la parte que viene después de la arroba, "@") se denomina axxon.com.ar. Esto está muy bien. Pero... ¿qué sucede si hay un spammer que ha conseguido falsear su verdadera dirección de email y su IP, y está distribuyendo miles de millones de mensajes viles que parecen provenir de 201.199.56.175 y cuyo campo From: ("De") muestra algo como pepe@axxon.com.ar? Los pobres responsables de una prístina y completamente inocente revista literaria se verán en graves problemas.

El SIDF lo resuelve de un modo sencillo: notifica a los servidores DNS cuáles son las IPs autorizadas para mandar emails a través de la placa de red del servidor de Axxón, esto es, 201.199.56.175. El spammer que spoofeó la IP de Axxón lo está enviando desde una IP que no figura en esa lista, por lo que el servidor DNS, al compararla, sabrá que se trata de un mensaje ilegal y no autorizado por el servidor de mail de la revista. En otras palabras, sabrá que es un spam y lo eliminará sumariamente. Lo mismo podrá hacer cualquier software de correo electrónico.

Claro que, aunque conocer con certeza la identidad del remitente es materia crítica en este problema, no puede resolverlo por sí sola. Los spammers profesionales —nuestros muchachos de Boca Ratón— falsifican una nueva identidad cada día, cada algunas horas o, mejor, cada pocos minutos. Algo que ayudará a amargarles la vida será el uso de los llamados "servicios de reputación". Un servicio de reputación es el medio del que se vale un remitente para probar quién es y que su tráfico de correo es veraz y legítimo.

Uno de los programas que se basan en este principio se llama IronPort´s Bonded Sender. A través de él, el remitente deposita dinero en una empresa fiadora de garantías. Los destinatarios pueden quejarse del remitente. Cuando las quejas superan un cierto porcentaje o umbral, el síndico transfiere automáticamente la garantía del remitente a, de nuevo, la Asociación Argentina de Lucha contra el Mal de Chagas-Mazza, por supuesto que en forma definitiva y sin derecho a devolución.

Los filtros antispam pueden consultar al IronPort, que les envía una lista de remitentes certificados, es decir, que no generan quejas o cuyas quejas se mantienen por debajo del límite aceptable. Los que figuran en la "lista blanca" de IronPort pasan tranquilamente por los filtros del cliente, incluso aunque parezcan sospechosos. Si están en su "lista negra", sus mensajes serán eliminados, aunque contengan la receta de las deliciosas berenjenas en escabeche de la buena de la tía Maruja. Sin derecho al pataleo.

Es más: cualquier ISP (como MSN o AOL) puede afiliarse a un servicio de reputación y acceder a sus programas de certificación. A partir de ahí, podrá comenzar a monitorear a sus usuarios, el volumen de emails que envían y los índices de quejas que generan, para de esa forma asegurarse de que ninguno de ellos es un spammer. Dónde queda la privacidad y el derecho a la libre información sin censura previa es otro asunto. Una vez más, diremos que a estos extremos están empujando los cínicos spammers a las sociedades humanas.

GH&R afirman que si todos los remitentes adoptaran un sistema como el descripto (para el que no encuentran muchas razones contrarias), los filtros antispam podrían hacerse mucho más agresivos en el tratamiento de los emails restantes, eliminando de este modo la inmensa mayoría de los mensajes basura. Los desafíos de HIP, CAPTCHAs, Test de Turing inversos o micropagos pueden brindar diferentes alternativas a los que no se han afiliado al primer método.

Un acercamiento complementario para detener el spam debe ser la legislación gubernamental. Los norteamericanos adoptaron en enero de 2004 un acta denominada CAN-SPAM. Esta acta no declara ilegales a los mensajes de spam, sino que solamente prohibe el uso de ciertas técnicas ilícitas, como falsear la información del campo From:. Como otras iniciativas similares, el CAN-SPAM no parece funcionar: la circulación de mensajes espurios con campos From: falsos se incrementó de un 41 a un 67% desde que el acta entró en vigor. La Comunidad Europea, por su parte, se comportó de modo mucho más agresivo: sus leyes de opción positiva ("opt-in") evitan, en teoría, que las empresas comerciales envíen publicidad no solicitada sin la autorización expresa del destinatario. Al igual que en el caso estadounidense, estas leyes no sirven para nada. Lo único que han logrado las leyes europeas es que las empresas legítimas no envíen publicidad spameada. Lo cual es ridículo. ¿Alguna vez recibió usted un spam de Ford, BankBoston, Coca-Cola, AmericanExpress, British Caledonian, ITT o Topper? Por supuesto que no. Me siento bobo escribiendo esto, pero quiero desayunar a los países europeos de un hecho extraño e increíble: las compañías legales no utilizan el spam, simplemente porque disponen de ingentes presupuestos para publicidad que les permiten contratar espacios televisivos, gráficos o murales que literalmente cuestan decenas de millones de euros y son miles de veces más efectivos que el triste y lamentable spam. Si las armas químicas y biológicas son las "armas nucleares de los países pobres" por su alta eficiencia en relación a su escaso costo, el spam es la "publicidad televisiva" de los empresarios paupérrimos, ya que tiene una escasa efectividad frente a un costo ínfimo. Con respecto a la necesidad de solicitar permiso antes de mandar email que exige la ley europea, analicemos el caso de las empresas ilegítimas (por ejemplo una compañía de pornografía)... ¿A que no adivina cómo le solicitarán su autorización expresa para enviarle spam? La respuesta es obvia: ¡a través de un mensaje masivo que incluye en sí mismo la publicidad! O sea: la norma antispam sólo consigue generar más spam.

GH&R manifiestan correctamente que ninguna ley de un país solo puede aspirar a terminar con el spam. Pero, a juicio del autor, yerran por chauvinismo o falla de información al afirmar que "sólo el 50% del spam proviene de los Estados Unidos; el resto se origina en otros países". Como dijimos al principio, aunque el país de origen de un email es bastante difícil de establecer, muchas fuentes muy serias y confiables sostienen que casi todo el spam proviene de EEUU. Igualmente, aunque GH&R tuviesen razón, la proporción es absurda y vergonzosa para el pueblo y el gobierno norteamericanos: entre 140 países, uno solo genera el 50% de la basura que circula por la web.

También dicen estos tres investigadores que sólo uno de cada tres productos ofrecidos por spam requieren de una presencia física en los Estados Unidos, y citan como ejemplo el spam referido a aseguradoras o refinanciamiento de deudas. Nos permitimos dudar del porcentaje. A poco, bienintencionados o no, querrán hacernos creer que una empresa química basada en Níger puede producir los 30 millones de dosis de Viagra que se consumen por mes, o que un sitio web con sede en la Guayana Francesa puede contratar a 40 grandes estrellas porno para las producciones fotográficas de sus páginas. Puede que las empresas no tengan presencia física en EEUU, pero si los capitales que las sostienen pueden ser de otro origen, es igualmente posible que las vacas aprendan próximamente a volar y los cerdos a silbar. Según los autores indicados, la mayor parte del spam, como la pornografía, los mejoradores sexuales y los mails de "confianza" (aquellos donde se nos requieren datos para que un supuesto dictador exiliado deposite numerosos millones de dólares en nuestras cuentas), están incursos en una de estas tres posibilidades: o están en el extranjero, o pueden fácilmente pasar al extranjero, o ya son ilegales en los EEUU. Como se ve claramente, en los dos últimos casos se trata de empresas norteamericanas o basadas en Estados Unidos. ¿Por qué afirman GH&R, entonces, que son extranjeras?

A pesar del nacionalismo descarado de GH&R, hay que reconocer que han hecho y hacen mucho en la lucha por terminar con el spam. Conscientes de que sólo con el esfuerzo mancomunado de los industriales informáticos, de la comunidad open-source y de los académicos de todo el mundo se podrá frenar este flagelo, GH&R han organizado, hace poco, el primer simposio formal sobre el spam (la Conferencia sobre Email y Antispam), que contó con la presencia de investigadores de todo el mundo. En ella, investigadores de IBM demostraron el uso que se puede dar a la tecnología bioinformática —diseñada originalmente para comparar patrones genéticos— a efectos de discernir patrones que definen mensajes de spam. Los investigadores de AmericaOnLine mostraron que una conjunción de múltiples sistemas de reconocimiento de huellas digitales cargados cada uno con diferentes vocabularios podían llevar a cabo una mejor defensa contra la confusión que intentan los spammers. Un equipo de la Universidad de California en Davis describió cómo la adición de unas pocas palabras muy comunes puede implicar un ataque efectivo contra los filtros de spam basados en el aprendizaje y cómo, entrenándolos, los sistemas se volvían más resistentes a estos ataques.

GH&R concluyen diciendo: "Pocas dudas nos quedan de que la combinación de las técnicas actuales y las de la próxima generación eventualmente detendrán a la mayoría del spam. Siempre va a haber, por cierto, algunos spammers que estarán deseosos de pagar el precio de quebrar nuestros filtros y llegar a nuestras casillas de correo, pero creemos que la inundación se convertirá en un hilito de agua".

Dios los oiga.

Más datos:

Learning to Filter Unsolicited Commercial E-Mail

A Bayesian Approach to Filtering Junk E-Mail

Conference on Email and Anti-Spam

Spam: Technologies and Policies

(Traducido, adaptado y ampliado por Marcelo Dos Santos de SciAm y de otros sitios de Internet)