Archivo de la categoría: Matemáticas

Un algoritmo para reconocer canciones distingue las voces de los delfines

El mismo método que emplean los móviles para identificar melodías, basado en la altura de las notas, ha servido a investigadores estadounidenses para caracterizar las llamadas de veinte delfines

Cada vez que en un bar suena una canción cuyo nombre no recordamos, podemos echar mano de aplicaciones móviles capaces de identificarla tan solo registrando su melodía. El método matemático que usan estos programas ha servido para crear un algoritmo que distingue de manera rápida y sencilla las diferentes voces de los delfines.

El estudio, publicado esta semana en la revista PLOS ONE, describe el funcionamiento de esta herramienta numérica que se basa en el código de Parsons de contornos melódicos, un sistema que identifica una pieza musical a partir de la altura de sus notas.

Los investigadores del Instituto Nacional de Síntesis Matemática y Biológica (NIMBios) de Knoxville (EE UU) analizaron con el nuevo algoritmo las señales de 400 llamadas de veinte delfines nariz de botella y lograron relacionar correctamente cada silbido con su dueño.

Hasta ahora el método utilizado consistía en el análisis de los espectrogramas –gráficos de las frecuencias de una señal–, para distinguir las variaciones que caracterizan a cada silbido.

Este complicado sistema es lento y requiere de un gran número de datos. Sin embargo, el código de Parsons solo considera para cada instante de tiempo si el tono de la melodía sube, baja o se mantiene constante.

“El método se centra en los datos que realmente importan y descarta la información que no es útil para el análisis”, señala Arik Kershenbaum, uno de los autores del trabajo e investigador del NIMBios.

Los hallazgos de Kershenbaum y su equipo servirán para mejorar los sistemas de diferenciación de las voces de los delfines, clave en el estudio de las redes de comunicación de estos animales.

“Las voces de los cetáceos son muy variadas y tienen diversas funciones. Determinar qué aspectos de estas señales guardan la información es crucial para ser capaces de clasificar los sonidos y encontrar su verdadero significado”, indica el científico estadounidense.

Cosa de familia

Los delfines nariz de botella se reconocen entre ellos por su nombre. El silbido que cada individuo desarrolla durante la juventud es diferente del de sus congéneres, y sienten preferencia por las voces de sus parientes. Por eso, la especie utiliza este sistema de identificación para mantener unido el grupo.

Referencia bibliográfica: Kershenbaum A, Sayigh LS, Janik VM. 2013. “The encoding of individual identity in dolphin signature whistles: how much information is needed?”. PLOS ONE, 23 de octubre de 2013.

Fuente: Sinc. Aportado por Eduardo J. Carletti

Más información:

Mejora la visión robótica

Una poco considerada herramienta estadística podría ayudar a los robots a entender mejor los objetos en el mundo que les rodea

El reconocimiento de objetos es uno de los problemas más estudiados en la visión por computadora. Sin embargo, un robot que manipula objetos en el mundo tiene que hacer algo más que reconocerlos, también tiene que entender su orientación. ¿Está esa taza del lado correcto, hacia arriba, o al revés? ¿Y en qué dirección se encuentra a su asa?

Para mejorar la capacidad de los robots para determinar la orientación de los objetos, Jared Glover, un estudiante graduado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, está explotando una construcción estadística llamada distribución de Bingham. En un documento que está presentando en noviembre en la Conferencia Internacional de Robots y Sistemas Inteligentes, Glover y la alumna del MIT Sanja Popovic, que ahora trabaja en Google, describen un nuevo algoritmo de visión robótica basada en la distribución de Bingham, que es un 15 por ciento mejor que el mejor competidor en la identificación de objetos familiares en escenas desordenadas.

Ese algoritmo, sin embargo, es para el análisis de los datos visuales de alta calidad en ambientes familiares. Debido a que la distribución de Bingham es una herramienta para razonamiento probabilístico, promete aún mayores ventajas en contextos donde la información es irregular o poco fiable. En los trabajos en curso, Glover está utilizando distribuciones de Bingham para analizar la orientación de pelotas de ping-pong en vuelo, como parte de un proyecto más amplio para enseñar a los robots a jugar al ping-pong. En los casos en que la información visual es particularmente pobre, su algoritmo ofrece una mejora de más de 50 por ciento sobre las mejores alternativas.

«La alineación es la clave para muchos de los problemas de la robótica, desde la detección de objetos al seguimiento para cartografía», dice Glover. «Y la ambigüedad es, realmente, el reto fundamental para conseguir buenos alineamientos en escenas altamente desordenadas, como el interior de un refrigerador o en un cajón. Es por eso que la distribución Bingham parece ser una herramienta útil, porque permite que el algoritmo obtenga más información de cada característica local ambigua».

Debido a la distribución de Bingham es tan importantes para su trabajo, Glover también ha desarrollado un conjunto de herramientas de software que acelerará los cálculos que ellos implican. El software está disponible gratuitamente en Internet, para que otros investigadores la utilicen.

En la rotación

Una de las razones por la cual la distribución de Bingham es tan útil para la visión del robot es que proporciona una manera de combinar información de diferentes fuentes. En general, la determinación de la orientación de un objeto implica el tratar de superponer un modelo geométrico del objeto sobre los datos visuales captadas por una cámara. En el caso de trabajo de Glover, es una cámara Kinect de Microsoft, la cual captura una imagen en color 2-D junto con información acerca de la distancia de los distintos parches de color.

Por razones de simplicidad, imaginemos que el objeto es un tetraedro, y el modelo geométrico consiste en cuatro puntos que marcan las cuatro esquinas del tetraedro. Imaginemos también que el software ha identificado cuatro lugares en una imagen donde los valores de color o profundidad cambian abruptamente, o sea con probabilidad de ser las esquinas de un objeto. ¿Se trata de un tetraedro?

El problema, entonces, se reduce tomar dos conjuntos de puntos —el modelo y el objeto— y determinar si se puede superponer uno al otro. La mayoría de los algoritmos, incluyendo el de Glover, darán una primera puntada en la alineación de los puntos. En el caso del tetraedro, supongamos que, después de que esa alineación provisional, todos los puntos en el modelo están cerca de un punto en el objeto pero no coincidiendo perfectamente con él.

Si los dos conjuntos de puntos, de hecho, describen el mismo objeto, a continuación se pueden alinear rotando uno de ellos alrededor del eje correcto. Para cualquier par dado de puntos —uno del modelo y uno del objeto— es posible calcular la probabilidad de que la rotación de un punto en un ángulo particular alrededor de un eje particular lo alineará con el otro. El problema es que la misma rotación podría mover otros pares de puntos y dejarlos más alejados el uno del otro.

Glover fue capaz de demostrar, sin embargo, que las probabilidades de rotación para cualquier par dado de puntos puede ser descrito como una distribución de Bingham, lo que significa que se pueden combinar en una sola, la distribución acumulativa de Bingham. Eso permite que el algoritmo de Glover y Popovic exploren posibles rotaciones en principio de una manera, y convergiendo rápidamente en la que proporciona el mejor ajuste entre los puntos.

Por otra parte, de la misma manera que la distribución Bingham puede combinar las probabilidades de cada par de puntos en una sola probabilidad, puede también incorporar probabilidades de otras fuentes de información, tales como estimaciones de la curvatura de las superficies de objetos. La versión actual del algoritmo de Glover y Popovic integra las probabilidades del punto de rotación con varias otras probabilidades.

En experimentos con datos visuales sobre escenas particularmente atestadas —que representan los tipos de entornos en los que operaría un robot hogareño— el algoritmo de Glover tenía aproximadamente la misma tasa de falsos positivos que el mejor algoritmo existente: alrededor del 84 por ciento de sus identificaciones de objetos fueron correctas, frente a un 83 por ciento para la competencia. Pero fue capaz de identificar un porcentaje significativamente mayor de objetos en las escenas: el 73 por ciento frente al 64 por ciento. Glover sostiene que esta diferencia se debe a la mejor capacidad de su algoritmo para determinar las orientaciones de los objetos.

También cree que las fuentes de información adicionales podrían mejorar aún más el desempeño del algoritmo. Por ejemplo, la distribución de Bingham también podría incorporar información estadística acerca de los objetos particulares… que, por ejemplo, una taza de café puede estar al revés, o correctamente hacia arriba, pero muy rara vez se las encuentra en una posición diagonal.

De hecho, es a causa de la flexibilidad de la distribución de Bingham que Glover la considera una herramienta prometedora para la investigación robótica. «Usted puede pasar su programación a un robot para encontrar mesas y sillas y tazas y cosas así, pero no hay realmente una gran cantidad de herramientas de uso general», dice Glover. «Con los problemas más grandes, como la estimación de las relaciones entre los objetos y sus atributos, y hacer frente a lo que es un tanto ambiguo, realmente no estamos ni cerca de donde necesitamos estar. Y hasta que podamos hacer eso, realmente creo que los robots van a ser muy limitados».

Fuente: MIT. Aportado por Eduardo J. Carletti

Más información:

Analizando la viralidad de las imágenes en una red social

¿Qué hace que una imagen sea viral? El primer estudio sobre la viralidad de las imágenes en Google+ revela algunas pistas curiosas

La ciencia de las redes ha cambiado cómo se piensa en la difusión de información, las enfermedades, e incluso las modas. Quizá la revelación más importante que nos ha dado es que la conectividad de la red importa cuando llega la hora de la difusión viral de casi cualquier cosa.

Por ejemplo, el tamaño final de un incendio forestal viene determinado por la conectividad de los árboles —lo cerca que están unos de otros— pero no tiene casi nada que ver con el tamaño de la chispa que inició el fuego.

La misma idea explica por qué algunos mensajes de Internet se convierten en algo viral, mientras que otros que podrían parecer igual de interesantes, graciosos o indignantes nunca llegan a nada. Está todo relacionado con el estado y la conectividad de la red en el momento en el que se lanza el mensaje.

Y sin embargo, sí hay características importantes del contenido del mensaje que hacen que la gente quiera pasarlo. En los últimos años, varios equipos de investigación han estudiado el contenido de los mensajes virales para ver qué clase de «salsa mágica» tienen en común.

Un estudio analizó artículos publicados en el New York Times y las emociones que suscitaban en los comentarios. Halló una relación clara entre la fuerza del sentimiento y la viralidad del artículo.

Sorprendentemente, no se ha hecho casi ningún trabajo sobre la viralidad de las imágenes, a pesar del importantísimo papel que desempeñan en Internet. Eso ha cambiado gracias al trabajo de Marco Guerini en Trento RISE (Italia) y un par de amigos suyos.

Estos investigadores han estudiado las características de las imágenes que se difunden de forma viral en Google+. Y han descubierto una serie de características comunes a ellas y por qué resultan atractivas a la gente en distintas formas.

Guerini y compañía empezaron por recolectar casi 300.000 entradas públicas de los 1.000 usuarios más seguidos en Google+ entre junio de 2011 y junio de 2012. De éstos, unos 175.000 contenían imágenes estáticas, 13.000 contenían imágenes animadas, y unas 100.000 eran entradas sólo de texto.

El equipo estudió tres índices de viralidad, observando cómo se compartían cada una de estas entradas, se daba al botón de +1 (el equivalente al «me gusta») y se respondía a ellas.

Y dividieron las imágenes en varias categorías para ver cómo le iba a cada una. Por ejemplo, compararon la viralidad de imágenes versus entradas solo de texto, descubriendo que las entradas con una imagen tienen mucha más probabilidad de compartirse, algo que cabría esperar.

Pero también descubrieron efectos intrigantes. Las entradas con menos de 75 +1 tienen una mayor probabilidad de contener imágenes, mientras que las entradas con más de 75 +1 tienen una mayor probabilidad de ser solo texto. Guerini y compañía creen saber por qué. «Aunque es más fácil impresionar con imágenes en el flujo de información… el contenido textual de alta calidad impresiona más», afirman.

Otra comparación que hacen es entre imágenes estáticas y animadas. Las últimas tienen una probabilidad mucho mayor de ser compartidas mientras que las estáticas tienen una mayor probabilidad de recibir comentarios o un +1. Guerini y compañía afirman que el índice mayor de imágenes animadas compartidas se explica debido a que las imágenes animadas suelen estar diseñadas para transmitir «un pequeño clip ‘memético'».

Curiosamente, las imágenes verticales tienden a ser más virales que las horizontales. Los investigadores lo achacan al hecho de que es más probable que las imágenes verticales contengan el retrato de un famoso que las horizontales. (La mayoría de los usuarios más seguidos en Google+ son famosos de una clase u otra).

También compararon imágenes en blanco y negro con imágenes en color, imágenes brillantes con imágenes menos brillantes, y así sucesivamente.

Por último analizaron la correlación entre índices de viralidad. Afirman que los índices de +1 y respuesta están muy correlacionados, mientras que el índice de compartir parece ser independiente. «Nuestra hipótesis es que los +1 y las respuestas se pueden considerar una forma de respaldo, mientras que los compartidos son una forma de representación de uno mismo», explican.

En otras palabras, la mayoría de los usuarios consideran el acto de compartir una forma de expresión que dice algo sobre ellos mismos, mientras que responder y darle al +1 juegan un papel diferente.

Es un primer paso interesante para explorar la viralidad de las imágenes. Y está claro que queda trabajo por delante. Guerini y sus compañeros afirman que quieren analizar factores como la composición de una foto y su contenido, usando reconocimiento automático de escenas/objetos.

Que este tipo de trabajo sirva para ayudar a los famosos (o a cualquier otra persona) a hacer que sus entradas sean más virales está por ver. Pero lo que sí está claro es que no impedirá que sigan intentándolo.

Fuente: Technology Review. Aportado por Eduardo J. Carletti

Más información: