Una poco considerada herramienta estadística podría ayudar a los robots a entender mejor los objetos en el mundo que les rodea
El reconocimiento de objetos es uno de los problemas más estudiados en la visión por computadora. Sin embargo, un robot que manipula objetos en el mundo tiene que hacer algo más que reconocerlos, también tiene que entender su orientación. ¿Está esa taza del lado correcto, hacia arriba, o al revés? ¿Y en qué dirección se encuentra a su asa?
Para mejorar la capacidad de los robots para determinar la orientación de los objetos, Jared Glover, un estudiante graduado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, está explotando una construcción estadística llamada distribución de Bingham. En un documento que está presentando en noviembre en la Conferencia Internacional de Robots y Sistemas Inteligentes, Glover y la alumna del MIT Sanja Popovic, que ahora trabaja en Google, describen un nuevo algoritmo de visión robótica basada en la distribución de Bingham, que es un 15 por ciento mejor que el mejor competidor en la identificación de objetos familiares en escenas desordenadas.
Ese algoritmo, sin embargo, es para el análisis de los datos visuales de alta calidad en ambientes familiares. Debido a que la distribución de Bingham es una herramienta para razonamiento probabilístico, promete aún mayores ventajas en contextos donde la información es irregular o poco fiable. En los trabajos en curso, Glover está utilizando distribuciones de Bingham para analizar la orientación de pelotas de ping-pong en vuelo, como parte de un proyecto más amplio para enseñar a los robots a jugar al ping-pong. En los casos en que la información visual es particularmente pobre, su algoritmo ofrece una mejora de más de 50 por ciento sobre las mejores alternativas.
«La alineación es la clave para muchos de los problemas de la robótica, desde la detección de objetos al seguimiento para cartografía», dice Glover. «Y la ambigüedad es, realmente, el reto fundamental para conseguir buenos alineamientos en escenas altamente desordenadas, como el interior de un refrigerador o en un cajón. Es por eso que la distribución Bingham parece ser una herramienta útil, porque permite que el algoritmo obtenga más información de cada característica local ambigua».
Debido a la distribución de Bingham es tan importantes para su trabajo, Glover también ha desarrollado un conjunto de herramientas de software que acelerará los cálculos que ellos implican. El software está disponible gratuitamente en Internet, para que otros investigadores la utilicen.
En la rotación
Una de las razones por la cual la distribución de Bingham es tan útil para la visión del robot es que proporciona una manera de combinar información de diferentes fuentes. En general, la determinación de la orientación de un objeto implica el tratar de superponer un modelo geométrico del objeto sobre los datos visuales captadas por una cámara. En el caso de trabajo de Glover, es una cámara Kinect de Microsoft, la cual captura una imagen en color 2-D junto con información acerca de la distancia de los distintos parches de color.
Por razones de simplicidad, imaginemos que el objeto es un tetraedro, y el modelo geométrico consiste en cuatro puntos que marcan las cuatro esquinas del tetraedro. Imaginemos también que el software ha identificado cuatro lugares en una imagen donde los valores de color o profundidad cambian abruptamente, o sea con probabilidad de ser las esquinas de un objeto. ¿Se trata de un tetraedro?
El problema, entonces, se reduce tomar dos conjuntos de puntos —el modelo y el objeto— y determinar si se puede superponer uno al otro. La mayoría de los algoritmos, incluyendo el de Glover, darán una primera puntada en la alineación de los puntos. En el caso del tetraedro, supongamos que, después de que esa alineación provisional, todos los puntos en el modelo están cerca de un punto en el objeto pero no coincidiendo perfectamente con él.
Si los dos conjuntos de puntos, de hecho, describen el mismo objeto, a continuación se pueden alinear rotando uno de ellos alrededor del eje correcto. Para cualquier par dado de puntos —uno del modelo y uno del objeto— es posible calcular la probabilidad de que la rotación de un punto en un ángulo particular alrededor de un eje particular lo alineará con el otro. El problema es que la misma rotación podría mover otros pares de puntos y dejarlos más alejados el uno del otro.
Glover fue capaz de demostrar, sin embargo, que las probabilidades de rotación para cualquier par dado de puntos puede ser descrito como una distribución de Bingham, lo que significa que se pueden combinar en una sola, la distribución acumulativa de Bingham. Eso permite que el algoritmo de Glover y Popovic exploren posibles rotaciones en principio de una manera, y convergiendo rápidamente en la que proporciona el mejor ajuste entre los puntos.
Por otra parte, de la misma manera que la distribución Bingham puede combinar las probabilidades de cada par de puntos en una sola probabilidad, puede también incorporar probabilidades de otras fuentes de información, tales como estimaciones de la curvatura de las superficies de objetos. La versión actual del algoritmo de Glover y Popovic integra las probabilidades del punto de rotación con varias otras probabilidades.
En experimentos con datos visuales sobre escenas particularmente atestadas —que representan los tipos de entornos en los que operaría un robot hogareño— el algoritmo de Glover tenía aproximadamente la misma tasa de falsos positivos que el mejor algoritmo existente: alrededor del 84 por ciento de sus identificaciones de objetos fueron correctas, frente a un 83 por ciento para la competencia. Pero fue capaz de identificar un porcentaje significativamente mayor de objetos en las escenas: el 73 por ciento frente al 64 por ciento. Glover sostiene que esta diferencia se debe a la mejor capacidad de su algoritmo para determinar las orientaciones de los objetos.
También cree que las fuentes de información adicionales podrían mejorar aún más el desempeño del algoritmo. Por ejemplo, la distribución de Bingham también podría incorporar información estadística acerca de los objetos particulares… que, por ejemplo, una taza de café puede estar al revés, o correctamente hacia arriba, pero muy rara vez se las encuentra en una posición diagonal.
De hecho, es a causa de la flexibilidad de la distribución de Bingham que Glover la considera una herramienta prometedora para la investigación robótica. «Usted puede pasar su programación a un robot para encontrar mesas y sillas y tazas y cosas así, pero no hay realmente una gran cantidad de herramientas de uso general», dice Glover. «Con los problemas más grandes, como la estimación de las relaciones entre los objetos y sus atributos, y hacer frente a lo que es un tanto ambiguo, realmente no estamos ni cerca de donde necesitamos estar. Y hasta que podamos hacer eso, realmente creo que los robots van a ser muy limitados».
Fuente: MIT. Aportado por Eduardo J. Carletti
Más información: