Investigadores proponen una mejor manera de extraer sentido de Grandes Grupos de Datos (Big Data)

Nueva aplicación de un concepto clásico desafía a las más actuales herramientas estadísticas

Existen grandes conjuntos de datos, técnicamente Big Data, en todas partes, y se nos dice constantemente que tienen las respuestas a casi cualquier problema que queramos resolver. Las empresas recopilan información sobre la forma en que compramos, los médicos y las compañías de seguros reúnen resultados de pruebas médicas, y los gobiernos recopilan registros de nuestras llamadas telefónicas y correos electrónicos. En cada caso, la esperanza es que se esconde una perspectiva crítica en lo profundo de grandes cantidades de información, a la espera de ser descubierto.

Dos investigadores del Cold Spring Harbor Laboratory desafían los avances más recientes en este análisis de grandes datos, utilizando un concepto matemático clásico para hacer frente a los problemas pendientes en este campo.

Pero simplemente tener una gran cantidad de datos no es lo mismo que entenderlos. Cada vez más, se necesitan nuevas herramientas matemáticas para extraer el significado de enormes conjuntos de datos. En un trabajo publicado en línea esta semana, dos investigadores del Cold Spring Harbor Laboratory (CSHL) desafían los más recientes avances en este campo, utilizando un concepto matemático clásico para hacer frente a los problemas pendientes en el análisis de los grandes conjuntos de datos, o Big Data.

¿Qué significa analizar grandes volúmenes de datos? Un objetivo importante es encontrar patrones entre cantidades al parecer no relacionadas, tales como los ingresos y las tasas de cáncer. Muchas de las herramientas estadísticas más comunes sólo son capaces de detectar patrones si el investigador tiene alguna expectativa acerca de la relación entre las cantidades. Parte del atractivo de los grandes datos es que pueden revelar patrones inesperados, completamente nuevos. Por lo tanto, los científicos e investigadores han trabajado para desarrollar métodos estadísticos que descubrir estas nuevas relaciones.

En 2011, un distinguido grupo de investigadores de la Universidad de Harvard publicó un artículo muy influyente en la revista Science con un avance sólo en una herramienta de este tipo. Pero en un artículo publicado ahora en la revista de la Academia Nacional de Ciencias, Justin Kinney, miembro de Biología Cuantitativa de CSHL, y el profesor asistente de CSHL Gurinder «Mickey» Atwal, demostraron que esta nueva herramienta es sumamente deficiente. «Su herramienta estadística no tiene las propiedades matemáticas que ellos alegan», dice Kinney.

Kinney y Atwal muestran que una herramienta correcta estuvo oculta a la vista todo el tiempo. La solución, dicen, es una medición matemática bien conocida llamada «información mutua» (mutual information), descrita por primera vez en 1948. Fue utilizada inicialmente para cuantificar la cantidad de información que podría transmitirse electrónicamente a través de un cable de teléfono; el concepto ahora subyace en el diseño de infraestructuras de telecomunicaciones del mundo. «Lo que hemos encontrado en nuestro trabajo es que este mismo concepto también se puede utilizar para encontrar patrones en los datos», explica Kinney.

Aplicada a los grandes datos, la información mutua es capaz de revelar patrones en grandes listas de números. Por ejemplo, se puede utilizar para analizar los patrones en conjuntos de datos sobre las numerosas especies de bacterias que nos ayudan a digerir los alimentos. «Esta herramienta en particular es perfecta para encontrar patrones en los estudios sobre el microbioma humano, entre muchas otras cosas», dice Kinney.

Es importante señalar que la información mutua proporciona una manera de identificar todos los tipos de patrones en los datos sin depender de ninguna hipótesis anterior. «Nuestro trabajo demuestra que la información mutua resuelve muy naturalmente este problema crítico en las estadísticas», dice Kinney. «Este hermoso concepto matemático tiene el potencial de beneficiar en gran medida el moderno análisis de datos, en la biología y muchos otros campos importantes.»

La investigación descrita aquí fue apoyada por el Centro de Biología Cuantitativa Simons en el Cold Spring Harbor Laboratory.

«Equitability, mutual information, and the maximal information coefficient» aparece en línea en PNAS el 17 de febrero de 2014. Los autores son: Justin Block Kinney y Gurinder Singh Atwal. El documento se puede obtener en línea en: http://www.pnas.org/content/early/2014/02/14/1309933111.abstract.

Acerca de Cold Spring Harbor Laboratory

Fundado en 1890, Cold Spring Harbor Laboratory (CSHL) ha dado forma a la investigación biomédica contemporánea y la educación con programas de cáncer, neurociencia, biología vegetal y biología cuantitativa. CSHL está en el puesto número uno en el mundo por Thomson Reuters en el impacto de su investigación en la biología molecular y la genética. El Laboratorio ha sido el hogar de ocho ganadores del Premio Nobel. Hoy en día, la comunidad científica multidisciplinaria de CSHL posee más de 600 investigadores y técnicos y sus reuniones y cursos en el programa acogen a más de 12.000 científicos de todo el mundo cada año en su campus de Long Island y su centro de China. Para obtener más información, visite http://www.cshl.edu .

Fuente: Cold Spring Harbor Laboratory . Aportado por Eduardo J. Carletti

Más información: