El futuro del reconocimiento de voz

Las interfaces controladas por voz se están instalando en los teléfonos móviles, televisores y automóviles. Una empresa cree que es capaz de darle reconocimiento de habla a casi todo

Hasta no hace tanto, la idea de mantener una conversación con un ordenador parecía ciencia ficción. Pedirle a una máquina que ‘abriera las compuertas’ era algo que solo se veía en las películas.

Pero las cosas están cambiando y rápido. Cada vez más personas hablan con sus teléfonos móviles inteligentes para pedirles que envíen correos electrónicos y mensajes de texto, o que busquen direcciones o encuentren información en la web.

«Estamos en un punto de transición donde la voz y la comprensión del lenguaje natural han cobrado de pronto mucha importancia», señala Vlad Sejnoha, director de tecnología de Nuance Communications, una empresa con sede en Burlington, Massachusetts (Estados Unidos), que domina el mercado del reconocimiento de voz con su software Dragon y otros productos.

«Creo que el reconocimiento de voz realmente va a modificar la interfaz de los ordenadores».

El progreso se ha producido en parte gracias a un avance constante en las tecnologías necesarias para ayudar a las máquinas a entender el lenguaje humano, lo que incluye el aprendizaje por parte de las máquinas y las técnicas de análisis de datos estadísticos. Hoy día ya es común usar una sofisticada tecnología de voz en los centros de llamadas, para permitir a los usuarios navegar por los menús y ayudar a identificar a clientes iracundos a los que hay que conectar con un representante de servicio al cliente real.

En la actualidad, el rápido ascenso de los dispositivos móviles de gran potencia está haciendo que las interfaces de voz sean aún más útiles y omnipresentes.

Jim Glass, un investigador del MIT (Instituto Tecnológico de Massachusetts, EE.UU.) que ha estado trabajando en interfaces de voz desde la década de los 80, afirma que los teléfonos inteligentes de hoy tienen tanta potencia de procesamiento como las máquinas de laboratorio con las que él trabajaba en los años 90. Los teléfonos inteligentes también tienen un gran ancho de banda para las conexiones de datos con la nube, donde los servidores pueden hacer todo el intenso trabajo que precisa el reconocimiento de voz y la comprensión de las consultas orales. «La combinación de una mayor cantidad de datos y de más potencia de computación nos permite hacer cosas que antes no podíamos», explica Glass. «Se pueden utilizar modelos estadísticos más sofisticados».

El ejemplo más destacado de interfaz de voz móvil es, por supuesto, Siri, el asistente personal activado por voz incorporado en el último iPhone. Sin embargo, la funcionalidad de voz también forma parte de Android, la plataforma Windows Phone y la mayoría de los otros sistemas móviles, así como de muchas aplicaciones. Aunque estas interfaces aún tienen limitaciones considerables, estamos cada vez más cerca de conseguir interfaces hombre-máquina con las que realmente podamos hablar.

Nuance se encuentra en el corazón del auge de la tecnología de voz. La compañía fue fundada en 1992 bajo el nombre de Visioneer y ha adquirido desde entonces decenas de empresas de tecnología de voz. Actualmente cuenta con más de 6.000 empleados en 35 lugares por todo el mundo, y sus ingresos en el segundo trimestre de 2012 fueron de 390,3 millones de dólares (312 millones de euros), un aumento del 22,4 por ciento respecto al mismo periodo de 2011.

En los últimos años, Nuance ha aplicado con destreza su experiencia en el reconocimiento del habla dentro del mercado emergente de las interfaces de voz. La empresa provee tecnología de reconocimiento de voz para muchas otras empresas, y se cree que proporciona el componente de voz de Siri.

Según señala el director de tecnología de Nuance, el habla es ideal para la informática móvil en parte porque los usuarios tienen las manos y los ojos ocupados, aunque también porque un solo comando hablado puede realizar tareas que normalmente requieren una gran cantidad de gestos con los dedos. «De pronto tenemos este nuevo bloque de construcción, esta nueva dimensión que podemos aportar al problema», indica Sejnoha. «Y vamos a diseñar la interfaz de usuario básica para los dispositivos modernos con eso en mente».

Fuente: Technology Review. Aportado por Eduardo J. Carletti

Más información: