Noticias en la página Axxón
[Noticias de Axxón ] [ Página principal ] [ Zapping ]

9/Oct/03




Revista Axxón

Axxón en
facebook


Lectores de Axxón en facebook



Haz clic aquí para suscribirte a Axxon



Las máquinas aprenden a imitar el habla

Las computadoras todavía no pueden entendernos, pero están progresando en lo que a imitarnos se refiere. Los programas que existen en la actualidad pueden imitar diferentes acentos y aislar información significativa a partir de un fárrago de palabras.

(Wired News) Todavía no llegó el momento en que los seres humanos y las computadoras puedan sentarse para mantener una charla de corazón a corazón, y tal vez no llegue por un buen tiempo, según los proveedores que se hicieron presentes en la exposición de tecnología del habla que tuvo lugar aquí esta semana.

Pero en cambio, las formas de vida basadas en el silicio y el carbón ya disponen de varias maneras efectivas de comunicarse verbalmente.

"Una vez que superamos la idea errada de que las computadoras deberían entendernos o de que hay alguna posibilidad de entablar conversaciones con las máquinas, las nuevas tecnologías de voz y habla resultan sorprendentes", señaló James Larson, que organizó la feria de la industria SpeechTek.

Los productos exhibidos en SpeechTek funcionaron tan bien como para despertar la sospecha de que los sueños de la ciencia ficción acerca de la existencia de máquinas con sentimientos finalmente se habían hecho realidad. Pero los proveedores hicieron hincapié en que estos sistemas no habilitan a las computadoras a comprender el habla de los seres humanos. La tecnología sencillamente interpreta las intenciones del usuario a partir de una base de datos inmensa que almacena palabras y frases.

"En el pasado, la tecnología de la voz estaba rodeada por un halo de misterio —señaló Frank Vertram, un programador de aplicaciones de habla que asistió a la exposición—. Creo que todos —las empresas que desarrollan estos productos y las personas que los utilizan— estábamos convencidos en lo más íntimo de que las computadoras de alguna manera comprendían nuestras palabras."

"Ahora la industria ha madurado y superó la etapa del misterio mágico para avanzar a usos más prácticos de la tecnología del habla. Ahora que ya no hay magia, no creemos que tenga sentido utilizar la tecnología del habla a menos que sirva un propósito viable: facilitar el trabajo con un sistema informático, aumentar la seguridad de los sistemas o incluso lograr que las computadoras sean más divertidas."

Entre los productos de gran utilidad que estuvieron en exhibición se incluía una tecnología de habla para cajeros automáticos que permite que las personas con discapacidades visuales o los usuarios que temen a las computadoras interactúen con los cajeros escuchando la descripción de las opciones que aparecen en la pantalla mediante un par de auriculares.

Vertram también señaló que los dispositivos más pequeños, como los celulares con conexión a Internet y con capacidades de email, "exigen" una tecnología de voz que funcione para ser totalmente útiles.

"Cuanto más pequeño es el dispositivo, y más pequeño es el teclado, más necesario se hace contar con aplicaciones que puedan operarse con comandos de voz, en particular para la gente que tiene dedos grandes, como yo", dijo Vertram.

"Pero la tecnología me tiene que hacer la vida más fácil; no quiero tener que cambiar mi forma de hablar para que los llamados teléfonos inteligentes me entiendan."

La tecnología que procura comprender lo que dicen los humanos y lo que están tratando de decir ocupó un lugar de privilegio en la exposición.

Los productos como las aplicaciones "say anything" (diga cualquier cosa) de Nuance, que utilizan lenguaje natural, les permiten a quienes llaman a un sistema de atención al cliente automatizado farfullar sin preocupaciones sabiendo que serán comprendidos, gracias a una base de datos que puede extraer rápidamente conceptos clave e inferir la intención a partir de lo que los programadores de sistemas de habla a veces describen como "conversaciones freestyle".

"Nadie se da idea de lo enrevesada y sin sentido que es una conversación normal hasta que trata de codificar un programa de computación que procure extraer sentido de lo que se dice", señaló George Funtello, un programador de aplicaciones de habla que se encontraba presente en la exposición.

IBM presentó las actualizaciones más recientes de los productos de la serie WebSphere, que son compatibles con VoiceXML 2.0, un estándar para la incorporación de tecnología de habla en sitios web. El producto hace que las aplicaciones respondan como lo haría un ser humano, por ejemplo, no preguntando en qué ciudad vive una persona que ya ingresó su código postal.

Según la firma de tecnologías de voz Cepstral, las computadoras deberían hablar empleando un acento correcto desde el punto de vista cultural. La empresa presentó "Jean-Pierre" e "Isabelle" en la expo, dos voces en francés e inglés con acento francocanadiense que serán utilizadas en teléfonos inteligentes, cajeros automáticos y computadoras de mano en Quebec.

También fueron presentados "Damien" y "Duchess," dos voces para el mercado norteamericano. Ambas emplean un tono informal que probablemente no sería aceptado en el mercado europeo, indicó el director de tecnología de la empresa Kevin Lenzo.

"La voz debe adaptarse a la situación y a las expectativas del usuario. Los neoyorquinos querrían oír un sistema automatizado que vaya directo al grano; los sureños esperarían, en cambio, un saludo amistoso al iniciar la transacción —dijo Lenzo—. Los europeos esperan una cierta formalidad, pero los estadounidenses aceptan frases como 'OK' incluso en contextos de negocios."

Cepstral también puede crear voces personalizadas para usos específicos, como por ejemplo voces con un estilo científico que empleen y comprendan la jerga correspondiente, o un pronóstico del tiempo que utilice el dialecto de la región de que se trate cuando el usuario ingresa una determinada localidad en un sitio web de metereología.

"Me he matado escribiendo programas de habla para que después los usuarios que probaban el sistema insistan en que no entienden lo que dice la máquina porque el acento que emplea está 'mal'", dijo Funtello.

"Y además hay toda una serie de cuestiones en relación con la forma en que la gente percibe la voz computarizada. Una vez utilicé un sutil acento neoyorquino para expresar una actitud que el cliente describía como 'directa al grano'. Al cliente, que era de Manhattan, le encantó, pero mucha gente dijo que la máquina sonaba enojada y demasiado apurada. No se trata sólo de que el código esté bien; la gente de alguna manera tiene mayores expectativas cuando le habla un programa."

En un intento por demostrar que la tarea de desarrollar tecnologías de voz no tiene por qué dejar a los programadores sumidos en la frustración, la exposición organizó un certamen denominado Speech Solutions (Soluciones de Habla).

El lunes bien temprano se solicitó a siete equipos que programaran una aplicación para solucionar problemas específicos —identificar una falla de un automóvil y concertar una cita en un taller mecánico— y se les dio el día entero para finalizar el programa.

Para las cinco de la tarde, todos los equipos habían desarrollado una aplicación viable.

"Fue interesante porque nunca habíamos desarrollado una aplicación así —dijo John Kirst, vicepresidente de desarrollo de negocios de TuVox—. Y al terminar el día, la aplicación y los 378 prompts estaban listos y funcionando".


            

Noticias anteriores, por tema
Ciencia Cine Espacio Espectáculos Historietas Internet Juegos Libros Literatura Revistas Sociedad Tecnología Televisión

Noticias anteriores, por año
2017  2016  2015  2014  2013  2012  2011  2010  2009  2008  2007  2006  2005  2004  2003  2002
Axxón, Ciencia Ficción: una lista de e-mail donde podemos conversar de los temas que nos interesan
Este grupo funciona en Grupos Yahoo! ar.groups.yahoo.com
Google
  Web http://axxon.com.ar