Hablándole a mi Teléfono

El nuevo teléfono iPhone de Apple tiene una característica que se llama Siri la cual representa la culminación de más de 50 años de investigación y desarrollo: la capacidad de que los consumidores hablen libremente con una computadora para preguntarle cosas o pedirle que haga algo. Preguntas o comandos tales como “¿Qué hora es?”, “Dime que restaurantes de comida china hay cerca de aquí” (los teléfonos inteligentes siempre saben dónde está uno), “Comunícame con mi jefa”, “Apunta en mi calendario que tengo una junta el martes a las 2 PM”, e inclusive dictar un memorándum para que se envíe por texto o por correo electrónico. Esta funcionalidad todavía no está disponible en español.

Hay muchas dificultades para que una computadora descifre la voz humana y hay muchos tipos de tecnologías de reconocimiento del habla o de la voz. Siempre se vieron estas tecnologías como una meta que al alcanzarse revolucionaría la manera en que interactuamos con las computadoras. Pero fue tan lento el desarrollo y tantas las salidas en falso, que el entusiasmo perdió su potencia y dejó tras de si una multitud de escépticos.

La misma terminología que se utiliza en esta área causa confusión. Reconocimiento de voz puede entenderse como que un aparato reconozca a la persona que habla, lo cual cae dentro de la ciencia de la biometría. De todas las voces del mundo es todavía prácticamente imposible que una computadora identifique a una persona. Un problema diferente y mucho más fácil es que yo le diga quien soy y la computadora lo verifique oyendo mi voz. Las tecnologías para control de seguridad que usan reconocimiento de voz, rastreo del iris, reconocimiento de caras y de huellas digitales funcionan porque primero se le indica a la máquina quién es la persona.

Reconocimiento de voz se confunde con reconocimiento del habla, lo cual significa que una máquina entienda lo que estoy diciendo y efectúe una acción o lo transcriba a un documento. Los primeros intentos de reconocer el habla se basaban en entrenar a la máquina a que reconociera mi modo particular de hablar. Tenía yo que leer un texto que captaba la mayoría de los sonidos del idioma y a partir de ese momento la computadora podía más o menos entenderme. Pero generalmente había una importante restricción: las computadoras reconocían solo temas aislados. Por ejemplo, había programas para abogados que reconocían muy bien temas legales. Yo trabajé en esta área por muchos años en aplicaciones para logística, en donde computadoras pequeñas reconocían bien cierto número de comandos específicos. Otra desventaja de este tipo de tecnología es que si mi voz cambia porque tengo gripa, la máquina deja de entenderme.

Hasta recientemente, el éxito limitado del reconocimiento del habla había sido principalmente con las personas discapacitadas que no pueden usar un teclado o un ratón. Ellos verdaderamente necesitan tecnologías para integrarse a las actuales fuentes de trabajo. Yo traduje un libro del inglés al español dictándolo a un micrófono. Fue una experiencia valiosa. Pero es muy tedioso tener que decir “Computadora: Empieza con mayúsculas”, y otros comandos de puntuación para que la computadora los distinga del dictado y por lo tanto la dejé de usar.

Mucho ha cambiado desde esa época hasta el arribo de Siri. Si uno le pregunta a ella “¿Qué es el amor?” su respuesta es: “No entiendo porque le haces esa pregunta a un objeto inanimado como soy yo”. Las nuevas tecnologías no requieren que se entrene a la máquina para reconocer una voz. Lo que hacen es escuchar la voz y descomponerla en fonemas, la unidad básica del sonido de la voz humana. El número y su sonido varía con el idioma. Hay sonidos en francés que no existen en inglés o en español.

El motivo por el cual Siri no existe en español es que la inversión para habilitar un idioma es muy alta. Requiere colectar un gran número de muestras de voz que representen los diferentes timbres y acentos regionales para que el reconocimiento del habla funcione para todos. Este proceso puede tardar muchos años y supongo que Apple estimó que no rendiría utilidades en el mundo hispano, cuando menos por el momento.

3 Respuestas a “Hablándole a mi Teléfono

  1. Hola Peter, siiiii mi proximo iphone, sera de esos. Asi le dire, dile a mi amigo Peter, FELIZ NAVIDAD Y TE MANDO UN ABRAZO, pero utiliza la voz de Thalia, o ya de perdis, la de Niurka , okkkkk. Saludos

  2. Dear nephew: eso de la voz en las computadoras suena muy interesante. Hasta dónde va a llegar la tecnología? MERRY CHRISTMAS!

  3. Interesante como todo lo que escribes… gracias por tanta información, cada dia aprendo un poco más al leerte

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *