La máquina que traduce hasta el inglés de Chiquito de la Calzada
  1. Tecnología
  2. Novaceno
'Yes we jarl'

La máquina que traduce hasta el inglés de Chiquito de la Calzada

Un grupo de estudiantes de la Universidad de Stanford ha creado un algoritmo capaz de traducir los distintos acentos del inglés a algo que cualquier nativo pueda entender

Foto: Aunque tengas acento de Barbate, Sanas promete hacer que te entiendan cuando hablas inglés. (Youtube)
Aunque tengas acento de Barbate, Sanas promete hacer que te entiendan cuando hablas inglés. (Youtube)

Tres estudiantes de la Universidad de Standford, en California, son los responsables de Sanas. Una aplicación de inteligencia artificial que busca que la gente se entienda en inglés por muy retorcido que sea su acento. La compañía ha conseguido levantar 6 millones de dólares y ahora busca expandirse a otros idiomas.

Foto: Funeral en Star Trek (Paramount Pictures)

Shawn Zhang, Andrés Pérez Soderi y Maxim Serebryakov son un chino, un venezolano y un ruso que se conocieron mientras cursaban sus estudios en Standford. La universidad tiene estudiantes de 70 países diferentes así que lidiar con los acentos de personas de distintas partes del mundo es tan común como echar la tarde tirado en el césped del campus.

Cuando estalló la pandemia la vida social de la universidad dejó de existir y sus quedadas físicas se transformaron en virtuales. "Stanford se volvió virtual", recuerda Andrés Pérez Soderi. "Y nos dispersamos por la zona de San Francisco, Pleasanton, así como en Palo Alto, y nos mantuvimos en contacto por internet. La universidad no es tan estimulante cuando no estás físicamente allí, y teníamos mucho tiempo libre".

placeholder De izquierda a derecha: Shawn Zhang, Maxim Serebryakov y Andrés Pérez Soderi. (Sanas)
De izquierda a derecha: Shawn Zhang, Maxim Serebryakov y Andrés Pérez Soderi. (Sanas)

Ese tiempo lo aplicaron en crear Sanas. La idea surgió cuando uno de sus compañeros volvió a Guatemala por la pandemia y tuvo que aceptar un trabajo en un ‘call center’ para ayudar económicamente a su familia. Al poco tiempo perdió el trabajo debido a las quejas constantes de los usuarios por su fuerte acento. Como no nativos en inglés, los estudiantes sabían que en ocasiones cuando tu acento es muy marcado cuesta que te entiendan por mucho empeño que ponga tu interlocutor. En cualquier caso, esta aplicación puede ayudar a que la gente se pueda comunicar sin problemas.

"Sabíamos de la existencia de la terapia de reducción del acento y de que nos enseñan a emular la forma de hablar de otra persona para conectar con ella. Y sabíamos por nuestra propia experiencia que forzar un acento diferente en uno mismo es incómodo. Fui a un instituto británico y traté de forzar un acento británico; fue una experiencia complicada. Pensamos que si podíamos hacer que un software tradujera el acento, podríamos permitir que la gente hablara con naturalidad", añade Soderi.

A finales de mayo Sanas había conseguido una financiación de 6 millones de dólares. Y a día de hoy la compañía cuenta con 20 empleados que trabajan en remoto repartidos por todo el planeta.

Cómo funciona

"Nuestro primer enfoque fue ingenuo", dice Zhang. "Construimos un sistema que convertía la voz en texto y luego el texto en voz". Aunque de esa manera no iban a conseguir una conversación fluída, así que empezaron a pensar en cómo estructurar los datos para que la red neuronal fuera capaz de convertir los acentos directamente de voz a voz. De ahí salió la primera versión y ahora Sanas es capaz de cambiar el inglés a acentos americanos, australianos, británicos, filipinos y españoles y viceversa.

Foto: China apuesta por convertirse en los lideres mundiales de la inteligencia artificial. (Reuters)

La red neuronal está entrenada con grabaciones hechas mayoritariamente por locutores profesionales. Según Zhang, "no se trata sólo de procesar la señal de audio y cambiar el tono. Hay que cambiar la fonética. Así que realmente necesitábamos conjuntos de datos paralelos, creados por lectores utilizando el mismo material de origen, para que la red neuronal pudiera aprender a mapear de uno a otro, examinando ambos para aprender a transformar la pronunciación".

El algoritmo no se ejecuta en la nube sino que lo hace en el propio ordenador y añade 150 milisegundos de retardo al audio telefónico, o a las aplicaciones como Zoom, Skype y WhatsApp. Soderi explica que por norma general todo lo que esté por debajo de 300-350 milisegundos es imperceptible para el cerebro, por lo que los usuarios no notan un retraso.

Todavía puede sonar más natural

"Estamos intentando que sea más claro, natural y agradable de oír, es un proceso continuo", admite Zhang. Además, el equipo está pensando en añadir más acentos del inglés, pero también trabajar con acentos de idiomas como el español y el francés.

Foto: La voz de Anthony Bourdain fue recreada con IA para un documental. (Reuters)

Los primeros clientes de Sanas son empresas que prestan servicios de atención al cliente y otras funciones de apoyo telefónico. Por ahora, comentan, son siete las empresas que están probando el sistema.

"Pero ese es sólo nuestro primer caso de uso", asegura Zhang, "porque es un entorno medible y controlado. No nos vemos como una empresa de centros de llamadas, queremos entrar en la sanidad, el entretenimiento, la educación y otros espacios. Queremos desarrollar esto como una herramienta que ayude a la gente con la interacción entre humanos, sin dañar sus identidades culturales".

Chiquito de la Calzada
El redactor recomienda