Es noticia
"For the glory of my mother". Qué hay tras la IA que dobla vídeos y está desatando la locura
  1. Tecnología
DE MESSI A CHIQUITO: TODOS HABLAN INGLÉS

"For the glory of my mother". Qué hay tras la IA que dobla vídeos y está desatando la locura

En cuestión de horas, los doblajes con inteligencia artificial se han convertido en una mina de memes en redes sociales. Así funcionan los algoritmos que hay tras el 'perfecto inglés' de Leo Messi, Belén Esteban o Chiquito

Foto: Chiquito de la Calzada. (YouTube)
Chiquito de la Calzada. (YouTube)

Todo empezó con un viral de Leo Messi hablando un perfecto inglés en una rueda de prensa. Hubo quien se lo creyó, pero ahí había algo raro: el astro argentino rara vez no utiliza el castellano para hablar en público. Aquello era obra de HeyGen, una herramienta de inteligencia artificial para hacer doblajes realistas de vídeos, ya que consigue tanto modular la voz de la persona como mover sus labios para adaptarlo a la nueva lengua. Por supuesto, ese clip ha servido para encender la mecha de los memes en redes sociales.

El Fary explicando cómo surgió La Mandanga, Belén Esteban y David Broncano en La Resistencia, momentos icónicos de Aquí no hay quien viva o Callejeros... La lista es interminable: hay desde un chiste de Chiquito de la Calzada hasta ElXokas enfadándose en una decena de idiomas. En cuestión de días, si no horas, prácticamente no ha habido un meme que se resista a estas aplicaciones, aunque Rask AI es quien se ha llevado la palma en España. En esta empresa, por cierto, ya han aprovechado para tirarle la caña a Elon Musk y que los integre en X, la plataforma antes conocida como Twitter.

Eso sí, ni HeyGen ni Rask AI son las únicas, ni siquiera las más potentes, pero hay dos bazas que han jugado muy a su favor: son fáciles de usar y permiten transformar vídeos breves de forma gratuita.

Estos dos puntos son los que también ayudan a explicar cómo, más allá de la fascinación que ha despertado el fenómeno, esta irrupción supone un nuevo escalón en la carrera ascendente de la IA. Ahora, las herramientas punteras que no hace tanto estaban al alcance de muy pocos, están en manos de cualquiera, y eso va más allá de cualquier meme.

"Es un antes y un después. Hasta hace un año y medio, era algo que parecía un muro infranqueable", cuenta Carlos Vázquez, ingeniero informático especializado en IA y mentor en la escuela 4Geeks Academy. Hasta ahora, lo habitual era ver herramientas como Polly, desarrollada por Amazon Web Services y capaz de escribir un texto y que una voz predefinida lo leyera con naturalidad. O, en todo caso, los moduladores de voz como Voicemod, una de las startups españolas de IA más punteras. "Ahora, una IA es ya capaz de modificar tu habla, tu idioma y el movimiento de tus labios... Es algo con lo que te explota la cabeza", desarrolla.

El proceso de creación de estas plataformas de traducción consta de tres partes: el paso de voz a texto, la traducción y, lo más complicado, pasar del texto traducido con un tono de voz muy parecido al original. En algunos casos, se añade una cuarta capa de complejidad con el procesamiento de la imagen para que los labios se muevan de forma distinta.

Foto: Nikki García, voz de Google Maps. (Sergio Beleña)

Para la clonación de voz, la mecánica similar a la que siguen Google o Apple para las voces de sus navegadores. "Son modelos basados en un contexto, que es el habla de esa persona. Una vez se tiene una muestra importante de una voz, esas frases se segmentan para generar distintos elementos tónicos con los que luego se conforman las oraciones", explica Vázquez sobre este punto. "Cuando no es suficiente con la muestra, hay unas reglas predefinidas para pasar texto a fonemas y eso se une para conformar el habla. No se puede hacer tan bien con un vídeo de 5 minutos que con horas de intervenciones".

Es eso lo que explica que, en muchos de los vídeos virales de estos días, el tono de las voces traducidas cambia bastante respecto a la versión original, ya que apenas ha contado con entrenamiento para hacer esta imitación. En otros casos, el problema es que la calidad del audio no es demasiado buena como para que el modelo pueda hacer una clonación fidedigna. Por ejemplo, un vídeo sacado de Callejeros, con ruido ambiente y pixelado tras años de descargas y compresiones, no suele tener el mejor doblaje posible.

Con todo, apunta Vázquez, "es un modelo tan completo y entrenado que es capaz de generar un minuto con una muestra de pocos fonemas, y ahí está el potencial de la IA generativa". También es donde hay muchas dudas sobre su funcionamiento ya que, incide este especialista, "todos los datos se envían a un servidor remoto para que se procesen". "Eso plantea preocupaciones sobre la privacidad y el almacenamiento para fines que solo ellos saben, porque no explican cómo han entrenado su modelo. Parte de su éxito está en ser una caja cerrada en la que no se sabe qué hay dentro", subraya.

Todas estas mecánicas son las que siguen aplicaciones como las mencionadas HeyGen o Rask AI, pero también otras que se han hecho un nombre, caso de Captions, que por ahora solo está disponible para iOS y tiene reservada esta herramienta para suscriptores de pago. "La calidad que están dando ya las herramientas es muy aceptable para muchas cosas que no sean producciones más potentes, como películas o series, y no va a dejar de mejorar, porque están prácticamente recién sacadas del horno", explica Andrés Torrubia, cofundador del Instituto de Inteligencia Artificial.

Por supuesto, hay vida más allá de las herramientas que están a la mano del gran público. Aquí destaca que ya hay algunas que tienen un mayor grado de precisión, pero que necesitan también de mayores conocimientos técnicos, como es el caso de Flawless AI. "Es harina de otro costal, porque no es tan automático y requiere cierta postproducción", especifica.

"Es harina de otro costal, porque no es tan automático y requiere cierta postproducción"

Del trabajo de los dobladores al aprendizaje de inglés

Como es habitual, todas estas herramientas están levantando aún más dudas y temores sobre el futuro de determinadas profesiones —por ejemplo, los dobladores o, incluso, los profesores de idiomas—, la situación de los contenidos protegidos por derechos de autor o los usos maliciosos que ya se le están dando, como esas estafas en las que se usa para hacerse pasar por un familiar o amigo que pide dinero de forma urgente o en los que se manipulan declaraciones de un político. Solo hay que recordar que, en su conferencia para desarrolladores de este año, Google ya anunció una herramienta de este tipo, aunque estará limitada a proveedores de confianza para evitar que se use de forma maliciosa.

"Estamos muy cerca de poder automatizar tareas que ahora hacemos manualmente, y eso tiene impacto en el mercado laboral. Pero hay que diferenciar entre perder tu función en el mercado laboral y perder tu trabajo, porque son dos cosas distintas", considera David Martínez Rego, CEO de la firma de IA Data Spartan y doctor en ingeniería informática. "Si se libera a trabajadores de algunas tareas, dentro de su rango de conocimiento puedes transicionar a hacer nuevas funciones o tareas para las que no tenían suficiente tiempo", prevé, aunque considera que "el impacto es impredecible y depende de cómo reaccionemos y nos organicemos como sociedad".

Foto: Sam Altam, CEO de OpenAI. (Reuters/Brendan McDermid)

Torrubia, por su parte, considera que "las aplicaciones para educación o turismo que van a permitir superan con creces los potenciales desplazamientos de trabajos de dobladores". "Gracias a estas herramientas, pueden llegar doblajes en idiomas que habitualmente no lo tienen, como las lenguas cooficiales en España. También da la oportunidad de exportar películas a mercados donde quizá no haya dobladores o no compense por el tamaño del mercado", destaca.

"Yo creo que la gente puede utilizarlo para un determinado momento, pero las personas que día a día trabajamos con inglés... Lo necesitamos, porque la IA no te va a proporcionar esa seguridad para abstraerte de aprender un idioma", señala Vázquez, de 4Geeks Academy, recordando que ahora mismo siguen "faltando ciertos contextos culturales que hacen que las máquinas puedan cometer errores que lleven a malentendidos y momentos incómodos, porque no están preparadas para ello". "Quizá esa pregunta hay que hacerla en cinco años, porque si nos hubieran preguntado en 2018 por lo que estamos viendo ahora, no nos lo hubiéramos creído", deja caer.

Todo empezó con un viral de Leo Messi hablando un perfecto inglés en una rueda de prensa. Hubo quien se lo creyó, pero ahí había algo raro: el astro argentino rara vez no utiliza el castellano para hablar en público. Aquello era obra de HeyGen, una herramienta de inteligencia artificial para hacer doblajes realistas de vídeos, ya que consigue tanto modular la voz de la persona como mover sus labios para adaptarlo a la nueva lengua. Por supuesto, ese clip ha servido para encender la mecha de los memes en redes sociales.

Inteligencia Artificial Leo Messi Chiquito de la Calzada Noticias de Belén Esteban Lo mejor de EC
El redactor recomienda