Es noticia
"Nadie me dijo que iba a ser la voz de Siri": los dobladores, en el punto de mira de la IA
  1. Tecnología
EL SECTOR ENTRA EN PÁNICO

"Nadie me dijo que iba a ser la voz de Siri": los dobladores, en el punto de mira de la IA

Si nada cambia, en poco tiempo seremos incapaces de distinguir una voz sintética de la humana

Foto: Nikki García, voz de Google Maps. (Sergio Beleña)
Nikki García, voz de Google Maps. (Sergio Beleña)
EC EXCLUSIVO Artículo solo para suscriptores

Los dobladores están acostumbrados a trabajar a ciegas. Cuando les llaman para un videojuego o una película, es habitual que solo vean las líneas de diálogo que tienen que interpretar. Ni un dato más. Llegan, graban por separado y se marchan. Será el estudio el encargado de mezclar después todas las voces y crear la sensación de que se trata de diálogos auténticos, con personas mirándose a los ojos.

El objetivo es limitar las filtraciones de información en proyectos millonarios como la saga de videojuegos FIFA o la serie Succession: cuantas menos personas conozcan la trama completa, más segura estará la inversión.

* Si no ves correctamente este formulario, haz click aquí

Así, los profesionales no saben si su voz acabará en una película porno, en unos dibujos animados o en el móvil de medio planeta, como le sucedió a la actriz Iratxe Gómez. En 2007 hizo una serie de grabaciones para Nuance Communications, una desarrolladora estadounidense dedicada a la síntesis de voz. "Solo me dijeron que mis grabaciones se iban a utilizar para un navegador de coche y para un programa sintetizador de voz. Me contrataron para 300 takes [tomas], repitiendo lo mismo con distinta entonación", dice a este periódico.

"Dijeron que podía ser éticamente reprochable, pero que no tenía derecho a compensación"

Gómez no volvió a saber nada hasta 2010, cuando le comentaron que su voz sonaba en los Audi de gama alta, como asistente personal. La sorpresa llegó tres años después, cuando vivía en China y casi había olvidado el trabajo de Nuance: "Descubrí que la voz Mónica se había convertido en la voz de Siri [asistente virtual de Apple] en todo el mundo. Y Mónica, de Nuance, soy yo", explica.

Nadie se puso en contacto con Iratxe, ni siquiera para avisarle de que iba a empezar a escuchar su voz por todas partes. Tampoco se le ingresó un euro más, pese al acuerdo multimillonario entre Nuance y Apple: "Cuando pregunté, me dijeron en Nuance que yo había cedido mi voz y no tenía derecho a nada más. Que reconocían que podía ser éticamente cuestionable, pero que a nivel legal no había duda. Me sentí estafada", dice la dobladora.

En 2017, Gómez coincidió en Madrid con uno de los creadores de Siri y aprovechó para exponerle lo injusto de haber cobrado como cualquiera un trabajo que disparó los ingresos de la compañía: "Me respondió que, en este negocio, la primera se hace famosa y las demás ricas. No supe ni qué decirle".

Foto: Profesionales en una empresa de doblaje. (EFE/Kiko Delgado)

Gracias a Siri, Nuance se convirtió en el referente de los sintetizadores de voz. Hace un par de años, Microsoft la compró por 19.700 millones de dólares, de los que Gómez no vio uno solo como gratificación.

Robo de voz

A finales de febrero, saltaron las alarmas del sector. Un conocido estudio de Madrid convocó a varios dobladores con necesidades atípicas: les pidió que hicieran ruidos, murmullos y expresiones repetidas en distintos tonos. "Grabar sentimientos", decía el anuncio, para un videojuego. Sin embargo, pronto repararon en que no se trataba de ningún juego, sino de entrenar a una inteligencia artificial para que hiciese su trabajo.

Se trata de la evolución del caso de Iratxe. "Ahora no quieren tu voz, sino tu interpretación", afirma Jaime Roca, voz de, entre otros, Luffy, protagonista del anime One Piece. "Es una tecnología parecida al motion capture que usan los videojuegos para recrear los movimientos de los futbolistas: digitalizan el espectrograma de nuestra voz y lo único que tienen que decirle a la IA es con qué sentimiento tiene que pronunciar. Y para eso tienen la base de datos con nuestras interpretaciones: cuanto más contribuimos, más rápido aprende".

La invasión de la inteligencia artificial en el sector de la voz ha empezado por trabajos pequeños, los que sirven para completar la nómina de los dobladores. Programas como ElevenLabs ofrecen, por solo 22 dólares al mes, dos horas de narración profesional y el acceso a herramientas para clonar cualquier voz. De este modo, youtubers y creadores de contenido han visto su universo expandirse rápidamente, ya que pueden narrar con la voz del presidente Biden o de Beyoncé sin siquiera usar el micrófono. Otros, como Voice.ai, ofrecen un servicio de impostación de voz en tiempo real sin cobrar un euro.

Un indicador fiable son los audiolibros, cuya producción en España ha caído en picado en los últimos meses. El rumor entre los dobladores es que, como ya sucede en Estados Unidos, los estudios están esperando a que se refinen los sintetizadores en español para eliminar a los profesionales de la ecuación. "Es más que un rumor. A mí un estudio me ha confirmado que cada vez les llegan menos pedidos de audiolibros porque se están haciendo con inteligencia artificial", informa Roca.

"El problema es que las IA se van a desarrollar de igual modo, con o sin nosotros", continúa el doblador.

"Creímos que una IA nunca podría imitar las emociones humanas. Nos equivocamos"

Porque una cosa es que no acepten colaborar con la IA y otra que la IA no pueda acceder a sus voces. Una pequeña creadora de audiolibros de Texas (EEUU), Laura Horovitz, denunció el mes pasado que Spotify, con quien tiene un contrato en exclusiva, había estado vendiendo sus narraciones a Apple para que entrenase su inteligencia artificial. Horovitz notó que Spotify empezó a incluir una cláusula en los contratos de los narradores, donde especificaba que los derechos de voz se pueden vender a terceros. Gracias a su denuncia, Spotify ha congelado su colaboración con Apple por temor a los problemas legales.

Acento de robot

La cláusula ha llegado este año a España. "Es algo que lleva mucho tiempo sucediendo en los países del ámbito angloparlante", dice Vicky Tessio, portavoz de la plataforma La General de Locutores. "En inglés, es casi indistinguible una voz artificial de una humana. Si nos estamos preocupando ahora en España, es porque nos toca el turno", afirma.

"Nos hemos confiado. Creímos que una inteligencia artificial jamás sería capaz de reproducir las emociones humanas. Y no solo es que puede hacerlo, sino que ya lo está haciendo", dice Tessio.

placeholder El director de Penteo Films, José Polo, dobla las novelas turcas. (EFE)
El director de Penteo Films, José Polo, dobla las novelas turcas. (EFE)

El sector de los dobladores ha entrado en pánico. Por primera vez, las nueve organizaciones profesionales de la voz caminan de la mano en busca de una solución, aunque sea provisional. Además de la pérdida de negocio, preocupa la suplantación de identidad. "Se está avanzando en la línea de que las voces artificiales no sean distinguibles del habla humana, algo que incluso está sucediendo. Esto da lugar a diversos problemas legales, porque se puede utilizar la voz de cualquiera para engañar a un familiar, por ejemplo", lamenta Roca.

Al respecto, los dobladores de toda Europa plantean la creación de un acento robot para diferenciarlos de las inteligencias artificiales. "Puede ser una ecualización o un efecto de sonido, o el clásico sonido robótico, hay muchas opciones. La idea es que las personas sepan cuándo les está hablando una máquina", dice Roca. Se espera que Europa publique un reglamento en torno al uso de las inteligencias artificiales en las próximas semanas, si bien no está claro que entre a regular el sector de la voz profesional.

"Hoy es la cuestión de los dobladores, pero mañana lo será de otros. Si no cambiamos el rumbo, pronto no sabremos de qué podemos fiarnos, nos quedaremos sin herramientas para diferenciar la verdad de la mentira. Estamos a las puertas de un mundo líquido, terrorífico", dice Tessio. "Y, bueno, todos hemos visto Terminator", concluye Jaime Roca.

Los dobladores están acostumbrados a trabajar a ciegas. Cuando les llaman para un videojuego o una película, es habitual que solo vean las líneas de diálogo que tienen que interpretar. Ni un dato más. Llegan, graban por separado y se marchan. Será el estudio el encargado de mezclar después todas las voces y crear la sensación de que se trata de diálogos auténticos, con personas mirándose a los ojos.

Inteligencia Artificial
El redactor recomienda