No te fíes ni de una voz familiar: la industria de los 'deep fakes' de audio crece en España
  1. Tecnología
¿SI ME COPIAN LA VOZ? ¿A QUIÉN PERTENECE?

No te fíes ni de una voz familiar: la industria de los 'deep fakes' de audio crece en España

El hito de una empresa española de recrear la voz de Franco para leer un discurso en un podcast que nunca leyó muestra la madurez de una tecnología que ya ha sido utilizada en estafas

placeholder Foto: Francisco Franco. (Reuters)
Francisco Franco. (Reuters)

45 años después de que se apagase por completo, la voz de Franco ha vuelto a sonar en España. Después de todo este tiempo, miles de personas le han escuchado recitar la comunicación a Don Juan donde le informó que era su hijo el que accedería finalmente a la jefatura del Estado cuando él falleciese. También una conversación con el general Walters. Son cosas de las que no había registro sonoro. Nunca pronunció. Jamás. Tampoco es un actor superdotado que clave una imitación del 'generalísimo'. Nada de eso. Es el propio Franco. Bueno, en realidad es un clon de su voz creada con un buen puñado de grabaciones de cuando estaba en vida. Un 'deep fake' de audio, un sonido creado por una inteligencia artificial, en este caso, de una empresa donostiarra.

Foto: Ejemplo de 'deepfake'.

"Nosotros al final lo hemos escuchado por archivos históricos, pero la gente que le escuchó cuando vivía se ha sorprendido por el realismo", cuenta Aitor Álvarez, investigador senior de tecnologías del habla de Vicomtech, la compañía que ha obrado el 'milagro' para los creadores del podcast XRey, una producción que se sumerge en el proceso de la abdicación del rey emérito y su figura.

El propio Álvarez, que resume en uno de los capítulos parte del proceso de creación de este encargo de los periodistas Álvaro de Cózar y Toni Garrido, explica a Teknautas algunos pormenores para cumplir con este encargo "inédito". A pesar de los trabajos que habían realizado hasta la fecha no habían tenido que alcanzar este grado de personalización. Se dedicaron entonces a recopilar intervenciones grabadas desde que Franco irrumpe en la escena política española con el alzamiento militar hasta su muerte.

El reto de hacer hablar a Franco

En los recursos se encontraron cosas de muy diversas índoles. Desde mítines a discursos a la nación como los de Navidad. Tocó hacer una importante criba a la hora de entrenar el sistema. "Los de los mítines estaban grabados de lejos, se colaban gritos y aplausos", cuenta el investigador. "Los discursos navideños tenían mejor calidad, con un micrófono de cerca y un tono narrativo, bastante neutro, cercano al que estábamos buscando".

Pero había otro problema añadido. Había muestras desde el 36 hasta prácticamente el 75. "Cuando metes un locutor a un estudio para hacer esto, tomas las horas que necesites en el mismo momento vital. Pero aquí no ocurría eso". La voz cambia con los años. Y por eso tuvieron que centrarse en una horquilla de años concretos, en lo que se gestó la sucesión, para obtener un resultado dirigido. Una vez construyeron esa primera parte del modelo, lo 'reforzaron' con muestras de un curso concreto, el del 65, para acercarlo más al resultado final.

Álvarez explica que hay varias formas de manejarse a la hora de hacer uno de estos desarrollos dependiendo la materia prima que uno tenga. Se puede crear una de estas voces artificiales con 20 horas de un mismo locutor. No hay que olvidar que también hacen falta las transcripciones. Sin embargo, eso siempre no es posible y se utilizan múltiples locutores para cubrir la primera parte y luego rodar ese primer modelo con una hora del objetivo, haciendo un "proceso de tuneado". Pero, ¿se podría hacer con menos? "Se está investigando mucho y se han logrado resultados interesantes incluso con unos minutos".

Hay técnicas que permiten recrear la voz de alguien aunque no se tengan muchas horas de grabación

Los usos que imagina, además de la ficción, para esta tecnología podrían cristalizar en cosas tan diversas como audiolibros leídos con la voz del autor aunque este haya fallecido, recursos educativos para alumnos con dislexia o una mejora de asistentes como los que nos dan las indicaciones en Google Maps. "Hay mucho terreno, por ejemplo, en 'voice branding'. Un banco querrá darle la personalidad a su asistente tecnológico y que no se parezca al resto".

Este experto admite que prácticamente con cualquier figura actual relevante, como políticos o empresarios, el proceso de abastecimiento de recursos sería mucho más sencilla. "Hay múltiples manifestaciones e intervenciones suyas, en lugares accesibles. Además con mucha mayor calidad que con la que hemos trabajado", añade.

¿Copiar la voz de Jay-Z es piratería?

Probablemente no se había alcanzado, al menos en trabajos públicos, algo tan maduro como esto en castellano. Pero en inglés ya hay varios antecedentes. Incluso se han liberado algunas herramientas que hacen una copia gruesa de tu voz en poco tiempo. Es más en estos días los 'deepfakes' de audio han vuelto a protagonizar un fuerte debate. En este caso, por una clonación del conocido rapero estadounidense Jay-Z en YouTube.

El dueño del canal, que cuenta con otros vídeos con voces de famosos como Sinatra y varios expresidentes de los EE UU y más de 60.0000 suscriptores, ha subido piezas utilizando la voz del artista para recitar, entre otras cosas, pasajes de 'Hamlet'. Anteriormente había puesto incluso a Boris Johnson a recitar la canción 'Wannabe' de las Spice Girls como un discurso suyo.

Pues bien cuando la agencia de Jay-Z denunció, el vídeo desapareció. Al de poco, volvió porque incluso para la plataforma propiedad de Google era imposible de determinar si incumplía las normas de propiedad intelectual. Algo que puede volver a abrir un importante frente a la industria musical, que parece haber digerido ya el problema histórico de la piratería, o al menos en parte, gracias al 'streaming'. La historia es que la tecnología por enésima ha adelantado a la realidad y sus herramientas legales. Se trata de una madeja legal que puede variar radicalmente dependiendo el lugar donde uno se queje.

"Personalmente, no quiero sentar cátedra, pero creo que si la inteligencia artificial se basa solo en una persona, esa persona tendrá algo que decir", opina Alejandro Pérez Blanco, director de cortometrajes y con una gran trayectoria en el mundo de los efectos visuales y los 'deep fakes'. "Pero también me pregunto qué diferencia hay entre un cerebro electrónico o digital que se aprende los tonos y las inflexiones de la voz de un artista y un imitador, con un cerebro orgánico, que hace eso mismo. Al final se han visto el mismo material", remata.

Este experto señala que en los últimos tres o cuatros años los 'deep fakes' de vídeo han vivido "una aceleración" muy grande y se han puesto al alcance de muchas más personas gracias a que el 'deep learning' y el 'big data' han abaratado los tiempos y los costes de hacer estas recreaciones. "Recuerdo que en la universidad hice un trabajo en el que entrevisté a un técnico de sonido y me dijo que el audio siempre iba diez años por delante de la imagen, pero en este caso no ha sido así", relata. En términos de negocio esta tecnología encajaba muy bien en el mundo de la pornografía y eso impulsó la investigación.

placeholder Ejemplo de 'deep fake' visual. (EC)
Ejemplo de 'deep fake' visual. (EC)

"Cuando entrabas a un foro temático sobre 'deep fakes' todo el mundo veías que todo el mundo lo relacionaba y lo ceñía al porno. De repente alguien preguntaba: '¿Y lo del audio, cómo va? No todo va a ser porno'. El resto de usuarios le contestaban que sí. Que todo era porno. Lo que era bastante ilustrativo de por donde iban los tiros", remata.

Aunque están en momentos diferentes, el avance de los 'deep fakes' visuales ha ayudado mucho al desarrollo de los de sonido. "Se avanzó mucho en conceptos estructurales, que se aplicaron posteriormente a la generación de voces, ahorrando mucho tiempo", añade. "Luego el sonido tiene sus propios problemas y particularidades que hay que afrontar por separado". Eso sí, advierte que si hay algo para lo que nuestra cabeza está preparada es para "detectar" voces que no suenan del todo natural y rostros humanos que tienen algo que no es humano. "En el caso del vídeo, por ejemplo, el reto es escalar la resolución por encima de lo que se ha utilizado para investigar, que venía a ser un máximo de 256 por 256 píxeles. Utilizarlo a mayor calidad, en 4K, por ejemplo, supone un gran esfuerzo técnico"

Fines más allá de lo lúdico o lo satírico

Hasta aquí hemos visto ncomprende la inquietud que pueden generar estos avances, por gente que decida aplicar esta tecnología para crear una nueva categoría de bulos o ciberdelicuencia. "Ya no hay que pensar en el plano ético o de la propiedad intelectual, hay que pensar en la seguridad, ya que la voz cada vez es un instrumento más omnipresente, por ejemplo, en sistema basados en la biometría", expone el expero de Vicomtech.

Pero también está la llamada ingeniería social. Hasta ahora se nutría principalmente de un enlace furtivo y dañino en un email o una app maliciosa, que una vez instalada sin ser consciente del riesgo, acciedese a información valiosa. Ahora, cualquier día el director financiero de una empresa podría recibir una llamada. Es el CEO. Le pide que ejecute una transferencia con un importante montante para cumplimentar una compra urgente, algo que cumple rápidamente. A estas alturas ya se olerán que la voz no es cierta, es un 'deepfake'. Sin embargo, la historia es real. Es lo que le ocurrió a una firma del sector energético en Reino Unido, cuyo nombre no trascendió.

Un ataque con un 'deepfake' de audio consiguió estafar 220.000€ a una energética británica

Los atacantes crearon una réplica de la voz con un software de inteligencia artificial y consiguieron estafar más de 220.000 euros. El empleado que ejecutó el traspaso de esos fondos se pensaba que el que estaba al otro lado era su superior, 'mandamás' de la matriz alemana de la compañía, que le exigía que pagase a un proveedor húngaro. No se sabe si es el primer caso de este tipo, pero si el primero que se destapa públicamente. Autoridades como la Interpol dan por hecho que estas tecnologías también acabarán haciéndose cada vez más masivas.

"Aquí un cambio importante frente a la desinformación de hoy en día, eminentemente escrita o con imagen fija, que lo que permite es la manipulación de relato", explica Carmen Colomina, investigadora del CIDOB y especialista en el asunto. "No podríamos fiarnos de lo que vemos o de lo que oímos en el caso de que se utilizase con el fin de manipular. Estaríamos en un escenario de construir realidad virtuales no para que fuesen otras realidades, sino para falsear nuestra realidad. Es un paso más en la compleja relación con los contenidos en general que hay en internet".

El bulo que atemorizó a Wall Street

Colomina cree que tanto el poder económico como el poder político son muy conscientes del peligro que hay detrás de la desinformación, en la que los 'deepfakes' podrían ejercer un efecto similar al de la hormona de crecimiento. "Aquí se ven los costes de la inmediatez y de cómo se ha acelerado la difusión del contenido", añade. Rescata de la memoria cómo el índice industrial Dow Jones, uno de los que sostiene Wall Street, sufrió una caída de 143 puntos después de que unos 'hackers' tomasen el control de la cuenta en Twitter de la agencia de noticias AP.

Un tuit falso consiguió que el Dow Jones cayese 143 puntos. "Los deepfakes pueden multiplicarlo"

El pánico cundió después de que los atacantes publicasen un tuit en el que aseguraban que Obama había sido herido en un ataque a la Casa Blanca. Una hora después todavía había recobrado cierta normalidad tras ese pánico pasajero que dejó patente la sensibilidad de las bolsas y las compañías a la desinformación. Agentes como la SEC, que regula los mercados de EE UU, ya han abierto investigaciones y multado a diferentes compañías, directivos o analistas por utilizar noticias y datos falsos para impactar en la cotización de algunos valores.

placeholder Nancy Pelosi. (Reuters)
Nancy Pelosi. (Reuters)

Imagínense un audio de Ana Botín hablando sobre la viabilidad del Banco Santander o un 'deepfake' con la voz de Calviño poniendo en duda la solvencia de España que se extiende por internet sin freno, sin que nadie llegue a desmentirlo a tiempo. "Esto puede tener un efecto multiplicador, porque estarías pidiendo a la gente que no se fiase, ya no de lo que lee, sino de lo que oye y escucha", remata, a la par que añade que crear estos bulos 2.0 no siempre dependen de crear 'deepfakes' con herramientas de inteligencia artificial. "Ahí está el ejemplo de Nancy Pelosi. Simplemente alteraron la velocidad de reproducción e hicieron ligeros retoques para hacer parecer que estaba ebria y muchos los creyeron, incluso Trump lo compartió". "Hay conciencia del problema, lo que no hay es consenso de cómo abordarlo ni herramientas a la altura de la complejidad que supone este fenómeno".

'Antistuffing', FB y Google

"Hay un importante trabajo a nivel mundial de tecnologías de 'antistuffing' y se ha avanzado mucho. Pero hay que reconocer que la detección está por detrás de la creación y clonación de la voz", dice Aitor Álvarez a este respecto. En su empresa también trabajan en esta materia, donde tienen sistemas para detectar si es una grabación real o generada por uno de estos sistemas. "Se ha conseguido respuestas muy buenas en entornos controlados. Sin embargo, todavía hay que trabajar en entornos abiertos, ya que te puedes encontrar que el audio que tenga que validar haya sido generado con una técnica diferente con la que se ha utilizado de muestra y haya mayor margen de error".

"En imagen ya tenemos herramientas que son capaces de detectar el ruido, el grano o si los metadatos han sido modificados", opina Pérez Blanco sobre esta materia. "Esto va a ser el juego del gato y el ratón. A las inteligencias artificiales puedes entrenarlas. Ese es el gran reto del siglo XXI, que vas a tener inteligencias artificiales que se van a enfrentar a detectores de fakes, que utilizan a su vez inteligencias artificiales para entrenarse".

Vicomtech también crea herramientas para detectar 'deepfakes', algo menos avanzado a día de hoy

Compañías como Facebook o Google han puesto en marcha y han liberado gran cantidad de información para que diferentes grupos de investgiación puedan mejorar tanto los 'deepfakes' de vídeo como de audio. "Esto me genera sensaciones encontradas, porque la solución no puede corresponder a plataformas con intereses empresariales. Además, las líneas son muy difusas", dice la investigadora del CIDOC. Cualquier algoritmo no vale. "Puede ser muy lícito cuando se combate la desinformación, pero corres el riesgo también de penalizar contenido satírico y humor creado con estas herramientas. Ahí entrarías ya en censura".

Industria
El redactor recomienda