Es noticia
Este valenciano ha creado la inteligencia artificial que ahora teme todo el mundo
  1. Tecnología
ACABA DE CONSEGUIR 14,5M€

Este valenciano ha creado la inteligencia artificial que ahora teme todo el mundo

Voicemod se ha hecho hueco en uno de los aspectos de la IA que más miedo está generando: la creación de voces artificiales. Por ahora, ya han firmado acuerdos con gigantes como Warner o Tencent

Foto: El cofundador y CEO de Voicemod, Jaime Bosch. (Cedida)
El cofundador y CEO de Voicemod, Jaime Bosch. (Cedida)

Hacer una videollamada con amigos y hablar con la voz de Bugs Bunny. Jugar una partida de League of Leguends y que el resto no te escuche a ti, sino a un robot que reproduce lo mismo que dices. Y así con todos los ejemplos que se te puedan pasar por la cabeza. Esa es la propuesta de Voicemod, una startup valenciana que ha cerrado recientemente una ronda de 14,5 millones de dólares, además de acuerdos con pesos pesados, como Tencent o Warner. Su producto estrella es un modulador de voces en tiempo real mediante inteligencia artificial, uno de los aspectos que más miedo ha generado la tecnología de moda, sea por suplantaciones de identidad, desinformación o, también, pérdida de puestos de trabajo.

"Le damos a los usuarios la capacidad de ser escuchados con la voz que ellos quieran", resume el cofundador y CEO de Voicemod, Jaime Bosch, en conversación con este periódico. "Hemos llegado en el momento adecuado al lugar adecuado y hemos tomado las decisiones adecuadas, además de tener mucha resiliencia y un poquito de suerte", dice cuando le preguntan por el proyecto, en el que trabajan 156 personas y que el año pasado facturó 12,5 millones de euros. Además, la ronda que acaban de levantar fue liderada por el fondo Leadwind, de Kfund, y apoyada por The Mini Fund, una cartera del cofundador de Discord, Eros Resmini.

Foto: Timnit Gebru. (Getty/TechCrunch/Kimberly White)

Los primeros pasos del proyecto se remontan a 2009, cuando Bosch se empezó a interesar por los filtros digitales de voz junto a sus hermanos, aunque no fue hasta 2014 cuando se consolidó la empresa con el nombre actual. En un inicio, estaban enfocados a las aplicaciones móviles, aunque de forma más rudimentaria, ya que tardaron un tiempo en transformar la voz en tiempo real. "No probábamos una cosa y nos quedábamos en eso, hemos pivotado muchas veces", recalca Bosch.

Es más, ni siquiera desarrollaban su herramienta mediante inteligencia artificial, sino mediante un procesador de señales digitales (DSP, por sus siglas en inglés). "Básicamente, era como poner pedales de efectos a una guitarra eléctrica, como puede ser la distorsión o el eco", ejemplifica el CEO de Voicemod, que detalla el salto cualitativo que supuso incorporar la IA: "Con el DSP, tu voz es la base y se modifica, pero siempre es tu voz y cambiará según la persona. La IA funciona con un modelo en el que se dice cómo tiene que sonar la voz final. Da igual si hablo yo u otro, siempre sonará igual, porque cambia el timbre, que es lo que hace única a cada voz".

Sin embargo, la financiación empezó a flaquear y estuvieron a punto de echar el cierre en 2017. "El modelo de inversión en tecnología en España en aquel momento estaba más centrado en software as a service o ecommerce, porque es donde ha habido grandes casos de éxito", reconoce. Fue ahí cuando hicieron su último intento de seguir a flote y lanzaron una aplicación de ordenadores, Voicemod for Desktop, que les acabó catapultando. "Pasamos de estar al borde de cerrar a no solo remontar el vuelo, sino estar donde estamos ahora. Espero que continúe", dice, a la par que recuerda que su plantilla se ha multiplicado por diez desde entonces.

De hecho, lo que habían lanzado era una beta, pero su uso se extendió como no habían visto hasta entonces. Y ahí identificaron por primera vez el que se convertiría en su principal caladero: los videojuegos. "Honestamente, nos eligieron los gamers a nosotros", reconoce Bosch, que subraya que la coincidencia temporal fue clave. Su software fue lanzado pocos meses después de que se estrenara PUBG: Battlegrounds, el primer gran título de la modalidad battle royale, donde varios jugadores se enfrentan hasta que solo uno queda en pie y, mientras tanto, lo habitual es que hablen a través de un chat de audio.

Foto: Foto: Fornite.

"Veíamos que mucha gente nos pedía un modulador de voz para PC. Nos sorprendió, así que les preguntamos y nos explicaron que lo querían para hablar con otros usuarios en este juego", continúa Bosch. Por si fuera poco, la salida de la joya de la corona de Voicemod llegó apenas unas semanas después del estreno de Fortnite. "Aquello fue un cambio de paradigma del gaming a muchos niveles. Fue cuando se empezó a romper la línea entre videojuego y red social", incide.

Este fenómeno hizo que su propuesta pasara del enfoque generalista a "verticalizarse al máximo". "Voicemod añade una capa de expresión a los jugadores y al metalenguaje que tiene cada grupo y que le da identidad, como pueden ser las bromas internas", apunta a la par que destaca que también crean voces similares a las de los humanos, sin necesidad de que tengan que parecer un robot o un dibujo animado.

Es lo que explica que ya hayan firmado acuerdos de colaboración con empresas importantes del sector, como el que cerraron con el gigante chino Tencent para incorporar el centenar de filtros de voz de Voicemod en sus videojuegos. Además, hace poco anunciaron un convenio de propiedad intelectual con algunas franquicias de Warner. "Vamos a comercializar voces y sonidos originales de algunos de sus personajes, pero aún no puedo decir cuáles", se limita a comentar al respecto, aunque deja caer que irá muy enfocado a sus usuarios, "que fundamentalmente son la generación Z".

placeholder La aplicación Voicemod for Desktop. (Cedida)
La aplicación Voicemod for Desktop. (Cedida)

Por ahora, Voicemod for Desktop ya acumula 40 millones de descargas y 3 millones de usuarios activos mensuales. Se basa en un modelo de negocio freemium; esto es, una versión con funcionalidades básicas gratuitas y, si se quiere ir más allá, hay que pasarse al pago de una suscripción. Los precios son de 4 dólares por trimestre, 10 dólares al año o 20 dólares por tenerlo para siempre.

No obstante, aunque los videojuegos son el uso más habitual, no son el único que se le está dando. "Voicemod es un cable virtual que puedes conectar a lo que quieras, no estás atado a la aplicación que uses, porque lo puedes usar con cualquier aplicación", explica. De hecho, ellos mismos ofrecen tutoriales para poder usar su tecnología en aplicaciones de videollamadas como Zoom. Por ahora, uno de los principales casos de uso profesional de esta herramienta está en los creadores de contenido, sean youtubers o vtubers, una de las tendencias en auge en Asia y que, poco a poco, va llegando a Occidente.

Además, su cartera de productos sigue dilatándose. El pasado febrero, Voicemod compró Voctro Labs, un spin-off de la Universidad Pompeu Fabra (Barcelona) que permite que el usuario cante con la voz de un artista concreto, algo que van a integrar en su aplicación Text To Song. También han lanzado Tuna, un repositorio de sonidos con un funcionamiento similar al de Giphy, o Voicemod SDK, para mejorar la calidad del audio en las conversaciones sin que eso afecte demasiado a la latencia. "Son como satélites alrededor de la aplicación principal. Las lanzamos como plataformas web para hacer iteraciones rápidas, aprender y luego integrarlo", dice Bosch, que explica que también tienen una línea de negocio en la que ofrecen su tecnología a terceros, como pueden ser las aplicaciones de comunicación.

Por qué hay miedo a la inteligencia artificial

El auge del modelo de Voicemod ha llegado en un momento en el que se han disparado los temores por la velocidad del desarrollo de la IA. Es el caso de personalidades del mundo tecnológico, como Elon Musk, fundador de Tesla o SpaceX, o Steve Wozniak, cofundador de Apple, que se han adherido a una carta en la que se pide paralizar todos los grandes experimentos con esta tecnología durante, al menos, seis meses. Otros, sin embargo, han tachado este planteamiento de catastrofista. Una vez más, viene a colación la metáfora del cuchillo, que sirve para cortar jamón, pero también como arma blanca.

"Estamos en un punto de inflexión, porque la IA puede conllevar aspectos muy positivos, como cambiar la forma en la que trabajamos y potenciar la creatividad humana, pero otras veces puede tener impacto negativo para la sociedad", explica Josep Curto, director del Máster de Inteligencia de Negocio y Big Data Analytics en la Universitat Oberta de Catalunya (UOC). Lo ilustra con un ejemplo sobre las voces artificiales: "La capacidad de clonar la voz puede desde ayudar a personas que estén perdiendo esa capacidad, como puede ser un enfermo de ELA, pero también hace que sea muy fácil la manipulación".

Foto: Helena Matute, catedrática de Psicología en la Universidad de Deusto. (Cedida)

Bosch también defiende que "la IA va a ser un motor de creatividad y cambio importante", pero también reconoce que "como cualquier nueva tecnología, tiene peligros". "Toda innovación requiere que los gobiernos jueguen su papel y regulen. El problema es que la velocidad que tienen los gobiernos para regular y la tecnología para evolucionar van a ritmos distintos", incide el cofundador de Voicemod, que considera que, mientras llega una normativa, son las compañías las que tienen que asumir una responsabilidad para "asegurar que el efecto es positivo". "Es un tema que tratamos habitualmente en la compañía", asegura.

Preguntado por la posible (y más que probable) manipulación de voces con inteligencia artificial, en Voicemod explican que están trabajando en una tecnología de marcas de agua, "de forma que se pueda diferenciar qué audios son reales y cuáles son creados de forma artificial". "Lo que estamos desarrollando está a nivel de ser pioneros mundiales y ya está prácticamente listo. Es un sistema robusto contra cambios de formato o compresiones", sostiene Bosch, que comenta que la idea es ofrecer esa herramienta a otras empresas.

Como ya ha explicado este periódico, otro de los puntos críticos está en la pérdida de puestos de trabajo de los profesionales de la voz. En Voicemod detallan que, en su caso, preparan sus bases de datos con actores de doblaje a los que pagan por entrenar estos modelos. "No entrenamos con otro tipo de datos", recalcan antes de defender que la IA siempre necesitará un humano detrás. "Es un instrumento que necesita un piloto. Los actores de voz tienen una parte de interpretación creativa muy potente que siempre va a estar ahí".

"Estas herramientas van a transformar el mercado laboral y, ante estas situaciones, las empresas pueden reaccionar de dos maneras: ampliar capacidades de las personas que trabajan o quedarse con un pequeño grupo reducido para servicios mínimos", apunta Curto, de la UOC, quien recuerda que el nacimiento de Google Translate ya hizo que muchos traductores perdieran su trabajo.

"La cuestión es que era una herramienta genérica para traducciones sencillas. A medida que necesitas algo especializado, comete errores y solo un experto puede reducir esos problemas", apostilla este especialista, que hace un paralelismo con la voz, ya que "cuando se quiera una vocalización de mayor calidad, con emoción y énfasis, se necesitará un profesional". La cuestión es que eso no evitó que algunos traductores se vieran sustituidos por una herramienta mucho más rudimentaria que unas inteligencias artificiales que aumentan sus capacidades a un ritmo cada vez mayor. Solo hay que recordar lo que ha ocurrido con las imágenes: si hace menos de un año solo eran capaces de generar memes, ahora ya son casi indistinguibles de las reales.

Hacer una videollamada con amigos y hablar con la voz de Bugs Bunny. Jugar una partida de League of Leguends y que el resto no te escuche a ti, sino a un robot que reproduce lo mismo que dices. Y así con todos los ejemplos que se te puedan pasar por la cabeza. Esa es la propuesta de Voicemod, una startup valenciana que ha cerrado recientemente una ronda de 14,5 millones de dólares, además de acuerdos con pesos pesados, como Tencent o Warner. Su producto estrella es un modulador de voces en tiempo real mediante inteligencia artificial, uno de los aspectos que más miedo ha generado la tecnología de moda, sea por suplantaciones de identidad, desinformación o, también, pérdida de puestos de trabajo.

Internet
El redactor recomienda