El gran desastre de la inteligencia artificial generativa está ahora a la vuelta de la esquina
Uno de los mayores expertos mundiales en inteligencia artificial, explica que la inteligencia artificial generativa será indistinguible de la realidad en sólo 3 años en vez de los 10 previstos
A Tom Graham le faltaba un par de horas para subirse al escenario de la charla inaugural del TED 2023 cuando le asalté por Zoom en busca de respuestas definitivas. Ahogado en las arenas movedizas de la inteligencia artificial, enterrado en noticias tan asombrosas como tenebrosas semana tras semana, necesitaba agarrarle la mano y salir a respirar el futuro de la IA generativa antes de volver a hundirme en el fango.
Como CEO de Metaphysic —¿viste los deepfakes de Tom Cruise en TikTok y el Elvis resucitado ganando America's Got Talent? Eso lo hizo Metaphysic, una de las empresas de IA más importantes del planeta—, Graham tiene una visión privilegiada de este nuevo mundo. Sus predicciones sobre lo que está por venir en los próximos años me han dejado sin habla. Ya entrevisté a Graham el año pasado desde su casa en Australia, donde hablamos de los problemas potenciales de la IA generativa para el documental de Control Z sobre el fin de la realidad.
Su testimonio, junto con el de otros expertos de su talla, sirvió para elaborar una proyección de los efectos sociales de esta tecnología en los próximos 10 años. Esa proyección es más o menos lo que Graham discutió con Chris Anderson —fundador de TED— en el gran escenario del Centro de Convenciones de Vancouver, Canadá, este pasado lunes: "Parece que vamos a tener que acostumbrarnos a un mundo en el que ni nosotros ni nuestros hijos podremos confiar en la evidencia de nuestros ojos", dijo mientras su rostro se transformaba en el de Anderson en tiempo real. El contraste entre sus palabras y lo que estaba pasando en el escenario fue impactante.
Esta vez, sin embargo, me interesaba más centrarme en el lado positivo de la IA. Hablamos de su futuro efecto en la industria creativa y del entretenimiento, del modo en que permitirá que cualquiera que tenga una historia que contar pueda crear libremente, sin limitaciones económicas. Y, lo más impresionante, me contó cómo podremos capturar nuestras experiencias vitales con la fidelidad de la mismísima realidad en apenas unos años.
PREGUNTA. ¿Cómo te va, Tom?
RESPUESTA. Muy bien. Bastante agobiado. Esto acaba de empezar. Salgo en la primera sesión que comienza a las 17:00.
P. Venga, pues vayamos al grano. Primero háblame del asunto con CAA [en Enero Metaphysic firmó un acuerdo con CAA, la mayor agencia de talento del mundo, para crear modelos biométricos de sus clientes, la crema y la nata de Hollywood. Con ellos, actores y músicos podrán participar en producciones sin pisar un estudio, incluso después de muertos]. ¿Cómo fue aquello, antes de entrar en harina?
R. Hicimos una película con [Robert] Zemeckis llamada Here. Está protagonizada por Tom Hanks, Robin Wright, Paul Bettany, Kelly Reilly... Es un gran reparto en una increíble adaptación de la novela gráfica Here [de Robert McGuire]. Cambiamos mucho la edad de los personajes porque la película cubre toda su vida. Es un uso intenso de la IA para rejuvenecer en vivo y en tiempo real. Esto ocurre en directo, en el mismo plató, mientras Hanks y compañía actúan. El director y todo el equipo puede ver a los actores con veinte años en los monitores. Luego, el efecto aparece en la película, claro, y tiene un aspecto increíble. [En Indiana Jones y el dial del destino, Harrison Ford también fue perfectamente rejuvenecido, pero eso ocurrió mucho después de filmarlo, en la posproducción. El equipo no sabía cómo iba a quedar en el plató].
Nuestra asociación con CAA viene de este uso de la tecnología que hemos creado pero, además, su importancia está en su capacidad de empoderar a las personas. Nuestra IA permite a los actores poseer y controlar sus datos del mundo real, sus identidades hiperreales [el modelo biométrico de IA hecho de información fotográfica capturada en altísima definición]. A medida que aumenta el número de personas que tienen acceso a la IA generativa capaz de fabricar humanos hiperrealistas, ¿cómo conectamos esto con la realidad de las personas que necesitan ser dueñas de ellas mismas y su talento? No podemos utilizar infinitamente a los actores sin su permiso, sin su consentimiento. Esto es lo que trabajamos con CAA.
El futuro del entretenimiento
P. El objetivo es que cualquiera que quiera realizar una película pueda contratar a Tom Hanks sin tener que contratar al Tom Hanks físico, ¿no? ¿Es esto algo que podrá hacerse?
R. Seguirías teniendo que contratar a Tom Hanks, pero Tom Hanks no tendría que aparecer por el plató para rodar. Esto ya ocurre hoy en día, sobre todo en los anuncios de deportistas. No tienen tiempo para realizar estos contenidos porque tienen que estar entrenando y jugando, al contrario que los actores. Hay ya muchas aplicaciones en las que estamos empezando a desvincular la actuación humana de su localización física y temporal.
También hay muchos ejemplos en los que las personas deben ir al plató a rodar pero existen muchas tomas que no exigen su participación directa. No es necesario que estén allí, físicamente, para esas secuencias, aunque luego aparezcan en cámara.
P. ¿Cómo va a afectar esto a la industria del entretenimiento?
R. Realmente va a cambiar la forma en que creamos contenidos. Punto. El uso de la IA generativa es cien veces más barato que el modelado 3D, los efectos visuales tradicionales, los gráficos generados por computador, creando imágenes mucho mejores, totalmente convincentes. Eventualmente, al final, será más barato usar una IA que usar una cámara.
P. Sabemos que, en un futuro próximo, podremos crear películas de forma interactiva con solo dar órdenes a la IA. Básicamente, cualquiera podrá ser director de cine y crear una historia. En ese momento, por ejemplo, podría querer hacer que Tom Hanks fuera el protagonista de mi historia en una nave espacial que no existe en absoluto, donde nada se filma realmente y todo se genera con IA.
R. Sí. Y va a ser más que eso. Mucho, mucho, mucho más que eso. Solo estás pensando en el formato lineal de una película. Un narrador contando una historia de principio a fin. Pero ¿te imaginas estos universos cinematográficos, como El Señor de los Anillos, que era un universo antes de que incluso llegara al cine? Puedes reunir todos los recursos, las ideas, los efectos visuales y los argumentos en grandes modelos [de IA generativa]. Y entonces tú y yo podríamos crear nuestra propia historia dentro de ellos. Podríamos vivirla nosotros mismos. Todo puede ser muy personal para nosotros y nuestra historia. Yo soy un elfo y tú eres otra cosa [yo soy un orco-JD]. Es El Señor de los Anillos, pero lo estamos usando al servicio de nuestro propósito.
Prolongar tu vida, para siempre
P. ¿Y qué pasará entonces?
R. Todo esto va más allá de los medios 2D lineales y convencionales. El objetivo de [Metaphysic] es aplicar nuestra tecnología a todo lo relacionado con la interacción humana con la tecnología, cada pantalla que se mira, cada cosa que se hace en internet. Nos centramos en cómo nuestra tecnología va a cambiar nuestra interacción con todo eso, con es todo lo que hacemos fuera del mundo real físico, y extender el mundo real. Hablamos de extender la realidad. Cuando algo parece tan real que en tu mente se convierte en realidad.
Es entretenimiento, sí, pero también se aplica a todas las facetas de la existencia humana. Estamos empezando a desvincular la experiencia humana del lugar y el momento en que ocurre. Su localización y su momento en el tiempo.
Por ejemplo: Podrás capturar datos de tus experiencias en el mundo real. Puede que sea la fiesta del quinto cumpleaños de tu hijo. Puedes capturar ese momento [en un modelo neuronal]. En el futuro, podrás almacenar ese gran acontecimiento de tu vida en tu catálogo de acontecimientos vitales, para después descargarlo, renderizarlo con IA y revivir por completo esa experiencia exactamente con la misma fidelidad de la experiencia original que viviste la primera vez que estuviste allí.
P. Podrás extender tu vida, para siempre.
R. Es como la luz eléctrica. Cuando se inventó, de repente nuestro mundo era más brillante. Añadimos un 50% más de tiempo al día, ¿verdad? Eso es mucho. Añadimos más realidad a nuestra realidad anterior. [Con la IA generativa] podremos escalar la realidad aún más. Cuando la IA parece tan realista que nuestro cerebro lo procesa igual que la realidad, lo integramos en nuestra realidad. En definitiva, podemos ampliar la experiencia humana. Es como añadir más luz al mundo. Y si podemos añadir una realidad mejor, eso también cambiará muchas cosas.
P. Me han dicho que te vas a transformar en el cofundador de Ted en la charla, para mostrar el poder de esta tecnología.
R. Me entrevista Chris Anderson. Tenemos algunas cosas interactivas que son muy divertidas [primero se transformó en Anderson en el escenario y luego transformó a Sunny Bates —miembro fundador de TED— en Anderson, todo en tiempo real]. Quiero usarlos para destacar los temas de conversación realmente importantes. La gente no entiende que esto no es solo para divertirse, no es solo para los memes. Si es hiperrealista, si es como el mundo real, entonces lo que hace es extender la realidad.
(Para demostrar su potencial, Graham también enseñó una increíble demostración de Aloe Blacc cantando Wake Me Up en varios idiomas, incluso sin hablar ninguno de ellos. Puedes verlo bajo estas líneas).
La lucha por nuestros derechos de IA
P. ¿Cuál es entonces el objetivo final?
R. Lo que necesitamos ahora es centrarnos en cómo capacitar a los individuos para que posean y controlen sus datos del mundo real, cómo y dónde un avatar hiperreal de IA de nosotros mismos o nuestros espacios privados pueden ser utilizados por otros. Tenemos agencia sobre nuestros cuerpos en el mundo real y nuestros espacios privados. La gente no puede entrar en nuestras casas. Hay leyes que lo evitan. Necesitamos extender ese conjunto de derechos a un futuro impulsado por la IA generativa.
Hoy en día, las empresas tecnológicas son dueñas de tus datos. Yo mismo registré los derechos de autor de mi modelo biométrico de IA. Lo publicamos en Internet cuando hicimos el registro, porque uno de los elementos para obtener la protección del registro es que tiene que ser visible para el público. ¿Qué podemos hacer con las instituciones jurídicas actuales para que las personas puedan poseer y controlar sus datos del mundo real y el impacto de la IA generativa en sus vidas? Tenemos que democratizar el control sobre la realidad. Eso es lo que tiene que ocurrir. Porque, si estamos creando una nueva realidad y los medios de producción están controlados por grandes empresas tecnológicas, entonces eso será lo contrario de las normas e instituciones democráticas que experimentamos hoy en el mundo físico.
P. ¿Estás comprometiéndote a que tu empresa dé las herramientas para que el usuario final controle su perfil biométrico sin que Metaphysic posea nada?
R. Sí. Es correcto. [pausa] Bueno, es mucho prometer… definitivamente no puede prometer nada [Tom se ríe nervioso, obviamente preocupado por la posible futura implicación legal de semejante promesa en EEUU]. Pero somos personas que vamos a estar apoyando esta discusión para que vaya hacia adelante, tratando de ayudar a crear herramientas e instituciones que empoderen a los individuos. Están los negocios y luego está lo que es realmente importante, ¿verdad?
No podemos contribuir a la energía limpia o a acabar con el hambre en el mundo mejor que otras personas, pero podemos contribuir al futuro de este tipo de cosas. Intentar hacer las cosas de una manera que sea buena para la gente, buena para la sociedad, que sea ética. Y la razón por la que estamos en la posición para promover este debate es porque somos los líderes en la creación de contenidos hiperrealistas que se basan en datos del mundo real. Nadie ha tenido que pensar en ello hasta ahora, cuando Stable Diffusion ha empezado a crear cosas que parecen reales aunque todavía no lo sean totalmente.
P. Pero llegaremos a ese extremo…
R. Sin duda. En ese punto creo que habrá una verdadera proliferación de contenidos. Yo diría que dentro de dos años esta tecnología será algo muy habitual para todo el mundo, muy accesible, al nivel de un vídeo que será difícil de distinguir de la realidad. Hoy es muy difícil hacer eso, pero es solo cuestión de tiempo. Habrá muchos ejemplos en los próximos dos años que se acercarán pero, a gran escala, cuando tú y yo lo podamos hacer fácilmente, eso va a tardar unos dos años. Es un periodo de tiempo muy corto para que nos preparemos psicológicamente como individuos y como gobiernos para un impacto gigantesco.
Oportunidades de empleo (temporal)
P. El CEO de Google Sundai Pichai hablaba de ese enorme impacto. Dice que no le deja dormir. Esa es otra cosa de la que quería hablar. El impacto que va a tener en un montón de gente que lee estas páginas. Personas que se pueden quedar sin trabajo en unos pocos años. No tengo ninguna duda de que muchas compañías van a reconvertirse por completo. Muchos negocios van a desaparecer. La democratización de estas herramientas también va a destruir muchos puestos de trabajo. Los fotógrafos, para empezar.
R. No estoy seguro pero creo que es una extrapolación válida: Podemos hacer todas estas cosas que miles de personas hacen hoy en día más rápidamente. Ya no necesitamos contratarlos, así que se quedarán sin trabajo. Esa es una progresión lógica muy lineal. Pero lo que veo que está sucediendo, en el contexto de la producción audiovisual, es que, hoy en día hay muy, muy pocas películas y series que se hacen porque son muy caras. Los estudios y los productores que controlan todo no tienen suficiente dinero para hacer muchas películas. Pero, con el tiempo, estas herramientas llevarán a hacer más y más películas.
Si coges tu presupuesto de 50 millones de dólares y puedes hacer tres películas en lugar de una, es incluso probable que haya escasez de cierta mano de obra al principio. El siguiente nivel sucederá cuando tu presupuesto de 50 millones pueda producir cien películas. Tú podrás hacer una película por 500.000 dólares en ese punto. Las personas que son narradores, las personas que son artistas creadores, comenzarán a hacer películas de calidad que pueden ser realmente buenas. Y no estarán controladas por los dueños del dinero.
Las herramientas de IA se han utilizado ya en el cine y cada vez son más sofisticadas, como las herramientas de enmascaramiento de los últimos 20 años. Esto no es más que una continuación. Algunas [personas] no van a ser necesarias en las grandes películas, pero creo que va a haber cien veces más proyectos. Así que no todos los trabajos de todo el mundo desaparecerán, tomados por la IA. Creo que habrá una proliferación de la creatividad humana que dará lugar a muchísimos más proyectos [y puestos de trabajo].
P. Pero no todo el mundo es creativo. Seamos sinceros. La mayoría de la gente no tiene ojo para crear una buena película. La mayoría de la gente no puede inventar una historia. La mayoría de la gente no tiene sentido de la narración. Son artesanos de ciertas tareas que ejecutan lo que los creadores imaginan o consumidores de contenido, pero no creadores.
R. Totalmente correcto. Pero si pasamos de una película a cien... Pongamos como ejemplo la gente que hace rotoscopia hoy en día [que elimina objetos de los fotogramas, por ejemplo]. Nosotros traemos a esas personas del mundo del cine y la TV y las formamos para que hagan tareas con inteligencia artificial para conseguir ciertas cosas a un coste más barato. Pueden ser las primeras personas capaces de utilizar estos algoritmos y estas técnicas para hacer películas para alguien que no puede hacer eso. Como un narrador...
P. Ya, pero al final, el objetivo es que los narradores sean capaces de hacerlo todo por sí mismos. Al 100%.
R. Creo que eso será más adelante.
P. ¿El futuro a 10 años?
R. No, creo que eso pasará dentro de unos tres años. Un espacio latente completo [se refiere a una red neuronal que describe una realidad alternativa], producción virtual [usando IA generativa en vez de cámaras y actores reales], todas estas cosas.
P. Así que ahora no, pero en tres años, todos los profesionales se irán a la calle… ya sé que estoy siendo un capullo…
R. No. Está bien porque todo esto son cosas que están surgiendo. Siendo realistas, lo virtual, como el espacio latente completo, la producción virtual, no elimina muchas de las cosas que ya hacemos. Te pongo un ejemplo: Después de la llegada de la tecnología del plató virtual, muchos de los que trabajaban en rodajes de exteriores dejaron de tener trabajo. Pero muchos de ellos trabajan ahora para empresas de producción virtual. También hay mucho que hacer con la forma de introducir los datos en esos modelos. Se está creando toda una nueva categoría de empleos. Creo que en general la IA tendrá un profundo impacto en todos los trabajos que hacemos como humanos. Pero, dentro del cine en concreto, creo sinceramente que habrá más gente contratada para contar historias y crear el contenido de las historias que en la actualidad. Lo que será interesante, sin embargo, es cómo funcionará eso con los sindicatos y la acción colectiva [de actores, decoradores, iluminadores, directores de fotografía…] Ese tipo de cosas no están claras.
P. Sí. No está claro. No está nada claro. Pero también hay un gran número de personas, como los fotógrafos de archivo, que muy pronto se quedarán sin trabajo por culpa de la IA generativa y los modelos que crean imágenes.
R. No estoy de acuerdo porque creo que la mayor categoría de crecimiento laboral para el futuro de la IA generativa estará en personas que capturen datos del mundo real y los hagan accesibles a grandes modelos para integrarlos en esos modelos. Lo que hay dentro de estos modelos hoy en día, no es muy bueno. Tenemos que introducir mil veces más datos de muy alta definición para poder hacer cosas con la delicadeza que los cineastas necesitan. Las personas que contribuyen a la fotografía de archivo pueden migrar a contribuir a estos modelos con el mismo modelo de negocio.
P. Pero realmente no es así. Hay una famosa empresa de fotografía de archivo que está pagando una miseria a sus colaboradores por licenciar sus imágenes y vídeos para entrenar a DALL-E. Les pagaron algo ridículo una vez, menos de 100 dólares, y ya no van a recibir más. Es un contrato único, con una licencia única, y eso es todo. Antes recibían una cantidad por cada foto, que sumaba lo suficiente para poder vivir de su trabajo. Ahora, esto no es nada. Es una gran diferencia.
R. Ya no puedo decir si [el nombre de la empresa] sea un buen negocio, pero la gente que contribuye a ella, la gente que contribuye...
P. Crees que serán capaces de encontrar cosas nuevas.
R. Sí. Sabes, DALL-E y estos modelos son realmente geniales, pero se encuentran muy lejos de la fidelidad de la realidad en muchos órdenes de magnitud [porque la calidad de sus datos es mala]. Hoy en día, Metaphysic ha creado un gran número de puestos de trabajo para que la gente capture datos de alta definición para crear rostros humanos realistas. y de todos esos servicios de fotos de archivo y nunca podrás acercarse a la calidad de los datos que hemos capturado. No hay en Internet vídeos de alta resolución y alta calidad de personas haciendo todas las cosas necesarias para recrear la realidad con IA. Esto es un vector enorme y cualquier empresa debería orientarse hacia eso.
¿Un final feliz?
A pesar de lo que dice Graham, el problema es que esos trabajos solo serán un parche temporal. A medida que los modelos sean más sofisticados y los datos aumenten en resolución y calidad, cada vez se necesitará menos gente realizando estas tareas, hasta que no se necesite a nadie más. Además, aplicaciones como Luma —que permiten capturar la realidad en redes neuronales de alta definición con un simple vídeo— se convertirán en la norma, facilitando que la gente corriente alimente sus propios modelos personales de su vida real, como imagina Graham.
Cuando lleguemos a ese punto —solo dentro de tres años, según él— dispondremos de medios creativos que la humanidad no ha visto en toda su historia. La imprenta e internet serán juegos de niños comparados con la escala de lo que está llegando.
Los narradores podrán crear lo que quieran de la nada, con solo usar un ordenador o un teléfono, con el mismo nivel de sofisticación que cualquier producción actual de Hollywood. Lo mismo ocurrirá con el diseño, la ilustración, la escultura, los videojuegos, los mundos virtuales y, básicamente, cualquier cosa que se te ocurra. Bryan Cattanzaro —VP Applied Deep Learning en Nvidia— me dijo en una entrevista en vídeo a finales de 2022 que cree que todo esto sucederá en los próximos cinco años a una década. Al igual que Graham, pensaba que iba a dar lugar a una nueva edad de oro de la creatividad, similar a cuando las pinturas al óleo fabricadas industrialmente provocaron el Big Bang del arte moderno, empezando con el movimiento impresionista. Antes de la pintura industrial, el arte se limitaba sobre todo a unos pocos educados en escuelas de arte de élite y pagados por familias ricas. Como ahora pasa con las películas y series.
La escala del nuevo Big Bang de creatividad que describe Graham será asombrosa comparada con la que se produjo a finales del siglo XIX. Realmente, la dimensión es incomparable e inimaginable. Sus consecuencias finales están aún por ver, pero no creo que sean tan positivas como imagina el fundador de Metaphysic para una gran parte de la población.
A Tom Graham le faltaba un par de horas para subirse al escenario de la charla inaugural del TED 2023 cuando le asalté por Zoom en busca de respuestas definitivas. Ahogado en las arenas movedizas de la inteligencia artificial, enterrado en noticias tan asombrosas como tenebrosas semana tras semana, necesitaba agarrarle la mano y salir a respirar el futuro de la IA generativa antes de volver a hundirme en el fango.