"ES UN GOLPETAZO EN LA MESA"

Todo lo que has visto de la IA eran migajas y el último invento de OpenAI lo demuestra

Sora, la última creación de la empresa de Sam Altman, sorprende por su capacidad de crear videos fotorrealistas con unas palabras. Los elogios que genera están a la altura de las preguntas y dudas que provoca

Foto: Fotograma de vídeo creado por Sora. (OpenAI) — Fotograma de vídeo creado por Sora. (OpenAI)

Loading

Por

17/02/2024 - 05:00

"Brutal", "esto es loquísimo", "estoy en shock"... Estos son algunos de los comentarios que ingenieros, divulgadores y otros especialistas en inteligencia artificial han realizado en las últimas horas al ver las capacidades del último invento de OpenAI.

Entre el común de los mortales, la sorpresa también ha sido mayúscula, pero la respuesta, en algunos casos, no ha sido tan entusiasta. "Estamos jodidos". Este tuit de una usuaria de X resume perfectamente el sentimiento que muchos han experimentado al ver los resultados que es capaz de generar el último juguete de Sam Altman, un desarrollo bautizado como Sora y que es capaz de crear hasta un minuto de vídeo tomando como base un puñado de palabras. Aunque es el primer producto de esta naturaleza que lanzan los padres de ChatGPT, esto no es nuevo.

Han hecho algo parecido a lo que ocurre con Apple y los iPhone. Aunque hayan llegado mucho después, han puesto a bailar a su ritmo a todo el gremio de la IA. OpenAI ha entrado directamente a la cabeza de la carrera porque el fotorrealismo que alcanzan los resultados de su nueva inteligencia artificial es muy superior al que ofrecían herramientas ya existentes como Runaway o Pica. Sus capacidades también están por encima de herramientas de Meta o Google que pretenden hacer lo mismo.

Pero el grado de fotorrealismo alcanzado, además de suponer una victoria para Altman, ha vuelto a poner el acento una vez más en el endiablado ritmo que ha logrado mantener la industria para lograr avances en torno a esta tecnología, un ritmo mucho mayor al que parecen poder asimilar los reguladores, las empresas y la sociedad.

Si está pensando en echar a correr y empezar a introducir instrucciones (prompts, en la jerga especializada) para que Sora empiece a generarle un auténtico archivo audiovisual en base a sus peticiones, debe saber que, por el momento, solo se ha puesto en manos de unos pocos creadores de contenido seleccionados cuidadosamente por la compañía, así como en manos de una serie de expertos en seguridad.

No hay una única razón para actuar de forma tan contenida. Por una parte, la compañía puede querer analizar los riesgos, problemas de seguridad y las alucinaciones que pueda llegar a sufrir el sistema. Por otra parte, también querrá testar lo preparada que está su infraestructura para la mayor carga de trabajo para sus centros de datos y servidores que supone poner en marcha y alimentar esta nueva inteligencia artificial. Y también querrá seguir poniendo a punto la herramienta y solventando errores con un grupo de usuarios reducido antes de lanzarlo a gran escala. Por ahora, no hay fecha para que eso ocurra.

"Un auténtico golpetazo en la mesa"

Pero que todavía no haya libre acceso no impide hacerse una idea de cómo funciona y algunos de los logros que ha llevado a Sora a generar en unos pocos este nivel de expectación. El concepto no es muy diferente a lo que ya nos hemos acostumbrado en los pocos meses en los que hemos convivido con las IA generativas. Para que funcione, basta con darle una descripción, como podemos hacer en la caja de ChatGPT o de Bard, ahora renombrado como Gemini.

"Esto es algo que nadie esperaba. Es un auténtico golpetazo en la mesa", explica a este periódico Javier López, cofundador de Magnific AI, una herramienta española que utiliza la IA para mejorar imágenes y fotografías.

"Si me hubieran enseñado uno de los videos antes del anuncio y me dicen que ha sido generado con inteligencia artificial, no me lo hubiese creído", asegura este reconocido divulgador, conocido como 'Javilop' en redes sociales y foros especializados. Este experto explica que esto supone "un antes y un después" en el sector y que supone un importante perjuicio para otras IA generativas de vídeo, como pueden ser Runaway o Pika, que hasta ahora eran las referencias.

Por el momento, 'Sora' solo se ha puesto en manos de unos pocos creadores de contenido seleccionados por la compañía

Pero ¿qué es lo que ha logrado OpenAI que no hubiesen hecho otros? La propia compañía ha puesto el acento en la resolución o la duración de los videos que puede ofrecer, pero desde Magnific AI destacan otros puntos. "Destacaría, más allá del fotorrealismo que es impresionante, la coherencia temporal que han logrado. Eso es lo realmente impresionante". Con coherencia temporal, López se refiere a que los resultados se mantienen estables desde principio a fin. "Si fuese un video de una casa y una vista que se ve desde diferentes ángulos, no tendríamos el problema de que desapareciese una columna, aparecieran elementos que no estaban o se distorsionaran".

Sin entrar en demasiados vericuetos técnicos, Sora logra esto generando el archivo en bloque y no por partes, como ocurría hasta entonces. Si se genera algo frame a frame y cada vez que lo genere la IA tiene que utilizar sus capacidades, con margen de sufrir errores y alucinaciones, hay más posibilidades de que el resultado final se aleje de lo deseado.

López apunta a que sus beneficios no se van a limitar al video, sino que también servirán para crear imágenes estáticas. "Ha hecho más ruido el tema del video, pero no hay que olvidar que al final el video no son más que una secuencia de frames", puntualiza, a la vez que dice que populares herramientas como Midjourney o Stable Diffusion también corren el riesgo de "ser barridas" por esta IA cuando empiece a distribuirse y poder utilizarse abiertamente.

A la hora de la verdad, salvando las distancias, el entrenamiento que ha dado vida a esta primera versión de Sora no es tan diferente a la técnica de los grandes modelos de lenguaje (más conocidos por sus siglas en inglés, LLM) que sirven para entrenar herramientas de generación de texto como puede ser ChatGPT o Bard.

"Si los LLM utilizan palabras o conjuntos de palabras conocidos como tokens, aquí lo que se usa es lo que se conocen como visual patches, que se podrían definir como trozos o zonas de imagen", explica José Luis Calvo, experto en la materia y fundador de Diverger AI.

¿Cómo funciona exactamente este tipo de entrenamiento? Imaginemos que tenemos una cinta de partido de baloncesto. Cuando Sora quiere aprender de ese archivo, lo que hace es trocearlo en pequeñas piezas llamadas zonas de imagen.

TE PUEDE INTERESAR

Bard ya es historia: Google da un vuelco a su IA y sigue el camino de OpenAI

Michael Mcloughlin

Cada una de esas zonas es una pieza de un puzle, que Sora clasifica también teniendo en cuenta aspectos temporales y espaciales. Así puede entender cómo se mueven los jugadores, el público o la pelota, qué colores tiene, etc. Este proceso lo repite millones de veces con millones de vídeos diferentes.

Cuando se le pide que se genere un video a raíz de una secuencia de texto, emplea las zonas de las que ha aprendido para generar un nuevo puzle que se ajuste a lo que se ha pedido. Si le pides un partido de baloncesto entre adolescentes, usará las zonas que ha aprendido de visionar partidos pero también utilizará las zonas de personas de carne y hueso para darle forma.

Como el material con el que se ha entrenado esta IA se presupone tan abundante y diverso (OpenAI no aclara ni lo detalla), Sora puede trabajar y crear archivos no solo de diferente duración, sino también de diferente calidad y resolución o diferente formato. También puede animar fotos generadas por IA, editar y cambiar el estilo y los elementos del video que se le proporciona o alargarlo e incluso generar un bucle infinito como se puede ver en el siguiente video.

Incluso puede crear nexos y transiciones lógicas entre dos videos generados artificialmente que no tienen nada que ver. En uno de los ejemplos que OpenAI ha hecho públicos se ve cómo un dron entra en un coliseo romano y se convierte en una mariposa para luego sumergirse en el océano. Aunque no tengan nada que ver, el sistema consigue unirlos con una transición visual fluida.

No es la única virtud de este desarrollo. Según han detallado algunos investigadores involucrados en el proyecto, el propio sistema ha aprendido autónomamente conceptos y principios de geometría, consistencia, texturas o lenguaje cinematográfico sin que ellos intervinieran, solo consumiendo la gran cantidad de datos con el que se alimentó el modelo.

El modelo no es perfecto y una vez pasa la impresión inicial, uno no tarda en darse cuenta de algunos errores que aparecen a simple vista. La propia OpenAI lo reconoce en su blog oficial. "En la actualidad, presenta numerosas limitaciones como simulador. Por ejemplo, no modela con precisión la física de muchas interacciones básicas, como la rotura de cristales. Otras interacciones, como comer alimentos, no siempre producen cambios correctos en el estado del objeto", explican.

El propio sistema ha aprendido autónomamente conceptos y principios de geometría, consistencia, texturas o lenguaje cinematográfico

Calvo destaca el nivel de comprensión que parece haber alcanzado este desarrollo. "Esa es una pregunta que siempre ha estado sobre la mesa, si todas estas IA realmente comprenden lo que están creando", comenta.

Uno de los ejemplos publicados de Sora ha sido un video generado a raíz de una cadena de texto en la que se le pide que genere un video de dos surfistas aprovechando una ola gigantesca que acaba de romper en una sala histórica. "Ves cómo se comporta el agua y eso te da pie a pensar que está entendiendo bien lo que está creando. Eso es un avance enorme. Incluso en los que hay fallos, hay cosas que te das cuenta de que está comprendiendo lo que está creando", comenta. "No hay que juzgarla por lo que falla, sino por todo lo que acierta. Probablemente todos estos avances en comprensión de video sean un paso hacia una inteligencia artificial general".

Se presentó el pasado jueves. Lo hizo dos horas después de que Google pusiera sobre la mesa Gemini 1.5, una novedad que quedó opacada una vez Sora asomó la patita. Este nuevo desarrollo de los californianos destaca, entre otras cosas, porque permitirá en algunos casos proporcionar al modelo de lenguaje un contexto de hasta un millón de tokens. Hasta ahora, lo más avanzado era GPT-4 Turbo, que permitía 128.000 tokens. ¿Esto en qué se traduce? En que la IA que utilice Gemini 1.5 podrá cotejar muchas más referencias y comprender solicitudes mucho más complejas. "Creo que si tenemos en cuenta estos anuncios, Gemini 1.5 y Sora, estamos en la jornada más importante desde que estalló toda esta carrera", afirma Calvo.

Todos los retos que plantea Sora

Pero el entusiasmo y la expectación que ha generado el último desarrollo de OpenAI también ha traído importantes preocupaciones e interrogantes. Uno de los principales es saber con qué materiales y videos se ha entrenado el modelo y si esto puede llegar a suponerle un nuevo quebradero de cabeza a la compañía de Sam Altman en lo que se refiere a los derechos de propiedad intelectual.

¿Deben pagar las tecnológicas que utilicen contenido disponible en internet para entrenar herramientas como ChatGPT a aquellos que hayan creado ese contenido? Este debate alcanzó un nuevo grado de tensión después de que hace varias semanas el New York Times decidiese demandar tanto a Microsoft como a OpenAI por utilizar millones de sus artículos con este fin. Antes que el rotativo estadounidense, Elon Musk o los responsables de Reddit ya habían puesto el asunto sobre la mesa.

Aquí hay una circunstancia añadida. ¿Cuál es la mayor plataforma de vídeos de internet? YouTube. ¿Y de quién es propiedad? De Google. ¿Y quién es el mayor rival de Google en lo que se refiere a la IA? OpenAI. Si por algún casual trasciende que la firma de Sam Altman ha utilizado material de YouTube para alimentar Sora, ¿cómo reaccionaría la compañía dirigida por Sundar Pichai, que también se está jugando mucho en este negocio?

TE PUEDE INTERESAR

Bard ya es historia: Google da un vuelco a su IA y sigue el camino de OpenAI

Michael Mcloughlin

El problema es que no es fácil saberlo. OpenAI se ha convertido en una suerte de caja fuerte en lo que se refiere a los detalles de sus desarrollos. Ya con GPT-4 no dieron datos claves como el tamaño del modelo o el número de parámetros. “Es hasta lógico que no lo hagan”, dice Javier López, que indica que hacerlo sería "regalar" información comercial clave para la empresa. "Otras empresas y plataformas más pequeñas, como puede ser Stable Diffusion, lo tienen que hacer porque ahí también sus investigadores presionan para publicar los papers por temas profesionales y académicos", argumenta.

López también pone sobre la mesa que parte del material que hayan utilizado para entrenar Sora haya sido generado por la propia compañía. "Se especula con que hayan utilizado un importante volumen de datos sintéticos, al haber hecho simulaciones con Unity, que es un motor gráfico muy extendido en videojuegos".

Desde la compañía, tal y como recogen algunos medios, aseguran que el entrenamiento se ha realizado con contenidos licenciados o disponibles públicamente. El problema radica en el alcance del concepto disponible públicamente y parece que será la justicia la que tendrá que dar la razón a una de las partes y decidir si lo que uno puede encontrar navegando en internet es susceptible de usarse con estos fines. "Son dos posturas muy enfrentadas", dice Calvo. "Por una parte, están los que entienden que el uso de lo que se encuentra en internet es correcto. Y por otro, los que entienden que eso es un robo de propiedad intelectual. Pero hasta que la justicia y los reguladores no se pronuncien, nadie va a tener la razón".

Hay muchos otros frentes abiertos. Uno de los más comentados es el efecto que puede tener sobre profesiones que tengan que ver con el mundo audiovisual. De momento, parece que muchos pueden respirar tranquilos porque la herramienta no está pensada para crear archivos de más de un minuto y además el sistema no responde con la misma lógica a cada petición. Es decir, difícilmente nadie conseguirá que dos archivos generados por Sora tengan lógica y continuidad después de unirlos.

Pero quizá el reto más comentado es el de cómo se asegurará la compañía que esta tecnología no se convierte en un nuevo foco de desinformación. La industria ya está trabajando en filtros y sistemas que indiquen que una imagen o un texto ha sido generado por una IA, pero el riesgo sigue presente.

"También hay que decir que las fake news ya existían antes que todas estas herramientas, lo que han hecho es, por así decirlo, multiplicar sus posibilidades", reflexiona Calvo. "Pero, ¿cuál es la solución? ¿Parar el desarrollo tecnológico cada vez que haya un reto así? Yo particularmente no lo contemplo. Probablemente, ya haya problemas generándose que todavía ni nos hayamos percatado, porque la tecnología va mucho más rápido de lo que podemos asimilar", añade. Pero esto, según su punto de vista, no es nuevo. "¿Cuándo surgieron las redes sociales, nos imaginábamos que tendrían ese efecto polarizador en la sociedad? Incluso voy más allá. Cuando surgió el tabaco nadie supo predecir lo nocivo que era para la salud".

Inteligencia Artificial