Es noticia
Lo último de Google es un varapalo a OpenAI, pero no tengo claro cómo voy a usarlo
  1. Tecnología
LOS DE MOUNTAIN VIEW SACAN MÚSCULO

Lo último de Google es un varapalo a OpenAI, pero no tengo claro cómo voy a usarlo

El buscador libera su última inteligencia artificial, Veo 2, que genera videos. Los resultados están muy por delante de los de sus rivales, aunque todavía hay algunos puntos que resolver

Foto: Logo de Google. (Reuters)
Logo de Google. (Reuters)

Cada vez que OpenAI libera una nueva versión de los modelos que dan vida a ChatGPT, en la mayoría de los casos, responde a las expectativas del común de los mortales. Pero hubo una ocasión en la que ocurrió justo lo contrario. Se trata de Sora, su inteligencia artificial para generar vídeos a partir de unas pocas palabras. Presentada en la primera mitad de 2024, las pocas muestras que pusieron sobre la mesa bastaron para generar una tremenda expectación.

Tardó meses en llegar a los usuarios de a pie. La empresa mantuvo un extraño silencio que no hizo más que inflar todavía más el globo. ¿Qué ocurrió cuando los suscriptores pudieron meterle mano por fin a esta IA? Pues que su rendimiento fue decepcionante. Lo que se veía en los vídeos que generaba era algo más propio de la distorsión de la realidad de quien se ha metido un tripi o unos hongos alucinógenos.

Foto: Sundar Pichai, CEO de Google, en una imagen de archivo. (Reuters)

Esta sensación de tiro errado por parte de OpenAI se acrecentó cuando Google, la empresa a la que llevan metiendo presión dos años y medio con cada lanzamiento, presentó Veo-2, su sistema para generar vídeos a partir de una simple instrucción. Las demostraciones de los de Mountain View estaban bastante más pulidas y logradas que lo que conseguía Sora.

Hace unos días, Google puso Veo-2 a disposición de los suscriptores de pago. Hasta entonces, solo había estado accesible en Freepik, la empresa malagueña que empezó como un banco de imágenes y ahora es el representante patrio más destacado en el campo de la IA en España.

Foto: La aplicación móvil de Gemini incorporará muchas novedades (EFE/Google)

Tras ponerlo a prueba, esas buenas sensaciones solo se han confirmado. Veo-2 es un auténtico varapalo para los chicos de Sam Altman. Es cierto que tiene cosas que pulir y que no hay que estrujarse mucho los sesos para llevarlo al límite, pero probablemente sea la IA de vídeo más avanzada a día de hoy. Y muy probablemente consiga arrancarte un ‘wow’ después de dos años en los que nos hemos acostumbrado a ver avances enormes en esta tecnología cada vez que abríamos y cerrábamos los ojos.

Hay un elemento clave que ayuda a entender cómo Google ha llegado a este punto de madurez: YouTube. Ahora mismo, la multinacional dirigida por Sundar Pichai dispone de uno de los mayores repositorios del mundo de un material súper valioso para entrenar inventos como Veo-2. Esto ha desatado un negocio paralelo: el de miles de creadores de contenido de todo el mundo que están haciendo caja con vídeos inéditos que venden a intermediarios, quienes a su vez los ofrecen a compañías y startups de inteligencia artificial para entrenar sus desarrollos.

Veo-2, a examen

He estado probando obsesivamente la herramienta. Lo he hecho poniendo unas pocas palabras, pero también instrucciones detalladas, sugiriendo incluso la lente o el movimiento que debía hacer la cámara. A continuación, encontrarán los prompts que hemos elaborado tomando como referencia los ejemplos que Google utilizó para mostrar las capacidades de esta IA.

Les confieso que últimamente me ha entrado cierta obsesión con las capibaras, así que decidí estrenarme con ellas. Aquí tienen el prompt que elaboré:

“Plano amplio y bajo, filmado con una lente de 35 mm en digital suave, luz natural al atardecer. Una capibara se desliza lenta y plácidamente por un estanque de aguas termales rodeado de piedras oscuras y vapor tenue. Está semisumergida, solo su cabeza asoma, los ojos entrecerrados en una expresión de pura paz interior. Sobre su cabeza descansa, con equilibrio perfecto, una rodaja de naranja. A su alrededor flotan flores silvestres y cáscaras de cítricos.”

Cumplió con casi todo lo que pedí. Es cierto que el animal apenas se mueve ni nada entre flores y cáscaras de limón y naranja, pero tiene la rodaja perfectamente colocada en la cabeza, se ve el vapor y muestra una expresión de tranquilidad absoluta. Punto para Veo-2.

Decidimos pasar a una escena con más acción, un protagonista humano y algunas peticiones técnicas adicionales. Aquí la instrucción que le dimos al sistema:

“Una cámara gran angular en movimiento lento atraviesa la entrada de un taller de restauración de pianos antiguos. Las motas de polvo flotan suavemente en la luz tenue que entra desde una claraboya manchada por el tiempo. En el centro, un anciano afinador, con manos temblorosas pero precisas, ajusta una cuerda. La cámara se acerca en plano medio, capturando el reflejo de su rostro en el esmalte negro de un piano de cola Steinway. El sonido del clic metálico se mezcla con un leve murmullo de Chopin sonando de fondo. Grabado con una lente de 85 mm en formato digital RAW, con énfasis en las texturas de la madera agrietada, las teclas de marfil amarillentas y las arrugas de las manos del maestro.”

Nuevamente, creo que entendió bastante bien lo que pedía. No llegó a atravesar la puerta del taller, pero consiguió el efecto introductorio que pretendía cuando elaboré la instrucción. Mi sorpresa fue que decidió ponerle una cresta al anciano afinador, aunque es cierto que no di detalles concretos al respecto. Me pregunto de qué vídeo de su entrenamiento habrá sacado esta referencia.

Pronto me di cuenta de que me había pasado pidiendo cosas: por ahora, solo puede devolver vídeos de ocho segundos en calidad 720p, por lo que todo lo que venía después del ajuste de la cuerda no existió.

Intenté darle continuidad pidiéndole que generara esa segunda parte por separado, pero fallé en todos mis intentos.

Algo similar me ocurrió con el siguiente prompt:

“La cámara se desliza en un travelling lateral a través del interior de una tienda de campaña en el desierto, capturando a una joven astrónoma dormida con un cuaderno de notas abierto sobre el pecho. El cielo nocturno visible por la entrada abierta brilla con millones de estrellas, reflejadas tenuemente en los lentes de su telescopio junto a ella. Un plano detalle se centra en una página del cuaderno donde hay garabatos de constelaciones y anotaciones escritas con urgencia. La escena es grabada con una lente anamórfica de 50 mm, usando ISO alta para capturar la tenue luz estelar real, sin luz artificial.”

Pueden juzgar el resultado, pero se ajusta bastante bien a lo que pedí al principio, aunque con margen de mejora. Es cierto que me encontré que había decidido meter texto sin venir a cuento y metió un extraño parón cuando se ve a la joven en la tienda de campaña. Y , por supuesto, queda claro que los ocho segundos dan para peticiones muy cortas y escuetas.

Cuando Veo-2 salió, algunos de sus vídeos sorprendieron por respetar bastante bien las leyes de la física. Para ponerlo a prueba, elaboré —tirando de Gemini y de ChatGPT— una petición concreta:

“Plano en cámara superlenta (240 fps o más) grabado con lente macro de 100 mm y profundidad de campo mínima. El fondo es completamente negro, sin distracciones. Un vaso de cristal fino, completamente transparente, cae en cámara lenta desde el borde de una mesa de mármol blanco. A medida que cae, la cámara lo sigue con un travelling descendente, perfectamente sincronizado con el movimiento del vaso. Justo antes del impacto, se realiza un corte a un plano lateral ultra cercano, donde el cristal toca el suelo. La fractura comienza en el borde inferior y se expande como una telaraña de luz, con fragmentos volando en múltiples direcciones. El contenido del vaso —un café solo— se derrama en todas direcciones. El chorro central salpica hacia arriba, mientras parte del líquido resbala entre los fragmentos del vaso roto, generando reflejos complejos, gotas en suspensión y microondas sobre el charco. Plano detalle de una gota suspendida en el aire, deformada por la velocidad y la gravedad, antes de caer. La secuencia se ralentiza aún más para captar cómo cada partícula se comporta de forma diferente: algunas gotas se adhieren al mármol, otras rebotan ligeramente o se deslizan. La luz blanca lateral destaca la transparencia del cristal y el líquido.”

En esta ocasión, el resultado fue agridulce. No reprodujo bien la rotura del vaso —al que le salió un asa al golpear el mármol—, pero hay detalles de cómo se derrama el líquido que son bastante dignos de mención. Probé entonces a pedirle algo mucho más sencillo:

“Un café derramándose por una mesa de madera".

El resultado fue bastante más óptimo, pese a ser una orden mucho más escueta.

Con estos ejemplos podemos hacernos una idea de las posibilidades que ofrece Veo-2. No les voy a mentir: tengo la extraña sensación de que todos los archivos generados tienen un aire y una estética que recuerdan a esas fotos y vídeos de banco de imágenes a los que uno recurría cuando no quedaba más opción.

Foto: Foto: M. McLoughlin.

Y aunque he estado utilizándolo obsesivamente en los últimos días, no dejo de preguntarme con qué fin. En el caso de herramientas como ChatGPT, Gemini, Perplexity o Grok, he acabado encontrando aplicaciones que me ayudan en el día a día, como el resumen de documentos, la traducción o la búsqueda de contenido en internet.

Pero eso no me pasa con la generación de vídeos e imágenes. No le encuentro, por ahora, grandes aplicaciones profesionales o personales, dadas las limitaciones actuales. Es probable que, por el momento, herramientas tan capaces como Veo-2 solo sirvan para llenar internet de vídeos cortos, como pasó con las imágenes estilo Ghibli o los muñecos de acción.

Cada vez que OpenAI libera una nueva versión de los modelos que dan vida a ChatGPT, en la mayoría de los casos, responde a las expectativas del común de los mortales. Pero hubo una ocasión en la que ocurrió justo lo contrario. Se trata de Sora, su inteligencia artificial para generar vídeos a partir de unas pocas palabras. Presentada en la primera mitad de 2024, las pocas muestras que pusieron sobre la mesa bastaron para generar una tremenda expectación.

Google
El redactor recomienda