La aplicación que 'traduce' palabras a imágenes indistinguibles de la realidad
Una nueva inteligencia artificial es capaz de transformar cualquier cosa que se nos pase por la mente en imágenes fotorealistas con solo describirlas en un texto
Open AI acaba de presentar la nueva versión de su DALL-E, una inteligencia artificial que promete convertir nuestros pensamientos en imágenes con solo escribirlos en un campo de texto. Esta tecnología es una muestra de la asombrosa capacidad que ha alcazado la IA en estos momentos, pero también un recordatorio de que tanto imágenes como vídeos ya han dejado de ser una prueba definitiva de la verdad.
Open AI es una organización sin ánimo de lucro que tiene como objetivo desarrollar la inteligencia artificial en beneficio de la humanidad. La compañía se fundó en San Francisco a finales de 2015 por Elon Musk y Sam Altman, entre otros, y es pionera en el desarrollo de modelos de lenguaje como el GPT que en su tercera versión ya es capaz de crear textos escritos con una calidad muy similar a los que producimos los humanos.
Esos modelos de lenguaje se llaman autorregresivos, lo que quiere decir que aprenden de valores del pasado (por ejemplo, los textos publicados por un autor) para predecir los valores futuros (cómo sería un texto nuevo escrito con el estilo de esa misma persona). Pero este tipo de inteligencia artificial no solo vale para generar textos. Open AI también la ha usado para desarrollar DALL- E, una herramienta que permite traducir palabras en imágenes.
DALL- E es una mezcla del nombre del pintor surrealista catalán Salvador Dalí con el del personaje principal de la película WALL-E, de Disney. La primera versión de esta IA se lanzó en enero de 2021 y, a pesar de que estaba limitada a combinaciones preestablecidas de palabras, consiguió copar los titulares de la prensa internacional por sus asombrosos resultados. Ahora Open AI acaba de presentar DALL-E 2 una versión que según dicen sus creadores es mucho más avanzada y permite convertir pensamientos en imágenes fotorealistas con solo escribir su descripción en un texto.
Cómo funciona DALL-E 2
Open AI todavía no ha compartido esta inteligencia artificial al público y por ahora hay que apuntarse a una lista de espera para que te dejen trastear con él. Pero según la presentación de la compañía a A DALL-E 2 le puedes pedir cosas como que genere imágenes de astronautas a caballo, osos de peluche haciendo experimentos químicos en un laboratorio o un tazón de sopa que en realidad es un portal a otra dimensión.
También se puede elegir el estilo que queremos que tenga, desde una imágen completamente fotorealista a otra dibujada en el estilo de pintores como Vermeer, Warhol o Basquiat, con un resultado más que notable. "Una forma de pensar en esta red neuronal es la belleza trascendental como servicio", dice Ilya Sutskever, cofundador y científico jefe de OpenAI. "De vez en cuando genera algo que me deja boquiabierto".
La programación de DALL-E 2 ya no está basada en el GPT-3 como en su anterior versión, lo que permite que no tenga que estar ceñida a una combinación de conceptos preestablecidos. Ahora este cerebro artificial funciona en dos fases: la primera usa otro modelo de lenguaje de Open AI llamado CLIP, que traduce descripciones de texto en imágenes. Luego se ejecuta un tipo de red neuronal (modelo de difusión) para que la imagen generada sea lo suficientemente parecida a lo que quiere el CLIP.
Ese modelo de difusión se ha entrenado con imágenes distorsionadas donde sus píxeles estaban desordenados de manera aleatoria. Así consigue ser capaz de coger un puñado de esos pixeles y gracias a CLIP convertirlos en una imagen en alta resolución totalmente nueva que coincide con el texto de la descripción.
Adiós al photoshop
Otra de las grandes apuestas de esta nueva versión es su capacidad de modificar imágenes ya existentes también mediante indicaciones de texto. A DALL-E 2 le puedes pedir que le ponga una cresta a la Mona Lisa, que haga un retrato tuyo como si fueras ‘La joven de la perla’ de Vermeer o que te saque besando a tu pareja imitando una pintura de Gustav Klimt.
Pero también puede eliminar, modificar y sustituir elementos de una imágen por otros como hacen los retocadores de fotos con herramientas como Photoshop. Por ejemplo puede quitar a un perro que sale sentado en una silla y cambiarlo por un gato sin que se note y manteniendo el realismo de las sombras, las texturas y los reflejos.
Aunque al principio DALL-E 2 tendrá sus limitaciones —por ahora, según apunta MIT Technology Review, tiene problemas para lidiar con la combinación de dos o más objetos con dos o más atributos, como "Un cubo rojo sobre un cubo azul"—, esta tecnología muestra unos resultados asombrosos que mejoran notablemente la versión que se lanzó hace poco más de un año.
De seguir esta progresión, que en el caso de la inteligencia artificial siempre es exponencial, no tardaremos en ver un DALL-E 3 o un DALL-E 4 que sea capaz de crear imágenes al dictado sin equivocarse. Lo que acabaría mandando al paro a muchos fotógrafos, retocadores y bancos de imagen.
Además, el salto de esta tecnología al vídeo no sería demasiado complicado una vez que el sistema esté bien engrasado. Al final un vídeo es una concatenación de imágenes, 24 por segundo, que tienen una ligera variación entre unos fotogramas y otros, pero que nuestro cerebro interpreta como un contínuo. Si DALL-E puede crear una imagen de cero, podrá crear una serie de imágenes que estén relacionadas unas con otras sin mucho problema.
Adiós a la realidad
Una herramienta como DALL-E nos da la medida del avance de la inteligencia artificial en los últimos años, pero también nos asoma al precipicio de lo que puede llegar a ser. Los investigadores llevan tiempo avisando de esto y como ya vimos aquí, la IA es capaz en estos momentos de producir imágenes indistinguibles de las reales. Si a eso le añadimos que cualquier persona podrá generar una imagen con solo rellenar un campo de texto con la descripción de lo que tiene en la cabeza, estamos ante un panorama en el que ya no nos podremos fiar de las imágenes que vemos. Ni de las fotos ni de los vídeos.
Como ya he comentado, Open AI tiene como propósito fundamental desarrollar una inteligencia artificial general, una inteligencia capaz de rivalizar con la de los humanos, que trabaje para el bien de la humanidad. Y evitar así que acabemos en un escenario distópico como el de Matrix o Terminator. Por eso DALL-E 2, según dicen sus creadores, está concebido con una serie de limitaciones.
“Hemos limitado la capacidad de DALL-E 2 de generar imágenes violentas, de odio o para adultos”, escriben los investigadores de Open AI. “Al eliminar el contenido más explícito de los datos de entrenamiento, minimizamos la exposición de DALL-E 2 a estos conceptos. También hemos utilizado técnicas avanzadas para evitar la generación fotorrealista de rostros de personas reales, incluidos los de personajes públicos”.
La inteligencia artificial, según cuenta Open AI, tiene una serie de filtros que identifican textos e imágenes que puedan infringir sus políticas. Además, dicen contar con sistemas de control automatizados y humanos para evitar su mal uso, así como un panel de expertos externos para que les ayuden a mejorar la seguridad de todo el sistema.
El problema es que Open AI suele compartir el código de sus creaciones. Si esta inteligencia artificial se acaba puclicando como código abierto, como suele ser habitual, las limitaciones que establece compañía serán tan efectivas como ponerle puertas al campo. Nadie podrá impedir que esta tecnología acabe usándose para los fines que Open AI quiere evitar y que proliferen nuevas aplicaciones que muestren imágenes violentas, sexuales o degradantes. Al final, eso también es la naturaleza humana. Danos una herramienta con unas capacidades asombrosas que nosotros la utilizaremos para pintar penes, aunque no sean reales, como si el mundo fuera la puerta de un baño público.
Open AI acaba de presentar la nueva versión de su DALL-E, una inteligencia artificial que promete convertir nuestros pensamientos en imágenes con solo escribirlos en un campo de texto. Esta tecnología es una muestra de la asombrosa capacidad que ha alcazado la IA en estos momentos, pero también un recordatorio de que tanto imágenes como vídeos ya han dejado de ser una prueba definitiva de la verdad.