DALL-E 2 ya es público

La inteligencia artificial que fabrica imágenes con tus pensamientos ya está disponible

Han abierto DALL-E 2 al público, la tecnología que transforma tus pensamientos en imágenes. En pocos años, no podremos distinguir la realidad de la fantasía

Foto: Ilustración generada por DALL-E 2 con el texto "jugador de fútbol bate a portero selección española, luz dramática, estilo cinemático". (DALL-E/Jesus Díaz) — Ilustración generada por DALL-E 2 con el texto "jugador de fútbol bate a portero selección española, luz dramática, estilo cinemático". (DALL-E/Jesus Díaz)

Por

29/09/2022 - 15:56

Después de estar reservada a unos cuantos privilegiados, la tecnología DALL-E 2 ya es de acceso público. Es una inteligencia artificial absolutamente pasmosa, que permite que cualquier persona pueda convertir cualquier pensamiento en una realidad visual. Sólo hace falta que te des de alta y escribas tu primer ‘prompt’ en un campo similar al de la búsqueda de Google. El resultado serán cuatro imágenes diferentes moldeadas según tu imaginación.

Foto: La central de fusión nuclear estará situada en Nottinghamshire, en el Reino Unido. (UKAEA)

TE PUEDE INTERESAR

La primera central de fusión comercial puede llegar a Europa en 2040

Omar Kardoudi

El prompt es un texto que describe qué quieres que DALL-E 2 genere para ti, en el estilo que tú quieras, desde el fotorealismo cinematográfico de una película rodada en Panavisión en los años 70 a a la precisión tridimensional de una película de Pixar o los trazos del periodo cubista de Picasso. La imagen sobre estas líneas, por ejemplo, la he generado yo mismo con esta herramienta en cinco segundos, usando el texto “jugador de fútbol mete un gol, selección española, estilo fotorealista cinemático, noche, iluminación dramática”.

Una tecnología excitante y aterradora

A pesar de todas las cosas terribles que se pueden hacer con la inteligencia artificial, DALL-E 2 y otras tecnologías que convierten pensamientos en imagenes me producen un asombro innegable que no he sentido desde que empecé a usar ordenadores en los años 80, cuando escribí mi primer programa en BASIC. Crear cosas a partir de palabras hechas de electrones me parecía mágico. Hoy, utilizar una aplicación de IA de síntesis de texto a imagen como DALL-E me produce el mismo regocijo. Me hace sentir como un niño que juega a ser hechicero una vez más.

placeholder — “Théâtre D’opéra Spatial,” una obra creada con MidJourney usando un texto de Jason Allen, ganó el primer premio de pintura digital de la feria estatal de Colorado. (Jason Allen)

“Théâtre D’opéra Spatial,” una obra creada con MidJourney usando un texto de Jason Allen, ganó el primer premio de pintura digital de la feria estatal de Colorado. (Jason Allen)

Soy consciente del peligro que la IA representa y de los abismos que nos acechan. Mil millones de personas verán cómo la inteligencia artificial acabará con sus trabajos en la próxima década mientras otra inteligencia artificial vigila la vida de otros miles de millones (ya está pasando en China y, sí, Estados Unidos y Europa, a pesar de las leyes). Las pesadillas de perros asesinos robóticos pueblan las pantallas de las televisiones mientras estados sin escrúpulos ahogan los sueños de leyes que detengan a los robots asesinos de verdad antes de que se hagan realidad. Y, por supuesto, ahora hay artistas que protestan contra el vampiro de la IA, que chupa sus fantasías y acabará con su trabajo.

Pero, aún sabiendo eso, no puedo resistir la llamada de este monolito negro y brillante, esta sirena luminosa que canta las canciones más salvajes en medio de un océano infinito de obras derivadas que es el mundo visual actual. Sin los límites de la lógica humana, imagen tras imagen, en estas imágenes reinan las conexiones más salvajes y surrealistas. Y sin embargo, todo parece coherente al mismo tiempo. Mis sueños de la infancia hechos de BASIC han vuelto, sólo que esta vez sólo tengo que escribir en un idioma normal para verlos hechos realidad. Sin duda, esta tecnología de IA es una auténtica revolución a punto de explotar.

Retratos generados con Stable Diffusion.

Un nuevo renacimiento con un fin impredecible

Hasta ahora, si querías participar en los inicios de esta revolución, sólo tenías dos opciones: pagar por utilizar un servicio como MidJourney — similar a DALL-E — o instalar Stable Diffusion en tu ordenador, una herramienta de código abierto de uso gratuito. Esto último es demasiado complicado e imposible para el común de los mortales, ya que requiere usar comandos complicados en una terminal. Lo primero tampoco es tan sencillo, porque requiere meterse en un servicio de chat llamado Discord y aprender su funcionamiento. Pero usar DALL-E, aunque también requiere pagar créditos después de la prueba inicial, es tan sencillo como utilizar Google.

Es un desarrollo que provocará una explosión de nuevas imágenes y creatividad con consecuencias que aún no podemos prever. Y todavía no hemos comenzado con la misma tecnología aplicada al vídeo, que ya se puede realizar combinando otros programas — como se puede ver bajo estas líneas — y que pronto podremos usar para generar todos nuestros sueños en movimiento.

Muchos ilustradores han arremetido ya contra estas herramientas, la mayoría de las veces por miedo a perder su trabajo Pero hay otro lado de este debate, un sentimiento creciente de que este tipo de software será una herramienta más en el arsenal de los creativos de todo el mundo.

Hace un par de semanas, el videoartista y director Paul Trillo me comentaba por videoconferencia que creía que esta herramienta "no va a quitar ningún trabajo a los artistas de efectos visuales". En todo caso, anticipa, "va a crear eficiencias en el trabajo que ya están haciendo. Abrirá la puerta a nuevos tipos de técnicas y permitirá que los proyectos de menor presupuesto tengan efectos visuales fotorrealistas".

¿Imagen del James Webb o ilustración de una nébula generada con Stable Diffusion? (Manuel 'Manu.Vision' Sainsily)

La misma sensación tuvo el director de arte y artista de AR/XR/3D Josephine Miller, que me contó por videoconferencia que la tecnología le permitía hacer más cosas. "A veces introduzco mis diseños en DALL-E, que produce variaciones de los mismos", describe, "y entonces descubro algo inesperado en lo que no había pensado y que me lleva a una nueva dirección creativa". Miller también dice que lo ha utilizado para presentar variaciones de su trabajo a los clientes. "Les digo ‘este es mi diseño, pero estos otros fueron creados por la IA’ para que los vean", asegura, "y a veces encuentran algo que les gusta en una variación que se incorpora al diseño final".

Manuel "Manu.Vision" Sainsily"—artista pluridisciplinar y responsable de diseño de XR en Unity—también me dice que estas herramientas son extremadamente potentes para los creativos. También son inevitables, me comenta, y abren un camino para que personas imaginativas sin habilidades de ejecución visual puedan crear algo visual. "Puede dar poder a la gente que no tiene poder", afirma. Miller está de acuerdo, y señala un caso muy particular en el que niños discapacitados fueron, de repente, sólo con sus palabras, capaces de crear imágenes con DALL-E mientras que antes no eran capaces de hacerlo. "Fue algo mágico", comenta con los ojos iluminados.

Sainsily cree que esta tecnología dará lugar a un renacimiento, muy parecido al que hemos experimentado antes con otras revoluciones técnicas en el pasado, como la edición de vídeo digital, la autoedición o la fotografía. Llevamos siglos remezclando. Esta tecnología de IA sólo hace que este proceso sea más rápido. Y sí, eso traerá muchos cambios a la industria, pero, como con otras revoluciones, abrirá oportunidades increíbles.

Un Big Bang visual

El hecho es que DALL-E, Stable Diffusion y MidJourney son un Big Bang creativo inevitable. No hay forma de evitarlo ni de regularlo porque todas las regulaciones serán superadas por el ritmo de la tecnología.

Algunas compañías están intentando detener el tsunami. Getty Images y Shutterstock—dos de las empresas de fotografía de stock más importantes del planeta—han prohibido en su plataforma las fotos generadas por IA de texto a imagen, esgrimiendo el temor a que se infrinjan los derechos de autor y a posibles demandas judiciales. Se trata de una decisión tan inevitable como la futura desaparición de estas empresas, que están abocadas a entrar en bancarrota a medida que DALL-E y el resto de aplicaciones lleguen al fotorealismo absoluto.

Paisaje distópico generado por Stable Diffusion.

La medida es difícil de entender por la propia naturaleza de esta nueva tecnología y la forma en que realmente crea imágenes. Al contrario de lo que la mayoría de la gente piensa, estas herramientas no cortan trozos del trabajo realizado por otros para mezclarlos en un único y sofisticado collage, como ya hacen a diario muchos profesionales humanos en las industrias del cine, el vídeo, el diseño y la ilustración, utilizando Photoshop y otras herramientas.

En términos básicos, lo que hace la IA es crear ruido. “Ruido gaussiano”, como me explica por videoconferencia Tim Hawkey, director creativo de la agencia publicitaria Area 23, con sede en Nueva York, que se ha convertido en un experto en la generación de texto a imagen desde la creación de esta tecnología. "El algoritmo afina iterativamente el ruido hasta que se ajusta a una descripción", lo que se conoce como el "prompt" que describí al principio de este artículo. La IA evalúa ese ruido, comparándolo con un modelo que ha sido entrenado con billones de imágenes. El resultado es siempre algo nuevo, distinto de cualquier otra obra de arte real que exista, aunque parezca que podría haber sido hecha por cualquiera cuyo trabajo se haya utilizado para enseñar a la IA.

La ironía llega cuando lees el comunicado de Getty que anuncia la prohibición. La empresa afirma que su decisión “no impide el envío de renders en 3D y no afectan al uso de herramientas de edición digital (por ejemplo, Photoshop, Illustrator, etc.) con respecto a la modificación y creación de imágenes".

Es una contradicción flagrante: se puede seguir enviando material "nuevo" que transforme y remezcle el trabajo de otros profesionales, como hacen muchos artistas hoy en día. Pero una IA que produce material nuevo—nuevo de verdad—a partir de ruido gaussiano moldeado por un algoritmo no lo es. Getty dice que también puedes enviar “obra original” en el estilo de cualquier otro artista que quieras. Si eres un humano, eso está completamente bien para Getty. Pero si lo hace la IA, no lo permiten.

Esperando el gran caso de 'copyright'

Sin entrar en más complejidades (¿qué pasa si hago unas cuantas imágenes de la IA utilizando Stable Diffusion para montar una imagen completamente nueva? ¿O si uso la imagen de la IA para pintar sobre ella? ¿Es eso admisible?), hay que preguntarse cuál es la verdadera razón de esta prohibición. Todo parece indicar que no tiene que ver con lo que produce la IA. O con el respeto a los artistas humanos. En su lugar, presumo que no hay nada más que un miedo primario a la pérdida económica de una posible demanda multimillonaria—en primer lugar—y quizás el miedo a la reacción de la turba de Twitter en un segundo plano.

El miedo real, sin embargo, es enfrentarse a esa gran demanda que llegará en Estados Unidos tarde o temprano. "Habrá una decisión histórica que definirá cómo avanzamos [en términos de derecho de autor]", me dice Hawkey. Una que probablemente llegará al Tribunal Supremo de EEUU. Ninguna de estas empresas quiere enfrentarse a ella.

La AI puede generar cualquier imagen en cualquier estilo imaginable.

Según el comunicado de Getty, "hay cuestiones abiertas con respecto a los derechos de autor de los resultados de estos modelos y hay cuestiones de derechos no abordadas con respecto a las imágenes subyacentes y los metadatos utilizados para entrenar estos modelos". Ese temor fue subrayado posteriormente por el director general de Getty Images, Craig Peters: "Hay verdaderas preocupaciones con respecto a los derechos de autor de los resultados de estos modelos y cuestiones de derechos no abordadas con respecto a las imágenes, los metadatos de las imágenes y los individuos contenidos en las imágenes". ShutterStock ha seguido los pasos de Getty y ha eliminado miles de imágenes generadas por la IA, como descubrió el blog de fotografía Petapixel a principios de este mes.

Y no se trata sólo de las pequeñas empresas. Hawkey me dice que también está consultando con los abogados de su empresa para tratar de ver cómo pueden gestionar lo que se avecina. Si utilizan la IA para desarrollar o ayudar a crear campañas publicitarias, ¿cómo afectará esto a la vulnerabilidad legal de sus clientes y a la suya propia? Son preguntas reales que surgen del mismo temor que parece haber impulsado la repentina decisión de Getty y Shutterstock.

Osos de peluche realizando un experimento químico.

La muerte de los derechos de autor

Matt Reed, creativo de la agencia Redpepperland, que ha utilizado ampliamente el generador de texto basado en IA GPT3 y programas de conversión de texto en imagen para desarrollar versiones alternativas de las campañas que su equipo presenta a los clientes, dice que están tocando de oído. "Si se distingue lo suficiente de algo que conocemos, creemos que podemos llevar algo así a la producción", me dice por videoconferencia. "Pero entonces eso plantea la cuestión... digamos que [GPT3] recrea [un eslogan] que tiene derechos de autor pero que ninguno de los humanos de la agencia había visto antes. Tal vez esté en la otra punta del mundo. Se ha hecho. No vamos a saber que se ha hecho". Esto es un peligro legal real. Dado que la IA puede producir infinitos resultados, puede ocurrir una coincidencia. "Quizá eso signifique que tendremos que ser más diligentes y buscar posibles coincidencias", afirma Reed.

Reed también señala otro posible desarrollo con consecuencias aún más importantes: ¿qué pasa cuando alguien ponga a un gran ordenador a producir miles de millones de obras nuevas y las registre todas con sus derechos de autor? Es una pregunta fascinante. ¿Podría esta persona demandar a cualquiera que, en el futuro, cree algo similar a estas obras generadas por la IA? ¿Y si hace lo contrario y publica todas esas obras con una licencia de dominio público? ¿Podría acabar con los derechos de autor porque impediría que cualquier pueda crear nada similar? En EEUU, de hecho, la oficina de registro de patentes y marcas (USPTO) ya permite el registro de obras generadas por inteligencia artificial siempre y cuando el registrador sea un humano.

Esa cadena lógica de pensamiento se convierte rápidamente en una locura, pero es inevitable. Tratar a la IA de forma diferente a como tratamos a otros profesionales—formados e influenciados por cientos de artistas y obras de arte—sólo porque es una máquina y puede trabajar más rápido, tiene poco sentido nos guste o no.

Pero la lógica no importa en este momento. Lo que importa es que no hay leyes. No hay precedentes judiciales. Y lo que es peor, no hay una comprensión clara de estos asuntos por parte de los abogados, los jueces o los responsables políticos, que todavía no han elaborado ninguna legislación sobre las tecnologías relacionadas con la IA que se produjeron hace años. Por eso, las duras decisiones de Getty y ShutterStock están justificadas, aunque no tengan mucho sentido desde otra perspectiva que no sea la legal y económica.

En realidad nada de esto importará en unos años. Es difícil no imaginar que estos servicios de fotografía e ilustraciones de stock estarán muertos en menos de una década. Si es que no mueren antes. Y parece también inevitable que los derechos de autor, tal y como los conocemos, también se terminen extinguiendo.

Inteligencia Artificial Tecnología

El redactor recomienda

Una inteligencia artificial crea las armas biológicas más letales del mundo Jesús Díaz
Nuevo avance hacia la inteligencia artificial superior a la humana Omar Kardoudi
La aplicación que 'traduce' palabras a imágenes indistinguibles de la realidad Omar Kardoudi