Es noticia
La IA se está envenenando a sí misma y las tecnológicas no quieren hablar de ello
  1. Tecnología
SE HAN CONVERTIDO EN CANÍBALES

La IA se está envenenando a sí misma y las tecnológicas no quieren hablar de ello

Los datos disponibles en internet para entrenar a los modelos de IA se están terminando, la carne "fresca" ya está toda vendida. Y solo queda alimentarse de otras cosas (o de ellas mismas)

Foto: Imagen: CSA/iStock/EC Diseño
Imagen: CSA/iStock/EC Diseño
EC EXCLUSIVO Artículo solo para suscriptores

Cuando Adobe lanzó su inteligencia artificial generativa de imágenes Firefly el año pasado, la compañía anunció que había sido entrenada con cientos de millones de imágenes licenciadas. Sin embargo, hace una semana sorprendieron a sus clientes reconociendo que una cantidad relativamente alta de ellas eran imágenes que habían sido creadas por otras IA como Midjourney. El sistema había estado actuando como un caníbal, comiéndose contenido "artificial". Si la empresa lo hizo premeditadamente o fue una pifia es un misterio.

Esta noticia ilustra de manera muy clara que, por un lado, las tecnológicas necesitan ingentes cantidades de datos para entrenar a sus modelos de IA. Y, por otro lado, que los datos disponibles en internet se están terminando, la carne "fresca" ya está toda vendida. Y solo queda alimentarse de otras cosas. Lo dice un informe del instituto de investigación Epoch, que indica que en 2026 ya se habrán agotado todos los datos de alta calidad en la red. La pregunta ahora es qué pasará cuando suceda. Y, sobre todo, si los sistemas de IA corren el riesgo de envenenarse.

Según el equipo responsable de Google Books, se estima que desde la invención de la imprenta los humanos hemos publicado más de 125 millones de libros, recopilando leyes, tratados, poemas, ensayos y novelas. De esos, entre 10 y 30 millones de títulos ya han sido digitalizados, lo que brinda a las IA un jugoso banquete de cientos de miles de millones de palabras, si no más de un billón. El problema es que esos datos ya han sido devorados ferozmente por las tecnológicas.

Cuando OpenAI presentó GPT-3 en noviembre de 2020, se entrenó con la mayor cantidad de datos hasta la fecha: alrededor de 300.000 millones de tokens (palabras o fragmentos de palabras). En 2022, DeepMind de Google fue más allá y usó 1,4 billones para ser pronto superado por la china Skywork, que se preparó con 3,2 billones de tokens de textos en inglés y chino. Ahora ChatGPT-4 de OpenAI podría haber sido entrenado con nada menos que 10 billones de palabras.

Foto: Un móvil muestra la aplicación del foro Reddit. (Flickr)

Durante años, Wikipedia y Reddit sirvieron como una fuente que parecía interminable, pero cuando algunos gigantes arramplaron con ella no les quedo otra que empezar a buscar en otros lados. Hace unos meses, Sam Altman, director ejecutivo de OpenAI, ya reconocía que empresas de IA como la suya consumirían todos los datos "muy pronto". Así que para liderar la carrera contra sus rivales, había que intentar acaparar cuantos más datos pudieran y lo más rápido posible: libros, vídeos, canciones, noticias e incluso datos que los estados almacenan de sus ciudadanos.

Algunas como OpenAI, Google y Meta lo han hecho tomando atajos, ignorado las políticas de copyright y los derechos de autor, por lo que se han enfrentado a decenas de demandas. The New York Times, sin ir más lejos, demandó a OpenAI y Microsoft el año pasado por utilizar sus noticias sin permiso para entrenar chatbots. Getty Images hizo lo mismo contra Stable Diffusion, por infringir de manera similar su copyright.

Los directivos, abogados e ingenieros de Meta se replantearon el año pasado comprar la editorial de libros Simon & Schuster para conseguir obras escritas, incluso se pensaron pagar 10 dólares por libro para obtener los derechos de los nuevos títulos, aunque su decisión final fue que negociar licencias con editores, artistas, músicos y medios iba a llevar demasiado tiempo y dolores de cabeza.

placeholder Derya Matras, vicepresidenta de Meta en un evento sobre inteligencia artificial.
Derya Matras, vicepresidenta de Meta en un evento sobre inteligencia artificial.

En varias grabaciones de audio filtradas a la prensa estadounidense, Ahmad Al-Dahle, vicepresidente de IA de Meta, les dice a sus colegas que "Meta no podría igualar ChatGPT si no conseguían más datos que ellos" y reconocía que ya habían utilizado casi todos los libros, ensayos, poemas y artículos de noticias disponibles en inglés en Internet para desarrollar su propio modelo de IA. En dicha conversación se mencionaba la posibilidad de comprar startups que hubieran recopilado grandes cantidades de datos digitales e incluso contratar a trabajadores en África para resumir libros y contenido de ficción y no ficción para esquivar el copyright.

La ruta que siguió OpenAI fue directamente crear una herramienta de reconocimiento de voz llamada Whisper. Una que pudiera transcribir el audio de vídeos de YouTube, generando texto conversacional. A los meses habían trascrito más de un millón de horas de vídeos, que se incluyeron a su modelo GPT-4. Igual que ellos, Google también recopiló texto de la plataforma de vídeos y el año pasado actualizó sus condiciones para acceder a Google Docs, reseñas de restaurantes en Google Maps y más contenido online disponible públicamente para entrenar a su IA, Gemini.

Para Cristina Aranda, doctora en lingüística y experta en IA, los datos se siguen produciendo a una velocidad enorme: "Estamos continuamente generando datos todos los días: subiendo vídeos, fotos y texto cada minuto. La gente está en continua producción y vivimos en la era de la humanidad en la que más datos se crean. El problema es que las tecnológicas viven con una obsesión casi pornográfica por los datos. Han lanzado demasiado rápido sus modelos de IA y no han prestado demasiada atención a la calidad de esos datos que se están usando para entrenarlos".

Intoxicación por datos sintéticos

Ante esta situación de urgencia y ansia, las tecnológicas han empezado a desarrollar lo que ellos llaman información "sintética", datos artificiales que no han sido creados por humanos, sino el propio texto, imágenes y códigos que los modelos de IA producen. Es decir, hacer que los sistemas aprendan de lo que los mismos generan. Altman y otros han argumentado que si un modelo puede producir texto similar al humano, también puede crear datos extra para mejorarse de sí mismos. OpenAI había pensado un escenario en el que un sistema produce los datos, mientras que un segundo juzga la información para separar lo bueno de lo malo. "Mientras el modelo sea lo suficientemente inteligente como para generar buenos datos sintéticos, todo irá bien", dijo Altman. Esto también ayudaría reducir la dependencia de los datos protegidos por copyright.

Foto: Imágenes de "soldados alemanes" generadas por la inteligencia artificial de Google, Gemini. (Google)

El problema de que estos modelos canibalicen sus datos es que acaben atrapados en un bucle. Cada vez más investigadores apoyan la idea de que una dieta de entrenamiento de texto generado por IA, incluso en pequeñas dosis, puede volverse "venenosa". Y existen pocos antídotos. "Al hacer eso, se corre el riesgo de que se refuercen y perpetúen los errores y sesgos que ya existen en estos modelos. Quienes trabajamos en esto lo llamamos garbage in, garbage out. Si entrenamos a la máquina con una visión desigual del mundo a través de los sesgos, o con alucinaciones, se crea un efecto domino problemático", explica Aranda.

Como indica la experta, la evidencia sugiere que si varios modelos hacen esto, puede darse el caso en el que los que están a la cola empiecen a generar contenido totalmente impreciso. A cada iteración, los resultados irían acumulando todos los errores anteriores.

Aunque recurriéramos al internet que había hace décadas antes de que la IA se popularizara a través de servicios como Internet Archive, los datos que conseguiríamos no podrían satisfacer las grandes demandas de estos modelos. Y, claro, serían datos anclados al pasado.

placeholder Sam Altman, director ejecutivo de OpenAI, en el Foro Económico Mundial, en Davos (Reuters)
Sam Altman, director ejecutivo de OpenAI, en el Foro Económico Mundial, en Davos (Reuters)

Eso mismo nos lleva a otra cuestión: el hecho de que las IA puedan leer todos los libros del mundo no significa que puedan ponerse al día con todo el contenido que los humanos producimos a diario. Cada año, miles de millones de personas escriben frases que se almacenan en bases de datos de las grandes plataformas. Aunque todos esos datos no son tan sólidos para entrenar como lo son las entradas de Wikipedia, tal vez los algoritmos puedan sacarle partido en el futuro a nuestros tuits, pies de foto en Instagram o comentarios en Facebook.

Y si nos ponemos a divagar, hay quien ha hablado de otras soluciones más estrambóticas, como que los humanos podríamos empezar a usar dispositivos alrededor del cuello que registren cada una de nuestras palabras mientras hablamos, que suelen ser alrededor de 10.000, y las conviertan en texto para alimentar a las IA. Los empleados de las empresas también podrían colocar en sus teclados sensores para registrar las pulsaciones de los teclados y transferirlo a bases de datos enormes. Eso aún está lejos y puede sonar demasiado utópico, pero también lo eran las inteligencias artificiales antes y mira dónde estamos ahora.

Cuando Adobe lanzó su inteligencia artificial generativa de imágenes Firefly el año pasado, la compañía anunció que había sido entrenada con cientos de millones de imágenes licenciadas. Sin embargo, hace una semana sorprendieron a sus clientes reconociendo que una cantidad relativamente alta de ellas eran imágenes que habían sido creadas por otras IA como Midjourney. El sistema había estado actuando como un caníbal, comiéndose contenido "artificial". Si la empresa lo hizo premeditadamente o fue una pifia es un misterio.

Inteligencia Artificial Google
El redactor recomienda