"Tenemos una sociedad de adictos"

El escándalo que viene con la IA y sobre el que ChatGPT no te va a responder

Las agencias de privacidad de media Europa están investigando a OpenAI, quien debe probar que no usa sin permiso datos personales ni contenido sujeto a 'copyright'. ¿Estamos ante el mayor robo de información digital de la historia?

Foto: Pantallazo de un programa de Adobe que ahora incorpora IA generativa para retocar imágenes. (Reuters) — Pantallazo de un programa de Adobe que ahora incorpora IA generativa para retocar imágenes. (Reuters)

Loading

Por

04/05/2023 - 05:00 Actualizado: 04/05/2023 - 12:30

"No podemos dejar que Silicon Valley decida por nosotros. Tenemos que regular la inteligencia artificial". Esta frase podría haberse pronunciado hace solo unos días, con los reguladores de media Europa pisándole los talones a OpenAI, pero en realidad es de hace justo cinco años. La pronunció un diputado británico en el Parlamento en Londres al hilo del escándalo de Cambridge Analytica, que usó sin permiso los datos de millones de usuarios de Facebook para perfilar votantes en EEUU. La empresa usó herramientas de IA y fue el primer gran aviso de los riesgos de esta tecnología. Cinco años después, no solo no se ha hecho nada al respecto, sino que juristas e investigadores avisan de que lo que se avecina ahora es muchísimo más grave.

"Lo que estamos viviendo es muy diferente de lo que ocurrió con Cambridge Analytica, la escala y la importancia de la extracción de datos ahora es infinitamente mayor", explica a este diario Paloma Llaneza, abogada especializada en privacidad y derecho digital. "Siempre pongo este ejemplo. Si a un niño de tres años le enseñas primero tres fotos de un caballo y luego tres fotos de una cebra, ya está, no necesitas más, ha aprendido a distinguir ambos animales. Para que una IA los distinga, tendrás que enseñarle miles y miles y miles de imágenes. La cantidad de datos necesaria para entrenarlas es ingente". Es con esa información con la que OpenAI, Google, Microsoft y otras tecnológicas han podido cometer lo que algunos llaman "el mayor robo de datos digitales de la historia", un asunto que las agencias de privacidad de Italia, Alemania, España, Irlanda, Canadá y Reino Unido, además de la Unión Europea, ya están investigando y que podría suponerles prohibiciones y multas millonarias.

TE PUEDE INTERESAR

La Seguridad Social usa una IA secreta para rastrear bajas laborales y cazar fraudes

Pablo Jiménez Arandia Manuel Ángel Méndez Infografía: Rocío Márquez

OpenAI, la creadora de ChatGPT, está en el punto de mira tras abrir a todo el mundo su chat el pasado noviembre. Italia levantó este lunes la prohibición de usarlo en ese país justo después de que la compañía accediera a implementar varios cambios, como incluir una opción para pedir que no procese tus datos, dar más información sobre cómo los procesa o añadir una página para indicar tu edad y evitar así que se use por menores de 13 años. Es una pequeña victoria para las agencias de privacidad, pero el elefante sigue en la habitación y ahora Reino Unido ha cogido el testigo, lanzando una investigación por parte de su regulador de la competencia. En EEUU, la vicepresidenta Kamala Harris se reunirá este jueves con varios directivos de empresas de IA, entre ellos Microsoft, Google o OpenAI, para discutir las medidas de seguridad de sus productos.

Otra investigación reciente del Washington Post confirmaba lo que se venía especulando desde hace meses: los grandes modelos de lenguaje (LLM, en sus siglas en inglés), que son la base de ChatGPT, Bard (la IA de Google) o LLaMA (Facebook), recolectan millones de datos disponibles en internet de miles de fuentes. Rastrean desde webs como la Wikipedia, a otras de pago como Scribd, webs de registro de votantes o páginas y foros en los que los usuarios aportan gran cantidad de contenido (desde ideas de negocio a imágenes propias). El problema: ni ChatGPT, ni Google, ni Facebook han pedido permiso a esas webs o a los usuarios para llevarse ese contenido y entrenar sus inteligencias artificiales, lo que supone una violación directa de, entre otras normativas, el reglamento europeo de protección de datos (RGPD).

placeholder — Sam Altman, fundador y CEO de OpenAI. (Reuters)

Sam Altman, fundador y CEO de OpenAI. (Reuters)

"Estamos hablando de tecnologías que han absorbido todos los textos, fotos y vídeos publicados en formato digital de los que hay conocimiento, y los creadores de estos sistemas no han desvelado cómo lo han hecho, qué datos han tomado y cuáles han dejado fuera. OpenAI ahora dice, "te has creado una cuenta con nosotros y has aceptado nuestros términos de uso, donde nos cedes tus datos". Vale, pero esos no son los que han usado para entrenar ChatGPT. Ahí es donde está el problema", explica a este diario Nuria Oliver, doctora en IA por el MIT y una de las mayores especialistas en España en este terreno.

La ausencia total de transparencia es el primer frente que tanto el jefe de protección de datos de la Comisión Europea, Wojciech Wiewiórowsk, como las agencias de privacidad de cada país, están recriminando a OpenAI. ¿Qué datos ha recopilado exactamente? ¿Cómo se ha asegurado de que no hay información personal o protegida por copyright? Y, si la hay, ¿cómo la han eliminado? ¿Puede OpenAI demostrar que ha pedido permiso a los usuarios para recolectar su información personal, o a los dueños de contenido para hacerse con material potencialmente sujeto a copyright? ¿Qué mecanismo tienen para eliminar datos personales de un usuario si este así se lo exige, como permite el RGPD?

La respuesta a estas preguntas no la tiene ni ChatGPT. Preguntado al respecto, el sistema regurgita el comunicado oficial de la compañía en el que asegura que "minimiza" la información personal que recoge, admitiendo indirectamente que sí la recopila. "Si tienes alguna preocupación específica acerca de cómo OpenAI maneja tus datos personales, te recomiendo que te comuniques directamente con la compañía", zanja.

La realidad es que OpenAI y el resto de tecnológicas de IA no tienen ni idea de si hay datos personales o no en sus sistemas y, lo que es peor, tampoco podrían eliminarlos. El tamaño y mezcla de fuentes es tan desproporcionado, que es lo más parecido a buscar una aguja en un pajar. "Probablemente, OpenAI no es siquiera consciente de los datos que recopila. Si ha recogido emails sin permiso, desde luego ha incumplido el RGPD, pero le da igual. Ellos ya han entrenado su sistema. Esto es como si le das un hueso a un perro, se lo come y luego le pides que te lo devuelva. Es imposible, y además él ya se ha beneficiado de comerlo", explica Llaneza.

Hay otras grandes incógnitas igual de preocupantes. ¿Usa ChatGPT nuestras preguntas para entrenar el sistema? ¿Qué hace con esa información? ¿Cuánto tiempo se almacena en sus sistemas? "La gente tienda a compartir información muy sensible en esas conversaciones, habla de su salud, de sus finanzas y de otra información privada", explicaba recientemente la investigadora de IA Margaret Mitchell al MIT Technology Review. Mitchel, igual que Timnit Gebru, fue despedida de Google a finales de 2020 por avisar de los peligros de la IA. "Estas compañías están tratando de conseguir todo el dinero posible robando nuestra información, no contándonos qué hay detrás de sus sistemas —ni siquiera nos enseñan los datos que han usado ni si han pedido permiso para obtenerlos— y explotando a trabajadores. Decir: '¡Confía en mí, bro!' no es una política", explicaba Gebru en conversación con este diario.

"Esto no va de luditas y no luditas, eso es una estupidez. Es momento de meter en vereda a Silicon Valley"

Los especialistas en IA apuntan a varias posibles soluciones para arreglar el entuerto. Una sería más rápida y de carácter técnico: reentrenar los modelos, documentando desde el principio qué datos se usan y cuáles no, y desarrollándolos desde el primer momento, respetando las reglas de privacidad y copyright vigentes en cada país. "Es totalmente posible, de hecho GPT-4 es otra red totalmente nueva, entrenada desde cero, el problema es que siguen sin desvelar cómo lo hacen", señala Nuria Oliver, quien además apunta otro inconveniente de esta vía. "La efectividad de estos grandes modelos de lenguaje depende de la cantidad de datos con los que se entrenan. A más datos, más fiables. Si de repente estas compañías pueden usar menos datos, porque tienen que dejar fuera miles de fuentes y de contenido sujeto a copyright, probablemente no funcionarían tan bien".

La otra solución llevaría mucho más tiempo y sería legal: obligarles a cumplir no solo las leyes de privacidad y copyright europeas, también aplicarles medidas por el lado de la competencia. "Si obligas a estas empresas a dividirse cuando alcanzan un determinado tamaño, a auditarlas cada cierto tiempo, a no poder comprar rivales para cargarse a la competencia, como hizo Facebook, estás limitando su alcance, mucho más que si vas por la vía de la privacidad", señala Llaneza.

Está por ver qué ocurrirá en Europa con las investigaciones abiertas por las diferentes agencias de protección de datos. Algunos juristas, como Lilian Edwards, profesora de derecho tecnológico en la Universidad de Newcastle (Reino Unido), creen que las ilegalidades que están cometiendo OpenAI, Google o Microsoft son tan grandes que el asunto acabará en el Tribunal de Justicia de la Unión Europea. "Que, de pronto, se ponga pie en pared y nos tomemos esto en serio, me parece lo mínimo, está muy bien. Pero creo que llegamos tarde. Ya tenemos una sociedad adicta a todos estos servicios digitales que tienen una transversalidad brutal. Y cuando tienes una sociedad adicta, ya puedes regular lo que te dé la gana, que la gente se va a descargar lo que les pongas sin rechistar", dice Llaneza.

Nuria Oliver alerta además de los peligros del "falso determinismo tecnológico que nos están vendiendo. Yo soy la primera defensora de la IA, pero hay que invertir en tecnología que nos va a ayudar a solucionar los grandes problemas de la sociedad, y no la que vaya a ayudar a engrosar las arcas de un oligopolio", señala. "Esto no va de luditas y no luditas, eso es una estupidez", dice Llaneza. "Tenemos que dejar de abrazar esa idea de Silicon Valley de que la nueva religión es la tecnología. A Silicon Valley se le ha dejado hacer lo que ha querido porque ha habido un interés político por parte de EEUU de liderar en tecnología. Pero ya está bien. Es momento de meterlos en vereda".

Inteligencia Artificial

El redactor recomienda

Te vas a quedar en paro: cómo OpenAI juega con el miedo para seguir dominando la IA Michael Mcloughlin
Científicos detectan ya destellos de humanidad en la inteligencia artificial Omar Kardoudi
"La inteligencia artificial es el mayor cambio en 1.000 años, es un error frenarla" Manuel Ángel Méndez