Es noticia
Investigadores españoles dan con la forma de engañarte con textos escritos por una máquina
  1. Tecnología
CONSIGUEN EL RENDIMIENTO SOBREHUMANO

Investigadores españoles dan con la forma de engañarte con textos escritos por una máquina

Su modelo puede escribir mejor que tú la reseña de una película... y sin ni siquiera haberla visto. "Es el primer experimento sobre escritura creativa en el que una máquina muestra un rendimiento sobrehumano"

Foto: Foto: Getty Images/Patrick Lux.
Foto: Getty Images/Patrick Lux.

Las máquinas ya pueden escribir mejor que tú la sinopsis de una película... y sin ni siquiera haberla visto. Es el hallazgo de tres investigadores españoles que han entrenado la capacidad de redacción de un modelo basado en "redes neuronales para el procesamiento del lenguaje natural" y lo han comparado con los resúmenes de la plataforma IMDB. El resultado ha sido una sorpresa hasta para ellos mismos: su red neuronal artificial, llamada 'transformer', ha tenido un desempeño un 14% superior al de los textos escritos por personas.

"Este es, hasta donde sabemos, el primer experimento sobre escritura creativa en el que los 'transformers' muestran un rendimiento sobrehumano", explican dos de los tres autores de la investigación, Julio Gonzalo y Guillermo Marco. El primero es catedrático de Lenguajes y Sistemas Informáticos de la Universidad Nacional de Educación a Distancia (UNED), mientras que el segundo es alumno de doctorado de la misma universidad y ha encabezado este estudio. La tercera pata es Luz Rello, profesora del Departamento de Sistemas y Tecnologías de la Información en IE University.

Los frutos de este trabajo los han plasmado en un 'preprint' [se puede consultar aquí] adelantado por este periódico. Su idea pasa por enviar el artículo a la revista científica 'Management Information Systemas Quarterly', de alto impacto, donde será revisado por pares.

Foto: Foto: Reuters.

Entre lo más novedoso de la investigación, indican, está usar la misma vara para medir humanos y máquinas, preguntarle "cómo de atractiva le parece cada una, en lugar de decirle cuál era de humano o cuál era de 'bot". "Ha obtenido una puntuación mejor en casi todos los aspectos y con diferencias estadísticamente significativas. Hay muy pocos casos en los que el procesamiento de lenguaje natural sea mejor en un problema concreto".

De hecho, los resultados han ido mucho más allá de lo que esperaban, aunque hay algo que se resiste al sistema: "El único aspecto en el que los 'transformers' igualan, pero no mejoran, el rendimiento humano es la creatividad". En ese parámetro, el sistema solo ha quedado por debajo en un 3%, mientras que ha superado al resto en legibilidad (22%), inteligibilidad (17%), relevancia (23%), informatividad (11%) y atractivo (18%).

El 'making-of' de la investigación

La prueba consistía en proporcionar un título de película a la máquina, que después tenía que inventar una pequeña historia basándose únicamente en ese dato. Se escogieron 60 cintas poco conocidas y se mezclaron las sinopsis reales con las que había inventado el 'transformer'. Había una de cada por cada título. En total, se hicieron 24.480 evaluaciones.

Después, fueron evaluadas por estudiantes de MBA de todo el mundo, que tenían que decir "simplemente cuál les gustaba más". Esto se debe a que el estudio se ha orientado a personas sin especialización, algo que es un matiz muy importante en los resultados. "No es lo mismo que preguntar a un crítico literario. Aquí son consumidores. Melendi seguramente sea más popular ahora mismo que Beethoven, pero en términos de calidad quizá sean necesarios los expertos", sugieren.

Foto: Deepmind trabja con los científicos para controlar el flujo de plasma dentro de un reactor de fusión. (SPC - Deepmind)

Para evaluar posibles sesgos, los examinadores fueron divididos en dos grupos. Unos sabían la autoría del texto —humana o artificial—, mientras que los otros lo desconocían. En el caso de los primeros, las redacciones de la máquina recibieron puntuaciones un 6% más bajas, mientras que los humanos tienen una nota similar a la que han puesto quienes no sabían quién lo había escrito.

Entrenado a base de Wikipedia

El estudio, eso sí, está hecho con textos en inglés, ya que son modelos "con muchos más datos y un tamaño de cerebro computacional más grande, lo que se llama parámetros, por lo que el resultado es más fiel". En su caso, han trabajado con el modelo Bart, desarrollado por Facebook, que previamente lo entrenó leyendo, entre otras cosas, la Wikipedia. "A Bart lo prepararon para generar sinopsis a partir de títulos, así que te lo prestan para que lo pruebes", especifican. ¿Y eso cómo funciona?

"Hay empresas muy grandes, como Amazon, Google o la propia Facebook, que hacen en preentrenamiento de sus modelos con sus servidores. Después, tú tienes que enseñarle la tarea que quiere resolver. Es mucho más barato y asumible para la academia", responden antes de recordar que las grandes tecnológicas gastan varios millones de euros únicamente en ejercitar el modelo porque, en efecto, el 'hardware' va aparte.

placeholder Servidores de Google, una de las compañías que más invierten a nivel mundial en desarrollo de inteligencia artificial.
Servidores de Google, una de las compañías que más invierten a nivel mundial en desarrollo de inteligencia artificial.

Por ejemplo, el entrenamiento de GPT-3 —uno de los modelos más conocidos— consumió algo más de cuatro millones de euros. "Eso está al alcance de muy pocas organizaciones", apuntan los investigadores. Cabe recordar que este fue obra de OpenAi, una 'startup' asociada con Microsoft que ha sido impulsada por Elon Musk. Entre sus hitos, está haber conseguido ser capaz de programar código básico y traducir textos del inglés común al lenguaje jurídico, sin ninguna pauta y, lo más importante, sin que sus desarrolladores supieran que era capaz de ello.

Cuando hicieron el estudio, Bart contaba con 100 millones de parámetros y estaba entrenado sobre 3.000 millones de palabras. Hoy ya cuadruplica aquella cantidad, que sigue estando lejos a GPT-3, que se ejercitó con 175.000 millones de parámetros y un billón de palabras del texto. El proyecto español María —desarrollado por Barcelona Supercomputing Center y la Biblioteca Nacional de España— cuenta 1.500 millones de parámetros y 135.000 millones de palabras en castellano, el más grande en esta lengua. Cuando fue lanzado, la investigación con Bart ya estaba hecha, cuentan los autores.

Foto: Fugaku. (EFE)

Seguramente algún lector ya se esté preguntando para qué sirve todo esto. "Nuestro objetivo no era desarrollar algo que tuviera una aplicación, sino estudiar hasta qué punto los 'transformers' son capaces de abordar tareas de escritura creativa", reconocen estos científicos que, no obstante, sí ven que sus hallazgos pueden tener utilidad para muchas personas. Por ejemplo, diseñado de otra forma, consideran que el modelo podría servir como fuente de inspiración. "El creador propone un título, un chispazo inicial, y el 'bot' desarrolla una historia en unas pocas líneas que puede proporcionar ideas y puntos de partida adicionales al creador".

Otra posibilidad de futuro son los videojuegos, donde muchas veces "las historias se construyen a medida para el jugador y no están predefinidas de antemano". "Es un terreno muy poco explorado y podría transformar radicalmente el panorama de los videojuegos, aunque para eso la tecnología no está madura todavía", lamentan, aunque destacan el caso de AI Dungeon, que también funciona con GPT. En él, las decisiones que toma el personaje "son totalmente libres, porque no eliges entre opciones, sino que escribes lo que quieres hacer, por lo que la historia se adapta en cada momento".

"Esto no es 'Black Mirror"

En cualquier caso, estos investigadores no se tiran flores y no tienen problema en mostrar sus limitaciones. "También llamamos a la reflexión sobre las limitaciones metodológicas y los retos de la evaluación de las tareas creativas", indican. "Esto no es 'Black Mirror".

El famoso test de Turing se basa en que los humanos son el modelo a seguir por lo que las máquinas. "Según eso, lo que hay que evaluar es si los robots son capaces de confundirse con nosotros, que es lo máximo que pueden conseguir. Pero con este tipo de estudio no se pueden detectar los casos en los que la máquina tiene un rendimiento superior al de un humano", contraponen antes de subrayar que "no se ha superado el test de Turing", pues "no demuestra que se pueda identificar a la máquina al hablar con ella", algo que aún está "muy lejos todavía de las capacidades de los 'transformers'".

Foto: Phil Libin junto al logo de su nueva empresa. (Cortesía)

Por otro lado, ellos saben qué parámetros han usado, pero los procesos internos que les llevaron a hacer esa redacción son un misterio: "Es un poco caja negra. No sabes muy bien cómo han llegado a esos resultados, ni cómo aciertan ni cómo se equivocan. Tú programas cómo aprende con una función objetivo, pero no cómo lo hace. Nadie está explicando reglas gramaticales al modelo, algo que hace 20 años era muy importante, pero está funcionando increíblemente bien con tan poca información".

Es decir, la máquina tiene la intuición de cómo funciona el lenguaje y la interrelación de las palabras, pero no sabe cómo operan en el mundo real. "Después de la frase 'el cielo es' incluirá 'azul' porque es lo que más ha leído, no porque tenga lógica", ejemplifican ante lo que llaman "loros estocásticos que ingieren un montón de palabras y las vuelven a escupir". Así, también subrayan que los resultados no son extrapolables a textos más largos, ya que la máquina "tiende a ser formulaica" y le cuesta mantener "la consistencia interna y externa".

"El 'bot' no ha escrito mejor que Cervantes, sino mejor que las sinopsis de películas con una nota media de 6,3 en IMDB", recuerdan.

Las máquinas ya pueden escribir mejor que tú la sinopsis de una película... y sin ni siquiera haberla visto. Es el hallazgo de tres investigadores españoles que han entrenado la capacidad de redacción de un modelo basado en "redes neuronales para el procesamiento del lenguaje natural" y lo han comparado con los resúmenes de la plataforma IMDB. El resultado ha sido una sorpresa hasta para ellos mismos: su red neuronal artificial, llamada 'transformer', ha tenido un desempeño un 14% superior al de los textos escritos por personas.

Inteligencia Artificial
El redactor recomienda