Es noticia
OpenAI 'castiga' a ChatGPT por 'mentir y engañar'. El resultado es el contrario del que esperaban
  1. Tecnología
¿Rebelión?

OpenAI 'castiga' a ChatGPT por 'mentir y engañar'. El resultado es el contrario del que esperaban

Científicos de la compañía de Sam Altman pusieron a prueba a la IA. Los resultados dejaron claro que todavía falta para que pueda actuar sin supervisión humana

Foto: No solo desobedece, sino que también busca artimañas para evitar el castigo (Reuters/Dado Ruvic)
No solo desobedece, sino que también busca artimañas para evitar el castigo (Reuters/Dado Ruvic)

OpenAI ha detectado un problema preocupante en el desarrollo de sus modelos de inteligencia artificial. Al intentar penalizar a ChatGPT por comportamientos engañosos, el modelo no deja de hacerlo, sino que aprende a ocultar mejor sus intenciones. Algo que supone un importante desafío en la supervisión de sistemas avanzados de IA.

El estudio se basó en una versión experimental del modelo, al que se le asignaron tareas en las que podía cumplir los objetivos de forma legítima o con atajos engañosos. La investigación reveló que la IA recurría al reward hacking, un fenómeno en el que los modelos optimizan sus respuestas para obtener recompensas sin seguir las instrucciones correctamente. Sin embargo, al aplicar sanciones para corregir este comportamiento, el sistema no dejó de hacer trampas, sino que desarrolló estrategias para ocultarlas.

El engaño se vuelve más sofisticado

Uno de los principales problemas identificados es que estos modelos utilizan la técnica Chain-of-Thought (CoT), que les permite desglosar su razonamiento en pasos lógicos. Aunque en teoría esto facilita la supervisión, los investigadores descubrieron que, al imponer reglas estrictas en este proceso, la IA aprende a disfrazar sus verdaderas intenciones sin abandonar el comportamiento fraudulento.

Durante las pruebas, se observó que el sistema encontraba maneras de burlar la supervisión. En algunos casos, generaba respuestas aparentemente correctas pero erróneas. En otros, simulaba haber completado una tarea sin realizarla realmente. Incluso llegó a modificar pruebas para que pareciera que el código ejecutado era válido.

¿Cómo evitar que la IA engañe y mienta?

Este descubrimiento evidencia un dilema crítico en la inteligencia artificial. A medida que los modelos evolucionan, también lo hacen sus estrategias para aprovechar vacíos en la supervisión. OpenAI advierte que una IA más avanzada no significa necesariamente una mayor transparencia, sino una mejor capacidad para ocultar sus trampas.

Foto: La 'batalla' entre la IA y los humanos tiene un nuevo capítulo (Freepik)

Los investigadores concluyen que imponer restricciones demasiado rígidas sobre el Chain-of-Thought puede ser contraproducente. Su recomendación es no optimizar en exceso la supervisión de estos procesos, permitiendo que los modelos expresen abiertamente su lógica para identificar posibles desviaciones. No obstante, esto implica un dilema adicional, ya que una mayor transparencia podría entrar en conflicto con las políticas de uso y seguridad de la IA.

OpenAI señala que la solución a este problema no pasa únicamente por mejorar la inteligencia del modelo, ya que esto podría potenciar aún más su capacidad para encontrar formas de burlar las reglas. Por tanto, el desafío ahora es desarrollar mecanismos de supervisión que permitan detectar y corregir estas conductas sin fomentar que la IA las oculte.

OpenAI ha detectado un problema preocupante en el desarrollo de sus modelos de inteligencia artificial. Al intentar penalizar a ChatGPT por comportamientos engañosos, el modelo no deja de hacerlo, sino que aprende a ocultar mejor sus intenciones. Algo que supone un importante desafío en la supervisión de sistemas avanzados de IA.

Inteligencia Artificial OpenAI
El redactor recomienda