Retan a ChatGPT y DeepSeek a jugar a 'Dragones y Mazmorras' y lo que pasa dice mucho del futuro que nos espera
Los investigadores trataron de analizar y comparar la capacidad de mantener la coherencia y la estrategia a largo plazo de ambas inteligencias artificiales. Los resultados fueron curiosos, cuanto menos
- Retan a ChatGPT y DeepSeek a jugar al ajedrez y lo que pasa cuestiona si podemos confiar en ellas
- Dos físicos retan a ChatGPT a sacarse un título universitario y esto es lo que consiguen
Un experimento científico presentado en la conferencia NeurIPS y publicado en OpenReview ha puesto a prueba a ChatGPT, DeepSeek y otros modelos de lenguaje en un escenario poco habitual: partidas de Dragones y Mazmorras. Lo ocurrido durante el juego ofrece claves relevantes sobre el futuro de la inteligencia artificial y su capacidad para mantener coherencia y estrategia a largo plazo.
La investigación, desarrollada por un equipo de la Universidad de California en San Diego, parte de una premisa clara: la mayoría de evaluaciones actuales de la IA se basan en tareas cortas, mientras que su uso real exige concentración sostenida, memoria contextual y toma de decisiones encadenadas. El juego de rol se convierte así en un entorno controlado pero exigente.
El estudio estuvo liderado por Raj Ammanabrolu, profesor del Departamento de Ingeniería y Ciencias de la Computación, quien defendió su enfoque con una explicación directa: "Dragones y Mazmorras es un entorno natural para evaluar la planificación en múltiples pasos, el cumplimiento de reglas y la estrategia en equipo", afirmó el investigador, subrayando además el valor del diálogo humano-IA.
Un juego como banco de pruebas para la inteligencia artificial
Para evitar errores, los investigadores conectaron los sistemas a un motor de juego que incorporaba reglas, mapas y recursos. De este modo, los modelos asumieron distintos roles dentro de campañas centradas exclusivamente en el combate, actuando tanto como jugadores como en el papel de criaturas enemigas.
Dungeons & Dragons is a natural testing ground to evaluate multistep planning. pic.twitter.com/Dod0tRmAzI
— IFLScience (@IFLScience) January 25, 2026
Las pruebas incluyeron enfrentamientos entre inteligencias artificiales y partidas contra 2.000 jugadores humanos experimentados. La evaluación midió aspectos como la gestión de recursos, el seguimiento de acciones disponibles y la capacidad para mantenerse dentro del personaje, un factor clave para valorar la coherencia narrativa.
Diferencias entre modelos y límites a largo plazo
Los resultados mostraron comportamientos dispares. DeepSeek tendió a respuestas breves y repetitivas, mientras que otros sistemas variaron mejor su tono según la clase del personaje. ChatGPT se situó en una posición intermedia, combinando descripciones elaboradas con comentarios tácticos, aunque sin evitar del todo la perdida de consistencia.
El análisis final concluye que los grandes modelos funcionan bien en simulaciones basadas en reglas, pero todos muestran una degradación progresiva en escenarios prolongados. Los investigadores ya trabajan en simular campañas completas, conscientes de que lo observado en un juego de rol anticipa desafíos reales en el despliegue futuro de la inteligencia artificial, sobre todo, en infraestructuras críticas.
- Retan a ChatGPT y DeepSeek a jugar al ajedrez y lo que pasa cuestiona si podemos confiar en ellas
- Dos físicos retan a ChatGPT a sacarse un título universitario y esto es lo que consiguen
Un experimento científico presentado en la conferencia NeurIPS y publicado en OpenReview ha puesto a prueba a ChatGPT, DeepSeek y otros modelos de lenguaje en un escenario poco habitual: partidas de Dragones y Mazmorras. Lo ocurrido durante el juego ofrece claves relevantes sobre el futuro de la inteligencia artificial y su capacidad para mantener coherencia y estrategia a largo plazo.