ChatGPT, Gemini, Claude y DeepSeek se enfrentan al 'Último Examen de la Humanidad' y muestran cómo de cerca estamos de la AGI
El examen constó de 2.500 preguntas relacionadas con más de 100 materias diferentes. Fue elaborado por 1.000 expertos de 500 instituciones de todo el mundo
El objetivo de la prueba es discernir cuánto falta para la inteligencia artificial general (Freepik)
ChatGPT, Gemini, Claude y DeepSeek se han sometido a Humanity’s Last Exam, una prueba extrema publicada en Nature que mide su rendimiento frente a expertos humanos y reabre el debate sobre la cercanía de la AGI. Los resultados revelan avances notables, aunque todavía lejos del nivel humano.
El examen, diseñado por investigadores del Center for AI Safetyy Scale AI, se presentó oficialmente en enero de 2025 como un nuevo estándar para evaluar la capacidad real de los grandes modelos de lenguaje. A diferencia de otros benchmarks, esta batería busca determinar si sistemas como GPT-4o, Gemini, Claude o DeepSeek pueden aproximarse al conocimiento especializado humano en múltiples disciplinas.
Publicado en Nature el 28 de enero, el estudio detalla un examen de 2.500 preguntas que abarcan más de 100 materias. Más de 1.000 expertos procedentes de 500 instituciones en 50 países contribuyeron a su elaboración, bajo criterios estrictos: cuestiones precisas, verificables y no resolubles mediante una simple búsqueda en internet.
Un examen diseñado para evitar trampas
Los impulsores del Último Examen de la Humanidad rechazaron cualquier pregunta que pudiera encontrarse en la red o que los modelos respondieran correctamente en fases preliminares. De más de 70.000 propuestas iniciales, unas 13.000 lograron superar el filtro automático al dejar en evidencia a los sistemas de inteligencia artificial.
Humanity’s Last Exam is a PhD-level benchmark designed to test the limits of AI reasoning. Although Google’s Gemini 3 scored a staggering 48.4%, experts stress that this does not indicate the arrival of artificial general intelligence (AGI). https://t.co/nzWRCjDjrS
Tras una revisión adicional por especialistas, la cifra se redujo a 2.500 cuestiones equivalentes a nivel de doctorado. El abanico incluye desde mitología griega hasta complejos problemas de física sobre fuerzas y movimiento en sistemas sin fricción.
Cuando se lanzó la prueba, OpenAI situó a su modelo o1 en primera posición con apenas un 8,3%. Los investigadores ya anticipaban entonces que, dado el ritmo de desarrollo, los modelos podrían superar el 50% antes de finalizar 2025. La predicción no era descabellada.
Resultados que acercan, pero no igualan, a los humanos
A 12 de febrero de 2026, la mejor marca corresponde a Gemini 3 Deep Think, con un 48,4%. La cifra contrasta con el rendimiento de expertos humanos, que rondan el 90% en sus respectivos campos. La comparación sitúa a la inteligencia artificial en un terreno intermedio: competente, aunque todavía distante del dominio experto.
Los propios autores del estudio advierten de los límites de la métrica. “Una alta precisión en HLE demostraría un desempeño de nivel experto en preguntas cerradas y verificables y conocimiento científico de vanguardia, pero no sugeriría por sí sola capacidades de investigación autónoma o inteligencia artificial general”, señalan en el artículo, dejando entrever que aún falta tiempo para la llegada definitiva de la AGI.
ChatGPT, Gemini, Claude y DeepSeek se han sometido a Humanity’s Last Exam, una prueba extrema publicada en Nature que mide su rendimiento frente a expertos humanos y reabre el debate sobre la cercanía de la AGI. Los resultados revelan avances notables, aunque todavía lejos del nivel humano.