Es noticia
Desafían a las 21 IA más usadas del mundo a hacer diagnósticos clínicos: tu médico puede dormir tranquilo
  1. Tecnología
29 casos clínicos reales

Desafían a las 21 IA más usadas del mundo a hacer diagnósticos clínicos: tu médico puede dormir tranquilo

Entre ellas estaba GPT-5, Gemini, Claude y Grok. El objetivo era determinar si realmente los usuarios podían confiar en esta tecnología para obtener buenos diagnósticos

Foto: No estamos ni cerca de que algo así se convierta en realidad (DC Studio/Freepik)
No estamos ni cerca de que algo así se convierta en realidad (DC Studio/Freepik)

Un estudio publicado en JAMA Network Open por el Mass General Brigham ha puesto a prueba a 21 de las inteligencias artificiales más utilizadas del mundo y el resultado ha sido contundente: los chatbots aún están lejos de sustituir a un médico en las fases clave del razonamiento clínico.

La investigación, desarrollada a lo largo de 2025, evaluó modelos como GPT-5, Gemini, Claude o Grok mediante 29 casos clínicos reales. El objetivo era medir su capacidad para realizar un diagnóstico diferencial, es decir, el proceso inicial con el que los profesionales descartan enfermedades posibles a partir de síntomas básicos.

Los resultados enfrían el entusiasmo tecnológico. Pese a los avances recientes, los sistemas de IA generativa fallan precisamente en la fase más compleja del proceso asistencial, aquella en la que la experiencia del médico sigue siendo decisiva para orientar las siguientes pruebas y reducir la incertidumbre.

La IA falla en el paso más delicado

El análisis reunió más de 16.200 respuestas y concluyó que los modelos no lograron construir un diagnóstico diferencial adecuado en más del 80% de los casos cuando solo contaban con datos básicos como edad, sexo o síntomas. Esa limitación afecta al arranque mismo del razonamiento clínico.

Los investigadores recuerdan que esa información inicial es la misma con la que trabajan los médicos al recibir a un paciente. Marc Succi, autor del estudio, lo resumió así: “los diagnósticos diferenciales son centrales en el razonamiento clínico y sustentan el ‘arte de la medicina’ que la IA no puede replicar actualmente”.

La situación cambia cuando el chatbot dispone de más contexto clínico. Al añadir exploración física, resultados de laboratorio e imágenes diagnósticas, los sistemas superaron el 90% de acierto en el diagnóstico final, lo que confirma que su rendimiento crece cuando el caso ya está mucho más delimitado.

Ahí aparece la principal paradoja del estudio. La inteligencia artificial responde mejor cuando recibe casi toda la información que el médico obtiene tras varias etapas del proceso, de modo que su debilidad sigue estando en el cribado inicial, justo donde más valor aporta el juicio profesional.

El médico sigue siendo imprescindible

El trabajo también presenta PrIME-LLM, una nueva métrica diseñada para medir cómo rinden estos modelos en distintas fases clínicas. Según los autores, ese sistema permite comprobar que algunos chatbots pueden destacar en el diagnóstico final y, al mismo tiempo, mostrar carencias serias en razonamiento, pruebas o manejo del caso.

Foto: investigacion-medicina-pruebas-medicas-fraude

La conclusión de Mass General Brigham es clara: estos modelos pueden ayudar, pero no están preparados para un uso clínico sin supervisión. Los investigadores advierten que siguen necesitando una vigilancia muy estrecha y recuerdan que, fuera del hospital, confiar en ellos como si fueran un médico entraña riesgos para la seguridad del paciente.

Un estudio publicado en JAMA Network Open por el Mass General Brigham ha puesto a prueba a 21 de las inteligencias artificiales más utilizadas del mundo y el resultado ha sido contundente: los chatbots aún están lejos de sustituir a un médico en las fases clave del razonamiento clínico.

Inteligencia Artificial
El redactor recomienda