EMPLEAN TÉCNICAS SUBÓPTIMAS PERO POPULARES

Los investigadores no saben estadística (y eso perjudica a la ciencia)

Un estudio publicado en 'JAMA', junto a la Asociación Americana de Estadística, alertan de los peligros de utilizar de forma incorrecta las herramientas estadísticas

Por

16/03/2016 - 05:00

Un estadístico podría meter la cabeza en el horno y los pies en la nevera y decir que, en promedio, se encuentra a gusto. No hagan caso a este viejo chiste matemático que intenta restar importancia a la estadística. En realidad, se trata de la herramienta más importante de la que dispone la ciencia a la hora de confirmar o refutar hipótesis; gracias a ella avanza el conocimiento. Ahora, investigadores denuncian que su uso incorrecto, por mala fe o ignorancia, amenaza la calidad de la investigación.

El culpable de todos los males es el p-valor, un término estadístico cuya popularidad ha aumentado con los años al mismo ritmo que su mal uso. El pasado 7 de marzo, la Asociación de Estadística Americana (ASA, por sus siglas en inglés) tuvo que lanzar un comunicado en el que se recordaba el uso correcto del p-valor y alertaba de que "nunca se ha pretendido que sea un sustituto del razonamiento científico". Es la primera vez en sus 177 años de historia que tiene que hacer este tipo de recomendaciones sobre cómo se emplean las herramientas estadísticas.

"El concepto del p-valor no es muy intuitivo y dice lo contrario de lo que el investigador quiere saber", explica a Teknautas el Director Ejecutivo del ASA, Ronald Wasserstein. A grandes rasgos, el p-valor indica la probabilidad de que los resultados de un experimento se hayan debido al azar. Cuando esto es muy poco probable, decimos que los datos son 'estadísticamente significativos'.

La revisión de "millones" de estudios biomédicos fechados entre 1990 y 2015 ha determinado que la 'mala estadística' cada vez es más frecuente

Por ejemplo, si un medicamento resulta más eficaz que otro durante un ensayo, puede que esto sea debido a que de verdad lo es... o a la pura casualidad. Un p-valor bajo indica que esta última posibilidad es muy poco probable. El problema, como recuerda la ASA, es que esto no implica que la hipótesis estudiada —¿es el nuevo fármaco mejor que el viejo?— sea cierta. Sin embargo, en investigación se utiliza este número como un 'guardián' que decide si las conclusiones de un estudio son publicables o no.

Un estudio publicado esta semana en la revista 'JAMA' ha revisado "millones" de estudios biomédicos fechados entre 1990 y 2015 para concluir que la 'mala estadística' es cada vez más empleada. "El p-valor ya es una técnica subóptima, y si encima se usa de una forma sesgada puede ser muy confusa", asegura el director del Centro de Investigación Preventiva de la Universidad de Stanford y autor principal del estudio, John Ioannidis.

El 96% de los estudios analizados por Ioannidis tenían al menos un p-valor estadísticamente significativo. "Esto sugiere que hay una presión selectiva que favorece los resultados extremos. Estos datos no son realistas, es imposible que el 96% de las hipótesis analizadas sean significativas", añade. Además, que un resultado sea estadísticamente significativo no dice mucho: puede que los pacientes que prueban un fármaco experimental mejoren, de forma estadísticamente significativa, respecto a los que tomaron un placebo. Pero de poco sirve si esta mejora es del 1%.

Consecuencias para la salud

"El p-valor no indica que algo sea cierto. Si tienes un p-valor del 0,01 no significa que tengas un 1% de probabilidades de que algo no sea cierto", aclara Ioannidis, un carismático investigador famoso por sus estudios sobre la llamada 'mala ciencia'. En 2005 saltó a la fama por publicar en 'PLOS Medicine' un artículo que aseguraba que, en ciertos campos, hasta el 95% de los estudios científicos eran incorrectos.

Es seguro que ha sufrido o muerto gente porque los científicos han usado tests de significación estadística para interpretar resultados

Las consecuencias del mal uso del p-valor, tan conocido como ignorado, no sólo afectan a la calidad de la ciencia. Junto a la lista de recomendaciones de la ASA, un ensayo del epidemiólogo de la Universidad de Boston Kenneth Rothman advertía de que "es seguro que ha sufrido o muerto gente porque los científicos (y editores, reguladores, periodistas y otros) han usado tests de significación estadística para interpretar resultados".

Los investigadores apuestan por el uso de otro tipo de indicadores estadísticos y emplear el p-valor de forma "selectiva", ya que por sí solo "no dice cuán cierto es un resultado". El problema es que este sistema se ha convertido en un símbolo de buenas maneras que decide qué se publica y qué no, por lo que crea, según Ioannidis, la ilusión de una investigación creíble.

El redactor recomienda