LAS CIFRAS NO SIEMPRE DICEN LA VERDAD

¿Las estadísticas son un timo? Cómo descubrir si te están engañando con los datos

Cuando hay que dar argumentos para defender una tesis o convencer a alguien para que compre algo, las estadísticas suelen ser un arma muy convincente

Foto: Las estadísticas suelen ser un arma muy convincente, pero no siempre se ajustan a la realidad. (Corbis)
Las estadísticas suelen ser un arma muy convincente, pero no siempre se ajustan a la realidad. (Corbis)

Cuando hay que dar argumentos para defender una posición, convencer a alguien para que compre un producto e incluso probar la inocencia de un acusado en los tribunales, las estadísticas suelen ser un arma muy convincente. Es evidente, sin embargo, que éstas son fácilmente maleables y uno puede aprovecharse de ellas a su antojo. En 1954 se publicó el libro de Derrell Huff How to Lie With Statistics que ofrece valiosos consejos para detectar datos falseados o engañosos. Sus apreciaciones siguen siendo de gran utilidad a día de hoy.

1. Selección sesgada de datos

Consiste en seleccionar sólo los datos que apoyan la posición que se quiere defender, ignorando los que la contradicen. La gente miente así constantemente, como sucede muy a menudo en las revistas médicas, tal y como explicaba hace poco Ben Goldacre en un canal de televisión. Según sus palabras, cuando los científicos desarrollan un nuevo fármaco deben ejecutar rigurosas pruebas, primero en ratones de laboratorio y después en sus pacientes.

El problema para Goldacre es que sólo la mitad de los estudios llegan a publicarse, y los resultados positivos tienen el doble de probabilidades de salir a la luz que los hallazgos negativos acerca de un mismo fármaco. Las empresas de publicidad y marketing recurren a este tipo de informaciones veladas constantemente.

2. Escoger la media que más interesa

Con frecuencia se elige la media que mejor casa con la tesis que se quiere defender: la media, la mediana o la moda. La media aritmética se corresponde con el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de esos datos. La mediana se refiere al valor que ocupa el lugar central de todos los datos cuando estos se hallan ordenados de menor a mayor. Por último, la moda es el valor que tiene mayor frecuencia absoluta.

A menudo nos inventamos la causa-consecuencia para publicar resultados a nuestro antojoEs fácil aportar datos engañosos según el tipo de media que se ofrezca al público que, por su parte, a menudo no conoce las diferencias entre unas y otras. Huff explica que esto da mucho margen de maniobra cuando se habla, por ejemplo, del salario promedio de un área determinada. Supongamos que vivimos en una ciudad bastante pobre donde la gente en general cobra un sueldo muy bajo, pero en la que residen también algunos ciudadanos bastante ricos.

Si queremos convencer a alguien de que se mude a nuestra ciudad, no hay como calcular el salario medio, pues el sueldo desorbitado de las ricas hará que suba la media hasta hacerla atractiva. La mediana probablemente revelaría datos más honestos, pero nunca se hace pública en este tipo de cálculos. Como explica Huff, cuando se calcula el salario medio de una zona dada "casi todo el mundo está en realidad por debajo de la media".

3. Ignorar la casualidad

A menudo la gente señala que "una correlación no implica una casualidad". ¿Qué implica, entonces? Cojamos, por ejemplo, el caso de las drogas. Digamos que descubrimos que el número de gente que fuma marihuana en un barrio determinado durante un periodo de cinco años es correlativo con el número de gente que termina en el hospital cada año durante el mismo periodo de tiempo. Sólo con esos datos, nos hallamos ante seis posibilidades, explica Huff:

1. La marihuana genera visitas al hospital en tu barrio.

2. Las visitas al hospital generan consumo de marihuana en tu barrio.

3. El consumo de marihuana y las visitas al hospital se retroalimentan entre sí.

4. El consumo de marihuana y las visitas al hospital están causadas por un tercer factor. En este caso, tal vez la población de tu barrio haya aumentado notablemente en ese periodo de cinco años.

5. El mayor número de visitas al hospital está causado por el aumento de población que, a su vez, está relacionado con la marihuana.

6. La correlación entre la marihuana y los hospitales es casual.

Por mucho que este último punto sea perfectamente posible, mucha gente junta dos datos y los hace causa y consecuencia a su antojo. Así, alguien que, por cualquier motivo, quisiera hacer pensar que la marihuana es peligrosa en el vecindario simplemente tendría que alegar: "Mucha más gente fuma marihuana en este barrio y mucha más gente va al hospital. ¿Coincidencia". Bueno, quizás sí. El ejemplo –que en nada quiere parecerse a una apología de las drogas– es el que ofrece Huff, y refleja muy bien cómo a menudo nos inventamos la causa-consecuencia para publicar resultados a nuestro antojo. 

Alma, Corazón, Vida
Escribe un comentario... Respondiendo al comentario #1
11 comentarios
Por FechaMejor Valorados
Mostrar más comentarios