ENTREVISTA A DAVID SPIEGELHALTER

Antes de creer otra encuesta electoral, lean todo lo que este hombre tiene que decirles

Catedrático de Estadística en la Universidad de Cambridge, nos explica dónde mirar para que no nos engañen con datos: una de las fuentes de desinformación más difíciles de detectar

Foto: Spiegelhalter es catedrático de Estadística en la Universidad de Cambridge. (Cedida) — Spiegelhalter es catedrático de Estadística en la Universidad de Cambridge. (Cedida)

Por

15/05/2023 - 05:00

EC EXCLUSIVO Artículo solo para suscriptores

Si Hamlet viviera hoy y alguno de sus sirvientes le preguntara qué está leyendo, en lugar de "palabras, palabras, palabras", seguramente diría "datos, datos, datos". La era digital y las redes sociales consisten en que pasamos el tiempo escupiéndonos cifras los unos a los otros. Inicialmente, lo hacíamos con la noble intención de enriquecer el debate, pero se ha llegado a un punto en el que números, estimaciones, encuestas y porcentajes nos sobrevuelan sin saber realmente de dónde vienen, cómo se han construido o si son mentira.

David Spiegelhalter, catedrático de Estadística en la Universidad de Cambridge y miembro de la Royal Society, publicó originalmente El arte de la estadística en 2019, antes de volverse una celebridad en Reino Unido. La pandemia lo lanzó al estrellato mediático. Durante meses, fue requerido continuamente por radios y televisiones para dar sentido al maremágnum de datos y conceptos que los políticos lanzaban a la población para justificar las medidas: desde la mortalidad del virus a la sensibilidad de los test o la tasa de incidencia. Ahora, este valioso manual aparece en español editado por Capitán Swing para ayudarnos a entender también cuál es el verdadero riesgo de comer carne roja, a qué parámetros hay que mirar para valorar si un estudio científico es fiable o cómo interpretar esas noticias donde dicen que cada español ha tenido siete parejas sexuales a lo largo de su vida.

Foto: González Pons, Alberto Fabra, María José Catalá y Carlos Mazón. (EFE Biel Aliño)

TE PUEDE INTERESAR

Guerra psicológica a golpe de encuestas en la batalla valenciana

Víctor Romero

Buena parte del libro está dedicada a un tipo de estadística muy peculiar, la que se aplica a las encuestas electorales y que en este año tan colmado de elecciones estamos acostumbrados a ver cada día en los medios de comunicación. Sacamos por un momento al veterano matemático de 69 años de su jardín para que nos explique cómo descifrar los oráculos que predicen los resultados de las próximas elecciones del 28 de mayo.

placeholder — Spiegelhalter se convirtió en una celebridad durante la pandemia. (Cedida)

Spiegelhalter se convirtió en una celebridad durante la pandemia. (Cedida)

El poder de las encuestas

PREGUNTA. En España tenemos un interesante año electoral, así que necesito preguntarle sobre las encuestas electorales, porque además es algo que aparece bastante en el libro.

RESPUESTA. Adelante.

P. Recientemente, entrevisté a un político que se postula para alcalde en Barcelona, y me dijo que tenía una encuesta hecha a 1.500 personas que decía que iba a ser decisivo en la gobernabilidad. A menudo, se toma esta idea de las 1.000 personas encuestadas como un umbral a partir del cual la encuesta es fiable. Usted, sin embargo, señala que los números no importan tanto como la calidad de lo que se recoge.

R. Exacto. Si tiene más de 1.000 personas y es una encuesta realmente buena, realmente tendrá una muestra aleatoria de la población. Con 1.000 personas, siempre puede obtener un margen de error de más o menos un 3%, una cifra suficientemente buena para la mayoría de las cosas. Por eso las encuestas de opinión política suelen rondar las 1.000 personas. Pero eso siempre supone que son una muestra representativa. La metáfora que uso en el libro es que es como hacer sopa. Si quieres decidir si le pones un poco de sal a la sopa, tienes que revolverla bien y luego la pruebas. No tienes que beberte toda la sopa. Hay que tener un poco de gusto y saber si le hace falta sal. Pero hay que darle un buen meneo antes de probarla de sal.

"Hacer una buena encuesta es como hacer sopa, tienes que removerla bien para obtener una muestra representativa"

De manera similar, para una población completa, no necesita hablar con todos, vale con una muestra para tener una idea muy buena de lo que está sucediendo, siempre que la muestra sea de verdad aleatoria. Si no lo son, si son personas que acabas de conocer en la calle o que han ofrecido sus opiniones de alguna otra manera, entonces no importa cuántas respuestas tengas, serán parciales. Aquí la calidad es absolutamente esencial. Técnicamente, se conoce como la compensación de sesgo-varianza y, a menudo, es mejor tener un margen de error ligeramente mayor, pero al menos saber que no está sistemáticamente sesgado.

P. El problema es que cuando vemos una encuesta en la televisión o en un periódico, en realidad nunca vemos esos detalles técnicos o la metodología. ¿Hay algo que debería hacernos sospechar cuando vemos los resultados de una encuesta y nos resultan chocantes?

R. ¿Quién la ha hecho? La primera pregunta que hay que hacerse al escuchar cualquier estadística, antes de mirar ni siquiera los números es quién me está diciendo esto. ¿Por qué lo estoy escuchando? ¿Quién quiere que lo sepa? Y si es alguien con algún tipo de motivación, si es alguien con una fuerte línea política, entonces simplemente no me lo creo. Sea lo que sea, no me lo creo. Porque probablemente, si el resultado fuera diferente, ni siquiera estaría en este lugar. Así que eligen hacérmelo saber porque quieren que lo escuche, y de inmediato me vuelvo escéptico.

Pero si se trata de una empresa de encuestas de buena reputación que está utilizando buenos métodos, entonces los tomaré en cuenta. Pero la clave es que nunca debes mirar solo una encuesta. Especialmente cuando se acercan las elecciones, es mucho mejor mirar la dispersión.

Foto: El presidente de Castilla-La Mancha y candidato del PSOE a la reelección, Emiliano García-Page.

TE PUEDE INTERESAR

Así quedan las encuestas de las elecciones del 28-M: Aragón Existe será clave y el PP podría gobernar en Castilla-La Mancha y La Rioja

Unidad de Datos Adriana López María V. Paúl

P. Para ver las tendencias.

R. La propagación de las encuestas, la tendencia, mirar el patrón general... EEso da una idea mucho mejor de lo que podría estar pasando que intentar obtener demasiada información de un solo ejemplo. Prefiero mirar múltiples encuestas y mirar también la supuesta precisión de cada una de ellas.

P. Como regla general, dice que cuando veamos un margen de error debemos duplicarlo mentalmente. Es decir, si una encuesta dice 3% de error deberíamos contar con un 6% de error.

R. Es algo bastante grueso, que de hecho le robé a Nate Silver de FiveThirtyEight [estadístico estadounidense que se hizo muy famoso al acertar prácticamente el resultado de todos los estados de EEUU en varias elecciones presidenciales usando un sistema de pronóstico propio], pero sí, suelo usarlo como regla general. Si alguien ha hecho una encuesta y afirma que el margen de error es de más o menos el 3%, pienso en un 6%, y eso es puramente arbitrario, mis sensaciones. Si se hace perfectamente, el margen de error de esa encuesta será del 3%, pero no suelen hacerse perfectas, por eso lo doblo. Pero, como digo, es solo un juicio rápido por mi parte, algo muy, muy informal.

P. Hablando de Nate Silver y su sistema de pronóstico más sofisticado, ¿cree que este tipo de encuestas 2.0 que emplean cosas como la regresión multinivel y la aplicación posterior de estratificación son el futuro, o los métodos clásicos todavía tienen sentido?

R. Absolutamente. Es el futuro, y no solo en los sondeos electorales. En las encuestas ocurre que, no sé si en España es igual, pero cada vez más la gente no quiere responder a las encuestas. Es difícil obtener una buena tasa de respuesta en las encuestas. Creo que tal vez sea por la pandemia, hay muchas razones, pero conseguir una buena respuesta es cada vez más difícil. Eso significa que, muy a menudo, uno tiene que aumentar la sofisticación del análisis. Hay que admitir que no se está obteniendo una muestra representativa, así que tienes que saber mucho más sobre los individuos porque vas a tener que emplear un modelo en el que se usan algunas técnicas estadísticas más avanzadas, que simulen lo que habríamos esperado ver si tuviéramos una muestra realmente representativa.

Nate Silver, en el Festival Aspen Ideas de 2013 (Corbis/Lynn Goldsmith)

Así que tienes que usar lo que tienes para tratar de extenderlo a una población más grande. Hace poco, en el Reino Unido hicimos una encuesta de infección por covid-19 que fue muy buena. Pero la tasa de respuesta fue solo del 17%. Normalmente ese porcentaje me haría sospechar mucho, pero realizamos muchos controles, se hicieron muchos análisis cuidadosos utilizando estas técnicas de regresión multinivel y posestratificación, estas técnicas MRP como se les llama, que fueron diseñadas originalmente para encuestas de opinión política, pero ahora se usan mucho más en encuestas científicas. Y funcionó muy bien. Ha sido muy preciso y extremadamente bueno y valioso. Pero eso requirió un análisis sofisticado considerable porque la tasa de respuesta es muy baja.

P. ¿Puede explicar un poco a nuestros lectores con sus propias palabras cómo funcionan estas técnicas?

R. Sí. No creo que sea demasiado difícil. Si hace una encuesta y trata de obtener tantos tipos diferentes de personas como pueda, no necesariamente en la proporción en que están realmente en la sociedad, podría ocurrir que obtiene más personas que son jóvenes o de minorías étnicas. Y luego tienes que usar esos datos. Tienes que construir un modelo estadístico que diga para cada individuo en la población, cuál es la probabilidad de que voten por alguien. En resumen, tienes que construir un modelo estadístico que te permita predecir lo que haría cualquier persona en particular en la población. No es lo que harían el día de las elecciones, sino las probabilidades de lo que harían. Y luego aplicar ese modelo estadístico a lo que sabemos sobre la población y producir, a partir de eso, un número esperado de personas que votarán por alguien. O que han tenido covid-19 o lo que sea, las características que le interesen.

Entonces, es un método mucho más sofisticado porque nunca puede permitir un muestreo realmente sesgado, siempre y cuando hayas preguntado a todo tipo de personas, porque puede tener en cuenta el hecho de que no tengas una muestra representativa o que no hayas agitado la sopa correctamente. Pero lo que sí hace es asegurarse de que tiene fragmentos de toda la sopa y, a partir de eso, intenta averiguar qué es lo que realmente está sucediendo en su conjunto.

¿Sabemos de lo que hablamos?

P. Todo el mundo habla hoy de porcentajes y números, pero también se da una notable falta de alfabetización de datos. Es como si estuviéramos hablando un idioma sin conocer bien la gramática o qué significan las palabras.

R. De eso trata mi libro. Todos estamos rodeados de números y, desde la pandemia hay una avalancha de estadísticas sobre todo lo que está pasando. Necesitamos ayuda para entender esos números porque los números no hablan por sí solos. Ellos no entregan ese conocimiento de forma fácil o automáticamente. Hay una habilidad, que yo llamo un arte, en interpretar todos esos números. Y por eso he escrito el libro como una especie de introducción no técnica a las ideas más importantes que hay detrás del aprendizaje de los datos.

P. La pandemia fue una gran oportunidad para personas como usted, que llevan trabajando durante años en la comprensión pública de las estadísticas. Pero al mismo tiempo, ha sido también un riesgo e incluso un fracaso en ocasiones. ¿Cómo vivió esta múltiple vertiente de la estadística durante el covid-19?

R. Para mí la pandemia supuso un trabajo muy duro porque pasé mucho tiempo escribiendo artículos, en la radio o en la televisión tratando de explicar realmente lo que significaban las palabras y tratando de entender lo que estaba pasando. Traté de mantenerme neutral en términos políticos, así que nunca dije lo que debía hacerse. Ni siquiera traté de decir lo que iba a pasar. Eso es demasiado difícil. Pero tuve suficiente trabajo tratando de ayudar a las personas a comprender todos los datos sobre pruebas, casos, hospitalizaciones, muertes, variantes... hay una gran cantidad de trabajo estadístico y son datos difíciles de entender con pruebas de diagnóstico. Cada vez que alguien aparecía en las noticias y comenzaba a hablar sobre tasas de falsos positivos siempre se equivocaba. En cierto modo, era tan molesto porque los políticos usaban esos números solo para quedar como expertos sin saber realmente de qué estaban hablando, y si el número era especialmente grande e impresionante, mucho mejor para ellos.

"Necesitamos ayuda para entender esos números porque los números no hablan por sí solos"

Había algunas cosas muy difíciles de tratar de explicar a mediados de 2021. Se notaba que la mayoría de las personas que morían de covid-19 en el Reino Unido estaban completamente vacunadas. Entonces esto llevó a muchos a decir que las vacunas no estaban funcionando. Esto era una tontería, pero al mismo tiempo es algo muy difícil de explicar por qué es completamente razonable y esperado que la mayoría de las personas que mueren por covid-19 hayan sido vacunadas por completo. Pero es un argumento bastante difícil, pasamos mucho tiempo pensando en formas de explicarlo. Entonces alguien nos sugirió la idea de los cinturones de seguridad: la mayoría de las personas que mueren en accidentes de tráfico usan cinturones de seguridad. Pero eso no significa que los cinturones de seguridad estén matando a la gente o que no ayuden a reducir su riesgo. Es solo que casi todo el mundo lleva puesto el cinturón de seguridad y no son perfectos. Igual que pasaba en ese momento con las vacunas para el covid-19.

P. Mi sensación, al menos por lo que pasó en España, es que hubo como dos pandemias. En los primeros meses, la gente necesitaba certezas y realmente agradecían los datos, los hechos y el contexto. Pero a medida que avanzaba el virus, todo el mundo empezó a usar los datos de una forma más sesgada. De repente, muchos números fueron mirados con lupa, cuando no criticados o ridiculizados.

R. Correcto. No, el tema es que hay mucha información errónea basada en afirmaciones estadísticas, los números y muchas personas que hacen afirmaciones en las redes sociales y en otros lugares están usando estadísticas como parte del argumento. Este siempre ha sido el caso, los políticos y otros siempre han querido usar números como parte de su argumento porque parece que no se puede discutir contra los números, pero por supuesto se puede discutir contra números si estos se malinterpretan. Y eso es realmente de lo que trata mi libro, trata de producir información confiable y comprensible a partir de los números, sabiendo que los números nunca son perfectos. Nunca te cuentan toda la historia. Siempre requiere cierto juicio y conocimiento sobre cómo se recopilaron esos datos, etc. Esta es un área difícil y, por lo tanto, creo firmemente que todos debemos ser un poco más sensibles, tanto al poder de los números como a la forma en que pueden manipularse.

Soy un firme defensor de que se imparta alfabetización de datos en las escuelas, y no solo en las escuelas, sino para los periodistas, los políticos... todos en la sociedad deben sentirse cómodos con números o gráficos y tener algún tipo de idea sobre qué preguntas hacer. Y esto es difícil.

P. Es mala idea delegar este tipo de tareas en los programas de inteligencia artificial, ¿no?

R. Por supuesto, el auge de la inteligencia artificial y de los programas hace que esto sea aún más importante, porque estos programas producen afirmaciones que pueden ser reales o pueden estar equivocadas, ya sabe, se inventan cosas de vez en cuando. Así que con mayor razón tenemos que ser escépticos ante las afirmaciones basadas en estadísticas, no ser cínicos, no rechazarlas automáticamente, sino ser escépticos y tratar de saber las preguntas correctas que tenemos que hacer.

P. Un estadístico me dijo una vez que todos los gráficos tienen que cumplir una regla de oro: que sean interpretables sin ningún tipo de contexto más, que puedan circular en redes sociales lejos del artículo donde estaban contenidos y aun así contengan todo lo necesario para saber qué dicen. ¿Tiene usted algún tipo de principios a la hora de hacer gráficos?

R. Sí, idealmente el gráfico debería contener instrucciones y una guía sobre cómo se puede interpretar. Por ejemplo, en el título o en las etiquetas podría señalar posibles problemas con los datos. El gráfico cuenta una historia y es autónomo, por lo que no necesitas tener todo el texto que lo acompaña. Pero, por supuesto, tampoco quieres poner demasiadas cosas en un gráfico y sobrecargarlo. Esta es una verdadera pericia. Y nuevamente, durante la pandemia hubo algunos muy buenos ejemplos de periodismo de datos con gráficos que contenían advertencias sobre qué podría significar esto, cómo podría ser esto en comparación con otras cosas, porque no sabes si algo es grande o pequeño, importante o no, sin darle un contexto y sin hacer comparaciones.

Puedo hacer que una gran cantidad de personas se sientan asustadas o tranquilizadas simplemente manipulando la forma en que cuento la historia. Y si yo puedo hacerlo, otras personas pueden hacerlo.

Las estadísticas en ciencia y medicina

P. Casi todos los días veo titulares como este: "nuevo fármaco reduce el riesgo de recaída en cáncer de mama en un 33%" y pienso que realmente ese número no significa nada, porque no sé si es mucho o es poco, o con qué compararlo. Usted en el libro critica mucho el uso de este tipo de estadísticas en abstracto, aunque eso a los laboratorios o científicos que lo promueven les dará igual.

R. Es bien sabido que si citas una reducción del 33%, una medida relativa, esto puede hacer que las cosas parezcan importantes. O cuando nos dicen que si comemos este alimento en particular, aumenta el riesgo en un 10%, ¿pero en un 10% de qué? Lo crucial es que necesitas una comparación. Necesitas saber, bueno, qué pasaría con esta medicación y qué pasaría sin esta medicación. Una muy buena manera de comunicarlo, que ha demostrado ser muy eficaz y comprensible para la gente en muchos experimentos, es decir qué significaría para 100 personas como yo. Si 100 personas aproximadamente tomaran el compuesto, ¿qué les sucedería? Y si no lo hicieran, ¿qué esperarían que sucediera? En otras palabras, ¿cuántas personas se beneficiarían?

Eso es comprensible. Haces un gran gráfico en el que aparezcan 100 pequeñas personitas y muestras cuántos se benefician, eso es muy fácil de comprender. Por supuesto, es por eso que la gente no quiere usarlo. Porque la mayor parte del tiempo hace que muchas cosas parezcan poco importantes, y si estás tratando de vender algo, ya sea un producto o simplemente un artículo en el que quieres que alguien haga clic en el titular, entonces eso no se ve tan impresionante.

La forma en que cuentas la historia, el marco de la historia, cómo se usan los números para cambiar la reacción emocional de las personas ante la historia... todo eso puede manipularse y es algo muy difícil de detener, pero al menos tenemos que intentar ser consciente de lo que nos están haciendo cuándo estamos siendo manipulados. Porque a nadie le gusta que lo manipulen, a la gente no le gusta sentir que están siendo tomados por tontos. A la gente le gusta que le adviertan sobre cuáles son los trucos que los anunciantes y otras personas hacen. No están mintiendo necesariamente. Simplemente no están diciendo toda la verdad.

P. Hay siempre mucha presión además para lanzar determinados mensajes. Acuérdese de cuando la OMS dijo aquello de que comer carne aumentaba el riesgo de cáncer, y luego la industria cárnica lanzando sus propias estadísticas para matizarlo.

R. Sí, las guerras de la salchicha. Uso muy a menudo el ejemplo del taco de beicon. Es una historia que se puede contar de forma que parezca aterradora, porque aumenta el riesgo de cáncer de intestino, y se puede contar de la historia de forma que no parezca importante, porque 100 personas necesitarían comer todo este tocino todos los días de sus vidas para tener un caso adicional de cáncer de intestino. Y ambas cosas son ciertas, pero provocan reacciones emocionales diferentes.

Foto: Un miembro de la Policía Nacional de Barcelona durante un registro en L'Hospitalet. (EFE/Quique García)

TE PUEDE INTERESAR

Tras años de delirio, este 28-M en Cataluña lo que vende no son las esteladas: es la mano dura

Antonio Villarreal. Barcelona Datos: Marta Ley

P. Cuando alguien lea un estudio científico o un artículo médico, ¿qué tipo de detalles debería observar, cuáles se pasan por alto con frecuencia? Porque, por ejemplo, el valor p o el intervalo de confianza no es algo que normalmente se tenga en cuenta.

R. Creo que en los artículos médicos, las conclusiones se dan muy a menudo en términos de lo que llamamos riesgo relativo, son cambios porcentuales que salen del análisis de las estadísticas, pero no te dicen si realmente algo es importante o no. Necesitamos saber el riesgo absoluto, necesitamos saber qué significa esto para 100 personas, y muchos artículos científicos simplemente no te lo dicen. No se molestan en hacer eso. Hacen una afirmación de que esto es muy importante, dan una impresión de que es muy importante, pero sin proporcionar realmente la evidencia de si esto es muy importante. Creo que eso es lo primero, que si alguien hace una afirmación sobre la importancia de esta conclusión, quiero saber, bueno si es importante dame la evidencia, no me des solo estos números relativos.

Luego, por supuesto, miraría cosas como la incertidumbre sobre los números, el intervalo, etcétera. Y definitivamente, miraría mucho los métodos. ¿De dónde vienen los datos? ¿Se basó esto en un ensayo aleatorio o solo se basa en observar a las personas? ¿En qué caso están sacando una conclusión sobre la causalidad cuando en realidad es una correlación? Esa es la cosa realmente importante: ¿están haciendo una gran afirmación sobre que algo causa algo sin tener en realidad la evidencia para respaldarlo?

P. Defiende a menudo que la mayor virtud de alguien que trabaja con estadísticas debe ser la humildad, no creerse nunca el dueño de la verdad absoluta porque hasta sus análisis pueden contener sesgos involuntarios. ¿Cómo controla su propio sesgo a la hora de hacer su trabajo o lograr sus resultados?

R. Esto es absolutamente crucial. Puedo ser bastante crítico con algunos científicos porque creo que tienen prejuicios sobre sus temas, y a veces por las mejores razones, porque tienen fuertes opiniones sobre el clima, el alcohol o algo así. No son malas personas, pero pueden estar sesgados en cuanto a cómo hacen sus análisis y las conclusiones que sacan. Y por supuesto, yo también. Tengo mis opiniones, definitivamente tengo mis opiniones. Nunca puedes ser robótico o completamente objetivo, pero al menos puedo tratar de ser consciente de mis propios prejuicios y tratar de no meterlos. Aunque los análisis estén bien, algo está sesgado desde las preguntas que uno plantea en un principio.

"Nunca puedes ser robótico o completamente objetivo, pero al menos puedo tratar de ser consciente de mis propios prejuicios"

Volviendo a esta nueva moda de la IA y los análisis estadístico automatizados, que ya están sucediendo y sucederán con mucha más frecuencia. En principio, eso podría mejorar la calidad del análisis estadístico. Pero depende, por supuesto, de las preguntas que los humanos preguntamos a la IA, por lo que las indicaciones serán muy importantes y marcarán una gran diferencia. Es un momento muy emocionante para el análisis estadístico y la confianza para hacer lo que llamo un análisis estadístico confiable. Pero por supuesto, es imprescindible ser abierto sobre tus procesos para que la gente pueda evaluar la calidad de lo que has hecho. La transparencia aquí lo es todo.

Matemáticas Campañas electorales

El redactor recomienda

Un celador abusó de ella en el hospital de Guadalajara: "Si te callas, se queda entre nosotros" A. Villarreal
El Starlink español hará que una aldea tenga mejor internet que el centro de algunas ciudades Michael Mcloughlin Antonio Villarreal Datos: Miguel Ángel Gavilanes
Las otras mentiras de Willy Valadés: el juerguista de las mil caras A. Pascual C. Prieto A. Villarreal