matemática aplicada al procesamiento de datos

Cómo tus tuits pueden ayudar a prevenir los rebrotes de coronavirus

A partir del análisis de millones de tuits, los cálculos de este proyecto de la consultora Mr. Houston prometen predecir con hasta 10 días de antelación cada nueva ola de contagios de covid-19

Foto: Foto: Reuters.
Foto: Reuters.

Además de ir a poner verde a alguien, compartir noticias y hacerse el gracioso, en Twitter la gente lo mismo comenta lo que ha desayunado que si llueve mucho y qué tal se encuentra. Y hay una cantidad nada desdeñable de personas que si un día tienen fiebre o les duele la garganta, también se molestan en contarlo. Este gesto aparentemente banal podría servir para alertar de futuros rebrotes de covid-19 gracias a un modelo matemático que han desarrollado unos expertos españoles en inteligencia artificial. A partir del análisis de millones de tuits, sus cálculos prometen predecir con hasta 10 días de antelación cada nueva ola de contagios por coronavirus. Como antes de avisar al médico de que nos duele algo ya lo hemos contado por Twitter, eso puede servir para ganar un tiempo crucial de anticipación en la pandemia.

“Cuando empezó el estado de alarma, empezamos a darle vueltas a cómo podíamos ayudar”, explica desde Madrid Nicolás Franco, director del departamento de Inteligencia Artificial de la consultora Mr. Houston, en una videollamada en la que va desplegando en la pantalla las gráficas que explican sus hallazgos. Empezaron hace un mes a entrenar este modelo de procesamiento de lenguaje natural y desde entonces lo están perfeccionando. “¡Y funciona! Mira...”, afirma orgulloso este físico mientras muestra en la pantalla cómo al subir la curva de los tuits que hablan de síntomas de gripe, un par de semanas después, lo hace también la curva de las hospitalizaciones en España. Han hecho esta correlación filtrando los datos de la gripe estacional en años anteriores y luego lo han aplicado a la crisis del coronavirus en España. El hallazgo es prometedor. Ambas curvas se mueven bastante parejas aproximadamente con una semana de diferencia.

La matemática aplicada a este procesamiento de datos es más compleja de lo que parece. No se limita a buscar unas palabras en concreto, como tos, fiebre y gripe, sino que es capaz de contextualizar una serie de expresiones clave o nodos y descartar las veces en que lo que se comenta no es un síntoma a título personal sino algo irrelevante para el análisis. Franco y su equipo han estado entrenando estos algoritmos en estas últimas semanas para que entiendan el contexto. Sus algoritmos reconocen las veces que alguien se queja en Twitter de que le duele la cabeza, la garganta o si está preocupado por un familiar que tiene gripe.

Son estos mensajes los que interesan para predecir futuras hospitalizaciones, y la clave está en que el modelo sepa descartar las veces en que se usan esas mismas palabras en relación a otra cosa. Si un tuit habla de que un famoso tiene fiebre o que un político está enfermo de coronavirus, sería ruido no relevante, porque no contribuye a anticipar futuras hospitalizaciones. Tuitear una noticia de contagios que ya ha salido en el periódico tampoco serviría, aunque contenga las palabras clave, porque obviamente lo publicado ya sucedió y no sirve para predecir nada. De ahí la importancia de una herramienta que sepa discriminar unos y otros tuits.

El número de personas que sentían síntomas compatibles con el covid-19 (y lo tuiteaban) empieza a despegar en España a finales de febrero

El número de personas que sentían síntomas compatibles con el coronavirus (y lo tuiteaban) empieza a despegar en España a finales de febrero y es mayor donde posteriormente se produjeron los peores brotes, como Madrid y Cataluña. “El 22 de febrero, ya se nota en la curva de tuits que hay algo raro, porque la conversación en redes delata que los síntomas no son los de una gripe normal”, afirma Franco, señalando una lista de palabras clave. “Pero el pico de hospitalizaciones no llega hasta el 15 de marzo, así que nuestra herramienta da pistas importantes hasta con dos semanas de antelación”, añade.

Los indicios de finales de febrero

Su análisis también tiene en cuenta que la gente mayor, la más afectada por la pandemia, es precisamente la que menos Twitter utiliza. Pero sus búsquedas también incluyen a la gente que tuitea diciendo que su madre o su abuelo se encuentran mal. “A nuestro modelo predictivo le falta poder correlacionarlo con los datos de las incidencias hospitalarias en tiempo real y cuántos PCR se han hecho, pero todavía no tenemos esa información disponible”, afirma quejándose de la falta de información actualizada de las administraciones en España. “Aun así, ya podríamos con lo que tenemos crear una alerta que avisara si hay una subida repentina en la conversación sobre síntomas y malestar”.

Es el ‘machine learning’ o aprendizaje automático lo que permite estudiar estadísticamente lo que significan esos millones de frases y procesarlas de forma ágil para establecer las correlaciones descontando el ruido. Como además Twitter tiene las coordenadas de dónde está tuiteando cada persona, es posible geolocalizar el momento y el lugar exactos en que la gente habla de esos síntomas con precisión. Han procesado una media de más de un millón de tuits al mes, aunque al filtrar solo los relevantes el sistema puede quedarse con unos 400 diarios. Esos son los que configuran la curva de tuis. Y si hay un repunte significativo en algún lugar de España donde hay gente comentando que se encuentra mal con los síntomas predeterminados, puede ser un indicativo de que pronto habrá complicaciones de la pandemia en la zona. No hace falta que la gente escriba coronavirus ni covid-19, de hecho, para evitar distorsiones, esos términos están excluidos de la búsqueda.

“El número de retuits no es relevante, alguien puede tener solo tres seguidores y estar dando información importante, pero sí lo es correlacionar la persona potencialmente infectada que dice estar enferma con sus propios seguidores y si la gente físicamente cercana al que se queja también se encuentra mal”. De hecho, la gente contagiada suele tener un porcentaje mayor de contagiados entre sus seguidores en Twitter. “Cuantos más datos tengamos, más podríamos afinar las predicciones”, afirma Franco.

Hasta ahora, no les ha sido posible hacer los cálculos con los datos en tiempo real de las hospitalizaciones en cada región, porque las comunidades autónomas a las que les han ofrecido este servicio no han tenido el interés o el tiempo de atenderles. “Me dio la sensación de que están desbordados y su prioridad no es prevenir rebrotes, solo se centran en lo que necesitan de aquí a la semana que viene, ya sean test o mascarillas”, se lamenta, aunque reconoce que también les pesan las precauciones ante la privacidad del uso de datos. “En el mundo financiero, estas herramientas de predicción son más conocidas, pero en la Administración les suena a chino”.

El número de retuits no es relevante, alguien puede tener solo tres seguidores y estar dando información importante

Franco reconoce que correlacionar enfermedades con tuits genera desconfianza. “Es difícil que los científicos se tomen en serio Twitter”, afirma Franco, que antes de montar su consultora era profesor de la Universidad de Berkeley y dirigía un laboratorio con un sincontrón (acelerador de electrones) en el que estudiaba la estructura atómica y molecular de los materiales. Su socio trabajó en Harvard, y en el equipo hay más de medio centenar de reputados físicos, matemáticos y científicos de datos. “Tal vez esta vía, la de analizar los tuits, que en el fondo es sencilla y de bajo coste, no se haya investigado más porque si le dices a una farmacéutica que determine el numero de vacunas en función a unos tuits, te va a mirar raro, pero una vez parametrizada la información de un modo científico, es tremendamente útil”.

Por qué Twitter

“Parece un poco peregrino que con Twitter se pueda anticipar el covid-19, pero es así”, afirma Franco volviendo a la pantalla de los datos. Por raro que suene, no es nuevo. En 2008, Google desarrolló la herramienta Google Flu Trends y Google Dengue Trends para analizar los patrones de búsqueda de los usuarios con el fin de adelantar oleadas de gripe y dengue. Funcionaron hasta 2015, pero Google acabó cancelándolas por el fracaso de sus pronósticos para anticipar el fuerte brote de gripe en 2013. Aquel método no discriminaba quién buscaba en Google los síntomas porque los tenía o porque el aumento de noticias sobre el tema le generaba curiosidad.

Desde entonces, las herramientas se han ido sofisticando mucho. Google ha seguido colaborando con instituciones académicas para rastrear epidemias como el zika en 2016 y el ébola en 2014. Vasileos Lampos, un científico de la computación del University College de Londres, publicó en mayo una investigación de cómo las búsquedas de síntomas de covid-19, cómo fiebre, escalofríos y diarrea, evolucionaban en función de los países para hacer pronósticos de su incidencia más allá de la capacidad de testeo de cada país.

También Joshua Gans, profesor de la Universidad de Toronto, descubrió que las búsquedas de 'non sento odori' (no puedo oler) se elevaron en Italia días antes de que el síntoma apareciera en las noticias. Pero de momento la mayoría de estos estudios se desenvuelven en el ámbito académico. Y Google tiene el problema de que refleja una búsqueda de información, que puede deberse a una curiosidad que decrece a medida que se conoce la enfermedad. La pulsión a quejarse por lo que uno tiene no tiene por qué desaparecer en igual medida.

Sin embargo, la mayoría de estas herramientas se circunscriben al ámbito académico. Según el economista Seth Stephens-Davidowitz, experto en 'big data', el estudio de las búsquedas 'online' también podría ayudar a descubrir otros indicios de nuevos síntomas de covid-19 antes de que se puedan confirmar oficialmente y cotejar el patrón entre varios países. Si de pronto aumenta el número de gente que busca información porque le duelen los ojos en las zonas con más casos del nuevo coronavirus, puede ser una pista interesante para la comunidad médica ante una enfermedad todavía llena de misterios y que solo requiere hospitalización en los casos más graves.

Franco estaba convencido de que era posible desarrollar una herramienta más práctica para poder ayudar en la pandemia. En su empeño de desarrollar una herramienta predictiva, les puso en la pista una investigación de la Universidad John Hopkings publicada en 2011, que analizaba cómo las menciones en Twitter a dolencias como las alergias, la obesidad y el insomnio podían ayudar en el seguimiento de enfermedades a lo largo del tiempo. La ventaja de analizar los tuits frente a otra información 'online' es que gran parte de ella está accesible en abierto y aparece geolocalizada con precisión.

El análisis de la propagación de la gripe a través de los comentarios de los usuarios en redes sociales ha ido perfeccionándose en la última década en el ámbito académico. Hay desde estudios que miden el potencial de los tuits tanto para predecir los brotes de gripe en América Latina como para monitorear en tiempo real las ratios de vacunación en Estados Unidos. Sin embargo, la de esta empresa española es la primera herramienta práctica aplicada a disposición de las administraciones públicas para la prevención.

La consultora Mr. Houston, que entre sus principales clientes tiene grandes entidades financieras para las que desarrolla modelos predictivos, ya ha hablado con varios hospitales de este proyecto. Para desarrollar esta iniciativa, que su empresa desarrolla sin ánimo de lucro, desembolsan unos 2.000 euros al mes a Twitter España, que comercializa el acceso a todos estos datos. “Somos una pyme, no podemos dedicarle más recursos”, advierte. A la Administración, solo le piden que les ayude con los datos. “Pero nuestro objetivo no es monetizar el producto, sino desarrollar la herramienta y ponerla a disposición de la sociedad. Es nuestro granito de arena”.

Tecnología

El redactor recomienda

Escribe un comentario... Respondiendo al comentario #1
2 comentarios
Por FechaMejor Valorados
Mostrar más comentarios