Es noticia
El caos de datos del covid: los voluntarios que destapan lo que Sanidad no cuenta
  1. Tecnología
Y sin ganar un euro con ello

El caos de datos del covid: los voluntarios que destapan lo que Sanidad no cuenta

Un grupo de tuiteros y aficionados a la estadística y los datos se han convertido en referentes para expertos y población en general al picar, recopilar y analizar los datos de la pandemia

Foto: Foto: Reuters.
Foto: Reuters.

Ignacio García tenía hasta hace unos meses una pequeña cuenta de Twitter en la que seguía la actualidad del pádel y sus estadísticas. En ella hablaba y debatía sobre todo lo que pasaba alrededor de este deporte, pero todo eso dio un vuelco en cuanto llegó a nuestras costas el tsunami del coronavirus. Profesional de la estadística y del 'big data' en otros ámbitos, se puso a recopilar todos los datos que salían sobre el coronavirus y a analizarlos diariamente, colgando en su cuenta tablas y gráficos sobre la evolución de la pandemia en España y a nivel global. Ahora, cinco meses después y con el caos de los datos oficiales aún presente, se ha convertido, junto a un pequeño grupo de aficionados de los datos, en un referente incluso para los investigadores, y sin dedicarse profesionalmente a ello.

García, que prefiere no dar más datos personales, es la persona tras la cuenta @ngbpadel2, con más de 11.000 seguidores, pero hay más ejemplos. Un trabajo similar al suyo lo realizan, aunque con matices, otros como @DathosBD (21.000 seguidores), @mianrey (21.000), @Picanumeros (9.000), @Datadista (21.000) o incluso hay grupos como el de @covid19_m (médicos de Madrid que publican datos hospitalarios de la región) o el de #EsCovidData, que está formado por varios usuarios (coordinados por @numeroteca). Una especie de 'mineros' del covid-19 que triunfan dando información concreta, o picándola, mientras el análisis de la pandemia se hace cada vez más caótico.

Foto: (Foto: Reuters)

"Las primeras semanas seguía los datos por los medios, pero necesitaba más detalle de cómo estaba evolucionando. Fue a mitad de abril cuando empecé a buscar fuentes oficiales y a analizar los datos diariamente. Me interesaba ver la evolución de algunos indicadores, así que hice mapas de calor incluyendo la variable temporal. El resultado me gustó mucho y lo compartí en Twitter. La respuesta fue muy buena así que repetí al día siguiente. Sin darme cuenta se convirtió en una rutina diaria", explica el propio Carlos. Su periplo picando datos del covid, empezó como el de tantos otros, buscando información de fuentes oficiales para interesarse por la situación, pero pronto fue a más.

Este experto en 'big data', que asegura no haber tocado nunca antes datos del sector salud, actualiza religiosamente sus tablas a diario con mapas de calor y escribe tras cada informe de Sanidad un hilo contando toda la evolución y sacando breves conclusiones, eso sí, sin salirse de los datos. "Depende del día y del tiempo libre que disponga, dedico un mínimo de unos 30 minutos diarios para extraer información del reporte del CCAES y algunas fuentes adicionales. Pero muchos días también reviso otras posibles fuentes de datos, contesto preguntas, etc. Gran parte del trabajo lo tengo automatizado con una base de datos, algunos procesos de extracción y una hoja de cálculo. No es imprescindible, pero ahorro algo de tiempo".

A una escala más compleja encontramos el caso de Nicolás Rodríguez, la persona tras DathosBD. Él tampoco se dedicaba a algo relacionado con epidemias antes de enero de 2020, pero sí manejaba proyectos relacionados con el comportamiento humano con un sistema propio llamado GVARDIAN y que intenta reducir las muertes y la violencia en España previendo con datos estos posibles comportamientos anómalos. De ahí fue más fácil saltar a la pandemia.

"Llevamos con esto desde el mes de enero con los primeros datos de las alertas sobre gripe estacional (semana 5 de 2020). Lo de China no pintaba bien y cuando llegó a Italia en febrero vimos que aquello era gordo. Nos dedicamos entonces a recabar millones de datos de todo el mundo, especialmente de UE sobre defunciones, fuimos guardando información para utilizarla, pues del análisis de los primeros datos observamos que había ciertos patrones que podían repetirse, y así fue. Y así ha sido en todo el mundo: este virus es simple, un martillo, solo saber hacer una cosa, infectar y lo hace bien y rápido dándole igual todo lo demás", apunta en conversación con Teknautas.

En su caso asegura que le dedica entre "16-20 horas al día desde el mes de marzo, sin un solo día libre". Un tiempo que gasta en analizar la situación en varias comunidades, provincias e incluso barrios y publicar estos análisis en su cuenta de Twitter, pero también está desarrollando un programa para que todo el que quiera pueda comprobar la situación de sus zonas personalmente con un 'dashboard' único, participa en diferentes tertulias y programas y hasta sacan informes sobre la 'vuelta al cole'.

Ante la laboriosidad de todo esto algunos, como el proyecto de EsCovid19Data, han optado por unirse en un proyecto colaborativo que haga más sencillo este trabajo y se han dividido por provincias. "Poco antes de declararse el Estado de Alarma nos dimos cuenta de que no existía información detallada sobre la COVID-19. Encontramos el repositorio donde Datadista transformaba a formatos abiertos la información por comunidades autónomas que el Ministerio de Sanidad publicaba en PDF. Como queríamos datos más detallados hicimos @numeroteca y @ProsumidorSoc un llamamiento inicial por Twitter".

En total han intervenido en la idea unas 20 personas y entre todas van actualizando en la medida de lo posible un repositorio en Github en el que van contando de la forma más transparente posible todo lo que hacen. "Depende, no solo de la capacidad de cada uno, sino también del flujo con que cada comunidad entrega datos, y de cómo los ofrece. A veces hay que extraer los datos de una nota de prensa e introducirlos en un formato reutilizable como es una hoja de cálculo o CSV. En otras hay que extraer uno a uno los datos publicados en gráficos interactivas pero que no ofrecen la posibilidad de descargar (con múltiples 'dashboards' interactivos). En otras hay que dedicar tiempo a buscar la nueva fuente de datos que ha cambiado".

Después de aunar datos Pablo Rey (la persona tras @numeroteca) revisa la información y pasan varios filtros para evitar que haya fallos. Un trabajo de unas 3 o 4 horas diarias "siempre hay sorpresas" y que luego reaprovechan para interpretaciones, crean gráficos, cruzan datos con informaciones como la de factores ambientales y contaminación... Todo eso listo para ser publicado en redes, ser usado por investigadores o incluso por periodistas. Eso sí, como en los otros casos, lo hacen sin ganar ni un solo euro por ello.

Un trabajo duro sin ver un euro

Si algo une a todos estos fans de los datos, además de la estadística y el estudio de las cifras del coronavirus es que ninguno cobra por lo que está haciendo. Algunos, como @mianrey han comenzado a abrir algún tipo de vía de financiación altruista por la que el que quiera puede donar algo de dinero, pero la mayoría, como Rey, García o Rodríguez, ni siquiera han abierto algo así. Y, lo más llamativo, estos mineros 'amateurs' del covid-19 no tienen pensado cambiar esto, al menos de momento.

"Nadie nos ha pagado ni un solo euro por lo que hacemos sea en redes sociales o en cualquier otro formato. ¿Cómo podemos hacerlo entonces? Pues de momento gracias a los fondos propios de nuestro proyecto, es decir de sus socios y por ende de nuestras familias que creen y confían en lo que hacemos. Como decía antes, tuvimos que dejar de lado muchos otros proyectos para dedicarnos en exclusiva a dar información con la que intentar ayudar a los demás. Alguien tenía que hacerlo, ¿no?", detalla Nicolás.

Por su parte, García y la gente de EsCovid19Data lo ven de una forma más sencilla. "Alguna vez me han preguntado si me podían compensar económicamente, pero siempre he dicho que no porque lo realizaría igual para verlo yo mismo y compartirlo con familiares y amigos. Eso sí, reconozco que está siendo muy gratificante ver que hay personas que lo aprecian", apunta García.

"Esta iniciativa está concebida de forma altruista. La intención del proyecto, desde el principio, es que toda la información esté recopilada de forma centralizada, lo más granular posible, pública y abierta, con unos mismos contenidos, y con un único formato, que sea fácil de descargar y de reutilizar por cualquiera, como ocurre en otros países. Podemos hacerlo… sacando de nuestro tiempo libre. Todos tenemos otra ocupación, pero pensamos que estos datos deben de ser públicos", añaden desde EsCovid19Data.

¿Pueden rellenar el 'vacío oficial'?

La gran pregunta que queda es si, después de ver todo este trabajo y sabiendo que lo hacen de forma altruista, esto puede sustituir o llenar el caos de los datos oficiales del coronavirus en España. ¿Se puede atender la pandemia con voluntarios que pican información de manera ímproba en su tiempo libre? La respuesta, según estos usuarios es que no. Es más, todos dejan claro que lo que intentan hacer es mejorar todo el caos e intentan desenmarañar información que llega a través de 20 sistemas distintos y con cientos de variables, pero esto debería hacerlo la propia administración, como en otros países.

"Nos gustaría que esto impulsase a un cambio institucional pero hemos detectado varios problemas importantes. En primer lugar, hay 20 administraciones distintas (las 19 autonómicas, más la central), con 20 enfoques distintos. Otro problema es que, a veces detectamos que, en un mismo territorio, no hay coordinación entre distintas fuentes de datos: en alguna comunidad autónoma, hemos comprobado que hay dos fuentes de fallecidos, totalmente distintas; o hay áreas que sí ofrecen datos, mientras que otras, no", apuntan desde EsCovid19Data.

"También ocurre que a veces se da preferencia a opciones más estéticas que útiles para mostrar los datos, o a soluciones tecnológicas más complejas para 'demostrar' que se ofrece información, pero sin un contexto claro, ni intención de comparar estos contenidos con momentos anteriores. Ha de añadirse a todo ello la disparidad de criterios a la hora de definir conceptos, durante la pandemia, que ha hecho bastante difícil recopilar esos datos, en muchos momentos. En resumen: en algunos casos, parece que prima más la idea de ofrecer “algo” para justificar que se ofrece información, pero sin un criterio claro" terminan.

Para Rodríguez el problema es más estructural e incluso se atrave a decir que los datos que se ofrecen ahora con el coronavirus "son un lujo" en comparación con otras estadísticas públicas. "Llevo más de 10 años analizando bases de datos públicas españolas y extranjeras y la gente no es consciente de lo que hay, de lo poco que dan y de cuándo lo dan. Por ejemplo, las defunciones por causa de muerte anuales se conocen en diciembre del año siguiente salvo en esta pandemia. Las bases de datos públicas siempre dan información tarde aunque tampoco es que fuera de nuestro país estén para servir de ejemplo, EUROSTAT es todavía peor".

"En España tenemos un problema generalizado en cuanto a las bases de datos públicas y su tratamiento, las estadísticas, qué ofrecen y cuándo se ofrecen. Quizás esta pandemia sirva para entender que los datos siempre deben ser públicos y estar en manos públicas, darse de forma habitual y más rápida, poner los datos a disposición del público en general de forma inmediata y trabajar todos en las mismas condiciones con esos datos. ¿Qué habría pasado si hubiéramos tenido en tiempo real datos de fallecidos por problemas respiratorios desde principios de año?", concluye.

Ignacio García tenía hasta hace unos meses una pequeña cuenta de Twitter en la que seguía la actualidad del pádel y sus estadísticas. En ella hablaba y debatía sobre todo lo que pasaba alrededor de este deporte, pero todo eso dio un vuelco en cuanto llegó a nuestras costas el tsunami del coronavirus. Profesional de la estadística y del 'big data' en otros ámbitos, se puso a recopilar todos los datos que salían sobre el coronavirus y a analizarlos diariamente, colgando en su cuenta tablas y gráficos sobre la evolución de la pandemia en España y a nivel global. Ahora, cinco meses después y con el caos de los datos oficiales aún presente, se ha convertido, junto a un pequeño grupo de aficionados de los datos, en un referente incluso para los investigadores, y sin dedicarse profesionalmente a ello.

El redactor recomienda