Es noticia
Enganchados al Excel: cómo su (mal) uso está alimentando el caos en los datos del covid
  1. Tecnología
Ni siquiera Microsoft lo recomienda

Enganchados al Excel: cómo su (mal) uso está alimentando el caos en los datos del covid

Expertos en estadística y 'big data' llevan meses alertando del uso de este programa para la gestión de bases de datos. Un error que ya ha hecho estragos en UK y amenaza a España

Foto: (Foto: Reuters)
(Foto: Reuters)

El primer fin de semana de octubre, la población de Reino Unido observaba con sorpresa cómo, de repente, su país había sumado de una tacada 16.000 positivos de coronavirus sin explicación alguna. En solo un fin de semana brotaron como si nada y provocaron un gran alboroto en el territorio británico, pero hubo una explicación a todo esto: habían cometido un fallo en los documentos de Excel que utilizan para el conteo de los casos y eso provocó la pérdida de los mismos. La confesión sonó como algo increíble, inimaginable, pero lo cierto es que los expertos en estadística, análisis de datos y 'big data' llevan meses alertando sobre ello. Hay muchas administraciones utilizando Excel para un cometido que no está pensado y es un gran riesgo.

Lo ocurrido en las islas británicas es un punto extremo y esperpéntico en el que se mezcla la no actualización del 'software' con una mala utilización del mismo, pero para los especialistas es un aviso para muchos otros. Países como España donde también hemos tenido, de momento pequeños, sustos con el Excel, siguen utilizando de forma generalizada este programa para un cometido, la gestión y el análisis de bases de datos, para el que ni siquiera la propia compañía estadounidense lo recomienda. Un fallo que muestra dos problemas claros: una falta de conocimiento del 'software' adecuado para este cometido dentro de las administraciones públicas y una dependencia exagerada de lo público por unos pocos programas estándar.

Foto: Joaquín Meseguer, director general de Transparencia de la Junta de Castilla y Léon, en su despacho. (A. V.)

En nuestro país uno de los expertos que más ha incidido en esto es el matemático, investigador y docente en la Universidad de Oviedo, Javier Álvarez Liébana, que lleva meses pidiendo un cambio en este punto. "No tiene ningún sentido que se siga utilizando este programa para algo tan complejo. Es cierto que Excel o programas similares de hojas de cálculo son muy útiles para un primer análisis, para tareas pequeñas y rápidas a nivel personal o divulgativo, pero es que esto es otra cosa. Hablamos de la gestión de los datos de la pandemia del coronavirus en un país con casi 50 millones de habitantes", explica Álvarez.

Su postura es clara pues ni siquiera Microsoft lo recomienda. "Si es que para la gestión de bases de datos Office tiene Access, que aun así es un programa pequeño y limitado, pero sirve para hacerse una idea de la incongruencia de usar Excel para este cometido". Pero, entonces, ¿por qué se usa? "Creo que se mezclan varias cosas para que la gente siga utilizando este programa pese al riesgo y los problemas. Un 'mix' de desconocimiento, comodidad y dependencia del sistema. Pero hay que tener claro que hay muchísimas opciones mejores que ya se utilizan desde hace años en muchos ámbitos y que no tienen por qué añadir una complejidad extra ni necesitar demasiada formación".

Su opinión es similar a la de otros expertos en estadística como @Picanumeros, un usuario de Twitter que lleva años hablando y divulgando sobre estadística y matemáticas. "La ventaja de Excel es principalmente su flexibilidad: tiene una interfaz sencilla que puede hacer más llevaderas tareas que requieran introducir datos a mano o ciertas operaciones de contabilidad. Pero en cuanto a utilizarlo para gestionar bases de datos... no es recomendable. No veo mal del todo que se hagan las tablas de los informes en Excel, pero utilizarlo para gestión y, sobre todo, almacenamiento de grandes volúmenes de datos es una bomba de relojería".

Este especialista da varios razones por las que cree que es peligroso. "Por un lado, los formatos de Excel pueden incurrir en problemas de compatibilidad con otros programas de hojas de cálculo o bases de datos, o incluso con otras versiones de Excel. Por otro lado, es común que en las propias hojas de cálculo de Excel se den problemas con los formatos de las variables en sí (por ejemplo, que te cambie un número normal y corriente a un formato fecha). Y luego está el tema del límite de capacidad, que es lo que les ha ocurrido en UK: las hojas de cálculo tienen un límite de filas y de columnas. Más allá de eso, no puedes introducir nada más. Además, a medida que aumenta el volumen de datos, el propio Excel se vuelve más problemático, computacionalmente hablando".

En cuanto a qué otros programas y 'software' recomiendan, Álvarez habla de sistemas de gestión de datos como SAS o SPSS, ya utilizados incluso en sistemas públicos como el Sistema Nacional de Salud de España, pero también, y especialmente, de lenguajes de programación como 'R', Python o SQL. "Son sistemas creados y preparados especialmente para la gestión de grandes bases de datos de forma incluso sencilla para el usuario que debe verlos. Cuentan con versiones de código abierto que puedes moldear a tu gusto y se llevan utilizando años en la comunidad de estadísticos, pero por alguna razón aún no se han extendido a las administraciones ni a otros espacios".

La maldición del Excel

Ese punto final es importante, porque el problema del mal uso de las hojas de cálculo no es nuevo ni se ciñe al coronavirus, sino que hace unos años después de varios casos se acuñó el término 'La maldición del Excel'. De estudios económicos a genéticos, los fallos relacionados con una mala utilización de estos sistemas llevan años ocurriendo, y sin embargo su uso no se ha descartado.

El más conocido fue el que acabó llamándose 'la depresión del Excel'. Ocurrió en 2013 y tuvo como protagonistas a dos grandes figuras de la economía y de Harvard como Carmen Reinhart y Kenneth Rogoff. Los dos habían publicado un artículo en 2010 sobre el punto inflexión de la deuda pública, una vez que la deuda supera el 90% del producto interior bruto, afirmaban, el crecimiento económico cae en picado. El informe fue utilizado para apoyar posteriores políticas de austeridad, pero tras tres años se descubrió que habían contado mal las cifras en su Excel, dejando sin marcar varias celdas. El hallazgo convirtió el estudio en papel mojado.

Más recientemente otros 'papers' han estudiado la 'mala utilización' de estos programas en todo tipo de sectores. Uno publicado en 2016 detalla que uno de cada cinco investigaciones sobre genética contiene errores debido al uso de estos sistemas de hojas de cálculo. Los nombres de los genes, que mezclan símbolos, letras y números son interpretados por el programa de tal forma que convierte esos nombres en fechas u otro formato contaminando todo el estudio.

placeholder Imagen de la web del Instituto Carlos III hecha con 'R'.
Imagen de la web del Instituto Carlos III hecha con 'R'.

Sobre cómo cambiar esto y desterrar el uso de las hojas de cálculo como bases de datos en administraciones públicas y sistemas similares, Álvarez apunta a la actualización de los sistemas y la formación del funcionariado. Y para ello pone buenos ejemplos que también tenemos en nuestro país. "Aquí también tenemos buenas acciones y que muestran que se pueden hacer las cosas de otra forma, como es el caso del Instituto Carlos III. Su web sobre los datos del covid está hecha con R y de una forma muy simple y sencilla. Creo que ese es un buen camino a seguir".

¿Por qué esa diferencia entre el ISCII y otras administraciones españolas? Álvarez señala al ámbito en el que se mueven. "El Carlos III se mueve en un sector académico y de investigación en el que se cuida mucho todo esto y llevan años tratando estos asuntos y dándole vueltas a posibles soluciones o alternativas. El problema es que en otros espacios nunca habían tenido que enfrentarse a una situación como la actual ni les había preocupado y no están preparados para ello. El dato es el nuevo petróleo, pero muchos aún siguen sin verlo y prefieren seguir como hasta ahora".

El primer fin de semana de octubre, la población de Reino Unido observaba con sorpresa cómo, de repente, su país había sumado de una tacada 16.000 positivos de coronavirus sin explicación alguna. En solo un fin de semana brotaron como si nada y provocaron un gran alboroto en el territorio británico, pero hubo una explicación a todo esto: habían cometido un fallo en los documentos de Excel que utilizan para el conteo de los casos y eso provocó la pérdida de los mismos. La confesión sonó como algo increíble, inimaginable, pero lo cierto es que los expertos en estadística, análisis de datos y 'big data' llevan meses alertando sobre ello. Hay muchas administraciones utilizando Excel para un cometido que no está pensado y es un gran riesgo.

El redactor recomienda