Es noticia
Periodismo de datos, gargantas profundas y tecnología compartida
  1. España
LAS CLAVES DEL TRABAJO QUE DESTRIPÓ LA BASE DE DATOS

Periodismo de datos, gargantas profundas y tecnología compartida

Todo nació a partir de un disco duro con información acumulada durante más de 30 años sobre las firmas proveedoras de servicios offshore Portcullis TrustNet (Singapur)

Foto: Periodismo de datos, gargantas profundas y tecnología compartida
Periodismo de datos, gargantas profundas y tecnología compartida

Todo nació a partir de un disco duro con información acumulada durante más de 30 años sobre las firmas proveedoras de servicios offshore Portcullis TrustNet (Singapur) y Commonwealth Trust Limited (Islas Vírgenes Británicas). La pista proporcionada por una fuente anónima prometía. Sin embargo, descifrar, organizar y relacionar cerca de 2,5 millones de archivos podía resultar inabarcable. Era necesario un trabajo de restauración artesanal para desbrozar aquel universo de datos y convertirlo en información de primer orden mundial.

El reto estaba servido. Para llevar a cabo este cometido, a finales de 2012 el Centro de Periodistas de Investigación Internacional (ICIJ, en sus siglas en inglés) recurrió al equipo de investigación del diario costarricense La Nación. Antes, el periodista británico de investigación Duncan Campbell y el programador Mateo Fowler habían iniciado la tarea, avanzando en la descompresión y documentación de las relaciones existentes entre las miles de bases de datos en que trocearon el gran big data con toda la información.

Meses más tarde, el desarrollo del trabajo pasó por las manos del ingeniero informático Rigoberto Carvajal, que se encargó de analizar a fondo los datos y que, con asesoramiento del equipo británico y de la periodista española Mar Cabra, aplicó un proceso de ingeniería inversa para revelar las relaciones originales entre tablas, campos, códigos y, en última instancia, los cientos de miles de registros de empresas y personas. Las piezas del puzle empezaban a encajar, aunque la información original era en ocasiones incompleta, duplicada o nula.

A partir de este punto, el uso de programas de tratamiento de datos resultó providencial para avanzar en el proceso de investigación. Para ello, el equipo de La Nación utilizó el software de integración Talend Open Studio, una herramienta de código abierto para la extracción, transformación y carga de datos (ETL, por sus siglas en inglés) sobre la que se ejecutaron todos los procesos: extracción de bases datos a partir de tablas de información, organización de su estructura, conversión en grupos de nodos y creación de una única red.

En este proceso, también fue necesaria la implementación de otras herramientas, como Vicino, la biblioteca desarrollada por el Institute of Technology de Massachusetts (MIT), importante para clasificar el flujo de datos, o como SIMIL, una aplicación que estima el porcentaje de similitud entre dos cadenas de texto, basado en el número de subcadenas que tienen en común. Con estos algoritmos, se fusionaron miles de registros duplicados que repetían nombres, compañías o direcciones, con total exactitud, quedando luego relacionados entre sí.

El diseño y la interfaz

Una vez armadas las tripas, faltaba por configurar el mostrador a través del cual se pondría a disposición de la opinión pública gran parte del material. Y para este fin, el objetivo perseguido fue siempre desarrollar una aplicación sencilla, interactiva y funcional que permitiera una exploración visual de los datos práctica. Ese trabajo se realizó con MockFlow, una herramienta web de colaboración que permite la creación de bocetos digitales originales, compartirlos con varios usuarios y luego retocar sobre ellos desde cualquier lugar del mundo.

El periodista y desarrollador Mateo-Caruana Galizia fue el encargado de perfilar la aplicación web. Como demuestra el trabajo final, su cometido era crear una interfaz en la que cualquiera pudiera explorar la info sobre las sociedades offshore. Además, se encargó de visualizar los datos en nodos (o círculos) que representan las empresas o personas, y las líneas-enlace entre cada uno de ellos. También programó para generar una página independiente para cada elemento, de manera que los usuarios accedan a una URL permanente para cada uno.

Para la visualización de datos, el programa utilizado fue Sigma.js, la biblioteca con más y mejores opciones para producir un diseño personalizado con buenas posibilidades de exploración. Más allá de esa exposición, la aplicación que este sábado se hace pública permite a los usuarios explorar, en un entorno sencillo, miles de relaciones entre personas, empresas y grupos que hasta hace poco permanecían ocultas. El secretismo de los paraísos fiscales desaparece a golpe de un solo clic. Quién sabe si es el principio de un gran cambio. 

Este artículo se ha elaborado sobre la base de un original firmado por Giannina Segnini, editora de la unidad de investigación del diario costarricense La Nación

Todo nació a partir de un disco duro con información acumulada durante más de 30 años sobre las firmas proveedoras de servicios offshore Portcullis TrustNet (Singapur) y Commonwealth Trust Limited (Islas Vírgenes Británicas). La pista proporcionada por una fuente anónima prometía. Sin embargo, descifrar, organizar y relacionar cerca de 2,5 millones de archivos podía resultar inabarcable. Era necesario un trabajo de restauración artesanal para desbrozar aquel universo de datos y convertirlo en información de primer orden mundial.