Es noticia
¿Dónde se guarda internet?
  1. Tecnología
la biblioteca Nacional preserva el archivo .Es

¿Dónde se guarda internet?

El pasado mes de diciembre llegaron a la Biblioteca Nacional varias cajas enviadas desde San Francisco. Son el principio de un ambicioso plan: un archivo en el que recopilar el internet español

Foto:

Las cajas de la foto (abajo) llegaron a España el pasado 11 de diciembre, directas desde San Francisco y hasta el número 20 del Paseo de Recoletos de Madrid, el lugar en el que queda la Biblioteca Nacional.

“Fue como un regalo de Navidad”, nos cuenta mientras enseña la imagen Mar Pérez, jefa del archivo web español. Dentro hay 180 terabytes de páginas web bajo dominio .es, de archivos digitales almacenados para la posteridad, de material que hoy ves en la web pero que mañana podrías no ver y alguien tiene que preservar. Las cajas, ya abiertas e instaladas en la sala fría o centro de datos de la Biblioteca, son el primer paso tangible de un plan más ambicioso: guardar el internet español, que sigue la estela de otras bibliotecas nacionales – la británica, la francesa, la estadounidense o la sueca – y de la fundación californiana que hace veinte años se dio cuenta de que a internet había que archivarlo y se dedica a ello desde entonces, archive.org.

Si venían de San Francisco era justo por eso. Archive.org tiene allí la sede, es experta en el tema y la biblioteca española le pidió en 2009 que empezara a guardar nuestra web. Cinco años después, por fin está aquí.

“La BNE decidió empezar a conservar la web española en 2009”, continúa Pérez. “Se tomaron dos decisiones. Una, contratar con Internet Archive el rastreo masivo del dominio .es. Y dos, ingresar en el Consorcio Internacional para la Preservación de Internet. Los primeros rastreos masivos son de esa fecha y hemos hecho 8 hasta 2013”.

El proceso de guardado se explica fácilmente: un robot entra, barre y guarda las webs (sus textos, enlaces e imágenes) en un formato estándar para poder acceder más tarde y verlas tal y como estaban. La Biblioteca Española no ha publicado todavía el material que le llegó de San Francisco – aún queda que se apruebe el Real Decreto que complementará a la Ley de Depósito Legal de 2011 y regulará el acceso al archivo digital – pero archive.org tiene publicadas dos décadas.

Por ejemplo, aquí puedes ver cómo lucía la portada de este periódico en 2001. Aquí, la primera vez que el robot decidió entrar en Teknautas, en 2012. Además de esperar a la ley, la BNE se prepara ahora para su siguiente gran paso: ya ha instalado el robot y a partir de ahora será ella la que guarde la web, sin tener que recurrir a que lo haga en San Francisco archive.org. Y es en ese momento en el que surgen (en la biblioteca española y en cualquier otra del mundo) las complejidades: cómo guardar y, sobre todo, cuándo y qué.

¿Qué se guarda?

24 de julio de 2013, 20.41. Un Alvia descarrila a tres kilómetros de la estación de Santiago de Compostela. Mueren 80 personas. La catástrofe se convierte en el segundo accidente ferroviario más grave de España. ArchiveIt, un departamento de archive.org, se entera y recolecta material relacionado. Del 25 al 30 de julio, captura 87 fuentes proporcionadas por expertos y coordinadas desde la BNE, de periódicos digitales a webs de televisiones, radios, institucionales y perfiles de redes sociales, que quedan archivadas aquí.

El de Santiago es, además de uno de los eventos seleccionados por esta fundación para preservarlo como patrimonio digital mundial, un ejemplo de rastreo selectivo porque alguien decidió que merecía ser archivado. El otro tipo de rastreo es el masivo: el software pasa y lo guarda todo (siempre que sea público, no necesite contraseña para acceder y el dueño no se lo oculte a los robots, como hace la Casa Real con todo lo relacionado con Urdangarín). La Biblioteca Nacional encargó ocho rastreos masivos del dominio .es y dos selectivos (Elecciones Generales de 2011 y recursos españoles de Humanidades). Se hicieron de 2009 a 2013 y llegaron en cajas a España en diciembre.

¿Quién decide qué se guarda?

El de la selección es un tema muy discutido en el mundillo bibliotecario. Hay pautas generales pero no fijadas, así que las bibliotecas están al tanto de qué pasa y aceptan sugerencias sobre qué guardar. “Cada institución utiliza su modelo. En España, la ley de depósito legal permitía hacer rastreos del dominio .es porque son patrimonio documental. Suele haber recolecciones de eventos importantes o sitios web en peligro”, cuentan. “La primera prueba ha sido guardar el archivo histórico minero porque nos enteramos de que iba a desaparecer. También estamos detrás de la web de la televisión valenciana [a la que ya no se puede acceder], en contacto con la biblioteca de la Comunidad”.

Pero la memoria de internet se enfrenta a dos problemas: volumen y formato. ¿Es el post del Tumblr de una veinteañera con una foto de su vestido digno de ser patrimonio digital? “La producción editorial en soporte tangible está muy bien delimitada. El editor conoce su obligación y está en él la iniciativa de depositar”, afirma Pérez. “El patrimonio documental en línea no tiene límites. No está claro qué es. Tendemos a pensar que es lo equivalente a lo tangible (como un libro en pdf). ¿Y una web que nunca ha sido tangible? ¿Y un blog?”

¿Y un estado de Facebook o un tuit? Aunque en físico también hay documentos pequeños (la biblioteca tiene colecciones de invitaciones de baile o prospectos de medicinas), la producción digital es inabarcable. Por eso “tenemos que seleccionar”.

¿Cuándo se guarda? ¿Y hasta cuándo durará?

Eso por un lado. Por otro está el tiempo o lo efímeros que son tanto el producto digital (¿y si la veinteañera borra su foto del vestido antes de que se capture o un día Tumblr cierra?) como su soporte. A diferencia del papel, lo digital aún no ha demostrado ser eterno: hasta hace pocas décadas sólo necesitábamos nuestros ojos para acceder a un documento, pero la evolución de la tecnología ha puesto hardware y software de por medio y el material (piensa en un disquete o piensa en qué pasaría si Microsoft se va al garete y el formato .doc, que es suyo, con él) tiende a quedar obsoleto.

El asunto temporal inquieta (bastante) a un sector de la tecnología que ve que la industria se preocupa de crear pero no de preservar.

Vint Cerf, uno de los padres de internet, alertó el pasado 15 de febrero sobre ello, tanto en lo público como en lo privado. “Piensa en la cantidad de documentación de la vida diaria que se captura en formato digital, como emails o tuits. Nos enfrentamos a perder gran parte de nuestra historia. Si queremos preservarla, necesitamos que los objetos que construimos hoy sean accesibles en el futuro”. A Cerf le quedó un titular tan llamativo que ha revuelto un tema del que se lleva hablando veinte años: que se avecina una era oscura digital.

¿Podemos evitar perderlo todo?

“Lo de Vint Cerf ha sido una sacudida para todo el mundo”, reconoce Pérez. “Si lo que pretendía es que saltara a primera línea, ha sido fantástico. Pero que entramos en una edad oscura digital se sabe desde hace casi 20 años. El el 96, Internet Archive empezó a recolectar para evitarla”. En el 97 también se publicó un ensayo de alerta.

Identificados los retos (volumen desmesurado, formatos no definidos, soportes que se quedan viejos y efimeridad), los archivistas de internet trabajan desde hace años para ponerle remedio. Guardar en casa, como va a empezar a hacer la Biblioteca Nacional Española, es una solución. Estandarizar los formatos en los que se archiva la web para que sean accesibles en el futuro – ya hay una norma ISO – es otra. E incluir a más instituciones de más países en el consorcio para la preservación de internet - apenas hay asiáticas, africanas o sudamericanas - otra más.

“Las bibliotecas más importantes del mundo llevan tiempo rastreando y guardando todo lo que está en la web. Y hay políticas de preservación digital”, concluye Pérez. Pero saben que nunca será suficiente. “Aunque se trabaja muchísimo para paliar la edad oscura digital, no podremos evitarla: es imposible guardarlo todo”.

Las cajas de la foto (abajo) llegaron a España el pasado 11 de diciembre, directas desde San Francisco y hasta el número 20 del Paseo de Recoletos de Madrid, el lugar en el que queda la Biblioteca Nacional.

Patrimonio
El redactor recomienda