Amazon web services estuvo caído durante horas

Cómo una errata en un código tumbó internet durante horas en medio mundo

Ni 'hackeos' ni ataques organizados a gran escala. Un simple error de un ingeniero informático del gigante online fue el que tumbó parte de la red esta semana

Foto: Probablemente, a Jeff Bezos no le habrá hecho tanta gracia saber que la caída de sus servidores fue debida a un error humano. (Reuters)
Probablemente, a Jeff Bezos no le habrá hecho tanta gracia saber que la caída de sus servidores fue debida a un error humano. (Reuters)

Amazon Web Services no sólo es uno de los pilares fundamentales del negocio de Amazon, también lo es del funcionamiento de la red. Supuestamente, un tercio del tráfico de todo el planeta fluye a través de los servidores de la firma y por ello esta semana la red se colapsó cuando parte de esos servidores se vinieron abajo. Ahora, por fin, se han conocido las causas de la caída. ¿Fue un 'hackeo'? Para nada, un simple error en una línea de código.

Así lo ha explicado Amazon en un comunicado colgado en el que ha detallado los motivos que provocaron que la red sufriera problemas durante esta semana. El problema surgió a las 9:37 hora del Pacífico (las 18:37 en España) y el error surgió desde las propias oficinas de la compañía: "Un miembro de S3 [el nombre por el que se conoce a Amazon Web Services] ejecutó un comando que debía borrar un pequeño número de servidores de un subsistema de S3 que se encarga de gestionar las compras y los recibos. Desafortunadamente, esa línea de código se introdujo de manera incorrecta y provocó el cierre de un número mayor de servidores de los previstos".

El resultado fue la caída de un número considerable de servidores en una acción que pilló por sorpresa incluso a Amazon. Supuestamente, la compañía cuenta con unos mecanismos para evitar que estos errores se produzcan o se alarguen en el tiempo pero el sistema encargado de ello no se había reiniciado en años y tardó más de la cuenta en funcionar con normalidad. En otras palabras, reiniciar el sistema le llevó más tiempo del esperado, acrecentando el problema originado en un primer momento.

Cuando Amazon descubrió el problema tardó más de la cuenta en resolverlo porque el sistema no se había reiniciado en años

Amazon asegura que va a tomar medidas para evitar que estos errores se sucedan en el futuro. El primero de ellos es asegurarse que sus sistemas pueden reiniciarse más rápido. El segundo, evitar que una línea de comando pueda cerrar un determinado número de servidores.

Que Amazon introduzca cambios tras el error es lo esperado aunque el problema, de cara a futuras caídas del sistema, reside en la enorme popularidad de su servicio de almacenamiento en la nube. Que una compañía tenga tanto poder sobre el tráfico de la red lleva a situaciones como la vivida esta semana.

Tecnología

El redactor recomienda

Escribe un comentario... Respondiendo al comentario #1
2 comentarios
Por FechaMejor Valorados
Mostrar más comentarios