Ya sabemos qué causó la caída de AWS que desató el caos en internet: un fallo en la automatización, la apuesta total de Amazon
El pasado lunes descubrimos recordamos por la vía rápida las desventajas de un internet descentralizado: Amazon Web Services sufría una caída y cual efecto dominó, centenares de servicios y webs dejaban de funcionar bien durante varias horas. Desde Alexa a Perplexity o Canvas pasando por Roblox y el New York Times... y sí, también quitó el sueño (literalmente) a quienes poseían estas lujosas camas inteligentes de 5.000 euros.
No ha hecho falta esperar demasiado para que Amazon desvele cuál es la causa de ese corte de servicio de AWS: un error en el software de automatización que fue arrastrándose y creciendo como una bola de nieve. Una cadena de eventos en cascada que acabó con esa caída masiva.
En el extenso informe donde documenta la incidencia, Amazon explica que los clientes de AWS no pudieron conectarse al sistema de bases de datos donde se almacenan sus datos (llamado DynamoDB) por un 'defecto latente dentro del sistema automatizado de gestión de DNS del servicio'.
Bajo el capó. DynamoDB mantiene cientos de miles de registros DNS, valiéndose de la automatización para supervisar el sistema y asegurarse de que los registros se actualicen con frecuencia, de modo que añade capacidad cuando es necesario, gestiona fallos de hardware y distribuye el tráfico de forma eficiente. Al parecer, hubo un registro DNS vacío en la región del centro de datos US-East-1 en Virginia, pero no se corrigió el error de forma automática, por lo que los operadores tuvieron que intervenir para solucionarlo de forma manual.
Así, AWS deshabilitó a escala mundial su planificador y ejecutor de DNS de DynamoDB mientras solucionaba las condiciones que llevaron a la interrupción y añadía protecciones adicionales, explica. Además, el problema también provocó fallos en otras herramientas de AWS. Si bien la incidencia duró unas horas, teniendo en cuenta que Amazon Web Service es el mayor proveedor de nube con una cuota del 30%, su impacto en el internet global fue considerable.
Cabe recordar que la automatización en Amazon logra hitos históricos, con un millón de robots en sus almacenes. Tanto es así que en los almacenes, el número de robots va camino de superar a los humanos. Este verano el CEO de Amazon destacaba el impacto de la IA, asegurando que si todo va bien, tarde o temprano esto significaría más despidos en la empresa (se calcula que la cifra alcanza los 27.000 desde 2022).
The Guardian recoge las declaraciones de la profesora de informática y sistemas de información en la Universidad de Melbourne y doctora Suelette Dreyfus, que sintetiza la consecuencia del fallo y cómo se opone a la razón de ser de internet: 'Internet fue diseñada para ser resiliente; existían muchos otros canales para redirigir el tráfico ante problemas o ataques, pero hemos perdido parte de esa resiliencia al depender tanto de un puñado de gigantes tecnológicos que no solo almacenan datos, sino que también alojan los servicios que los gestionan.'