AWS ha vuelto a tirar varios sitios web y ahora sabemos por qué

(Image credit: Future / Mike Moore)

El servicio de computación en la nube AWS ha sufrido una nueva interrupción importante, derribando un gran número de sitios web populares. Y después de unas horas de espera, ya tenemos la razón (según Amazon).

La interrupción del servicio comenzó alrededor de las 10am hora de la costa este, 7am hora de la costa oeste. Hay miles de informes de incidentes que lo indican el servicio de monitorización de webs DownDetector.

La interrupción en sí misma duró poco más de una hora y media pero se vieron afectados varios clientes muy importantes, algo que afectó a cientos de millones de usuarios de esos servicios online en todo el mundo.

El culpable parece ser un nuevo error — no está claro si fue automatizado o humano — en el sistema que maneja las cargas de red. En cualquier caso, puedes revivir todo el incidente en este archivo de nuestro blog en directo:

15 de diciembre 16:52

Ha vuelto a suceder: hay múltiples informes de la caída de AWS, causando problemas en varios sitios importantes.

15 de diciembre 16:54

Miles de quejas están llegando a DownDetector, con usuarios de todo Estados Unidos, Europa y Asia informando de problemas con AWS.

El efecto en cadena ha hecho que muchos sitios web populares alojados en la nube de AWS también se han desconectado de la red.

Según DownDetector, algunos de los sitios afectados han sido Hulu, Intuit QuickBooks y DoorDash, así como la propia Amazon.com

15 de diciembre 16:57

Downdetector services hit by AWS outage — (Image credit: Future / DownDetector)

Los servicios de videojuegos parecen verse particularmente afectados por el problema: caen PlayStation Network, Twitch, League of Legends, Valorant, Apex Legends y Halo.

15 de diciembre 16:59

El panel oficial de estado del servicio de AWS aún no muestra ningún problema importante, pero el sitio carga muy lentamente, lo que posiblemente indique que algo va mal.

Los únicos problemas que se muestran actualmente se refieren a la "Conectividad a Internet de AWS" en sus áreas del norte de California y Oregón, parte de la región AWS US-WEST-1.

AWS anuncia que está "investigando los problemas de conectividad a Internet en la región US-WEST-1".

15 de diciembre 17:01

AWS outage is wrecking the Disneyland app and folks here are b i g m a dDecember 15, 2021

Los parques Disney también caen. Parece que el "lugar más feliz de la Tierra" no es muy feliz en estos momentos...

15 de diciembre 17:03

Ahora los problemas están afectando tanto a las regiones US-WEST-1 como US-WEST-2 AWS, dos grandes áreas para la compañía y hogar de un gran número de clientes.

DownDetector muestra ahora otros servicios caídos: Zoom, Okta, Salesforce y hasta la plataforma de streaming Crunchyroll.

15 de diciembre 17:08

AWS dice que puede estar a punto de solucionar el problema. La última actualización en el Panel de Estado de AWS señala que han "identificado la raíz de [los problemas de] conectividad a Internet a la región US-WEST-1 y hemos tomado medidas para restaurarla. Hemos visto algunas mejoras en la conectividad a Internet en los últimos minutos, pero seguimos trabajando para llegar a la recuperación completa".

15 de diciembre 17:11

Downdetector outage reports on AWS services — (Image credit: DownDetector)

Los informes de interrupción de servicio están empezando a relajarse en DownDetector: ¿podrían las cosas estar volviendo a la normalidad?

15 de diciembre 17:15

Gran actualización: ¡AWS afirma que el problema con la región EE. UU.-OESTE-1 en el norte de California ya está solucionado!

"Hemos resuelto el problema que afecta a la conectividad a Internet a la región EE. UU.-OESTE-1", apunta la página de estado de AWS. "La conectividad dentro de la región no se vio afectada por este evento. El problema se ha resuelto y el servicio está funcionando normalmente".

La región EE. UU.-WEST-2 en Oregón todavía está siendo investigada, pero los informes de incidentes de DownDetector están cayendo rápidamente, por lo deberían resolverse pronto...

15 de diciembre 17:19

Y ahí lo llevas: la región de Oregón también está arreglada, dice Amazon. "Hemos resuelto el problema que afecta a la conectividad a Internet a la región EE. UU.-OESTE-2", afirma AWS. "La conectividad dentro de la región no se vio afectada por este evento. El problema se ha resuelto y el servicio está funcionando normalmente".

15 de diciembre 17:21

Otra montaña rusa de Amazon que ocasiona pérdidas económicas y afectan a cientos de millones de consumidores.

En resumen: dos de las regiones principales de AWS, US-WEST-1 y US-WEST 2, sufrieron problemas de "conectividad a Internet" hace una hora y media.

Esto afectó muchos sitios populares que se ejecutan en servicios de AWS: Hulu, PlayStation Network e incluso Amazon.com han estado fuera de juego total o parcialmente.

AWS dice que los problemas ya se han solucionado — hasta la siguiente. Es la segunda caída en menos de una semana. Cruzad los dedos porque no hay dos sin tres.

15 de diciembre 23:29

Con todos los sistemas en verde (al menos de acuerdo con el panel de AWS) la compañía ha ofrecido un poco de contexto a la segunda interrupción importante en tantas semanas. Las regiones EE. UU.-OESTE-1 y OESTE-2 tuvieron los mismos problemas idénticos. Ésta es su explicación:

"Entre las 7:14 AM PST y las 7:59 AM PST, los clientes experimentaron una pérdida elevada de paquetes de red que afectó la conectividad a un subconjunto de destinos de Internet. El tráfico dentro de las regiones de AWS, entre regiones de AWS y hacia otros destinos en Internet no se vio afectado", afirma la compañía.

"El problema fue causado por la congestión de la red entre partes de la red troncal de AWS y un subconjunto de proveedores de servicios de Internet, que fue desencadenada por la ingeniería de tráfico de AWS, ejecutada en respuesta a la congestión fuera de nuestra red", añade. "[Esta modificación] movió incorrectamente más tráfico del esperado a partes de la red troncal de AWS y afectaron la conectividad a un subconjunto de destinos de Internet. El problema se ha resuelto, y no esperamos que se repita".

Parece que los algoritmos que regulan el tráfico de AWS vieron el tráfico de red, pero no tomaron las medidas adecuadas y trasladó demasiado de ella a la red troncal de AWS. Esa subida del volumen de datos interfirió en la conectividad a Internet de algunos de tus destinos favoritos.

A estas alturas, las cosas deberían estar funcionando sin problemas en la mayoría de sistemas sobre AWS aunque hemos visto un puñado de informes que dicen que todavía hay problemas en Twitter, con interrupciones intermitentes y prolongadas (¿al parecer Oculus VR todavía tiene problemas?). Esperemos que todo esté completamente resuelto por la mañana del jueves y que Amazon tome todas las medidas necesarias para no repetir estos episodios, que son embarazosos porque los fallos parecen bastante tontos.

Mike Moore is Deputy Editor at TechRadar Pro. He has worked as a B2B and B2C tech journalist for nearly a decade, including at one of the UK's leading national newspapers and fellow Future title ITProPortal, and when he's not keeping track of all the latest enterprise and workplace trends, can most likely be found watching, following or taking part in some kind of sport.