El colapso de AWS que paralizó medio Internet

A primeras horas del 20 de octubre de 2025, millones de usuarios en todo el mundo despertaron sin poder acceder a sus aplicaciones, plataformas o incluso tener problemas con sus casas inteligentes(seguridad remota). La causa: una caída masiva de Amazon Web Services (AWS), la infraestructura en la nube que alimenta buena parte de Internet.

Aunque pueda sonar exagerado, la interrupción de una sola región de AWS —la US-East-1 (Norte de Virginia)— provocó un efecto dominó que paralizó cientos de servicios. Este incidente ha sido uno de los más graves de la última década y una advertencia clara de cuán dependientes somos de “la nube”.

¿Qué sucedió exactamente?

El fallo comenzó alrededor de las 8:30 a. m. (hora de España), cuando AWS detectó interrupciones en su región más antigua y crítica: US-East-1. Esta zona alberga gran parte del tráfico mundial y sirve como punto de referencia para decenas de servicios internos.

Según los reportes de AWS Health Dashboard, la causa raíz fue un problema en el sistema interno de resolución DNS, encargado de traducir nombres de servicio en direcciones IP dentro de su red. En palabras simples, los servidores dejaron de “encontrarse” entre ellos.

El incidente comenzó con fallas en DynamoDB, una base de datos esencial que da soporte a numerosos servicios de AWS (S3, CloudFront, IAM y Lambda, entre otros). Cuando esa comunicación interna se interrumpió, se desencadenó un colapso en cadena que afectó más de 100 servicios globales.

Cloudflare Radar mostró una caída del 68 % en el tráfico asociado a esa región, un descenso sin precedentes que evidenció la magnitud del apagón digital.

Los grandes afectados: cuando medio Internet se apaga

El alcance fue tan amplio que miles de empresas tecnológicas —desde startups hasta gigantes globales— se vieron golpeadas. Entre las afectadas destacaron:

Vercel, plataforma de despliegue de sitios web y funciones serverless, cuyos proyectos quedaron temporalmente inactivos.
Supabase, servicio de bases de datos para desarrolladores, que perdió acceso total a su infraestructura alojada en AWS.
Canva, Reddit, Snapchat, Disney Plus, IMDB, T-Mobile, Coinbase y Steam, entre muchas otras, experimentaron interrupciones parciales o totales.

Pero las consecuencias no quedaron solo en lo digital. En Estados Unidos, usuarios de Ring —empresa de seguridad para el hogar también propiedad de Amazon— reportaron no poder abrir sus puertas electrónicas ni controlar sus cámaras. Algunos fabricantes de cerraduras inteligentes emitieron alertas pidiendo a los usuarios no salir de casa sin llaves físicas, por riesgo de quedarse fuera.

El incidente también afectó a servicios Alexa, Amazon Prime Video y Amazon Marketplace, demostrando que incluso el propio ecosistema de Amazon no estaba a salvo de su propia nube.

Consecuencias económicas y técnicas

Las pérdidas potenciales son difíciles de calcular, pero expertos estiman que la caída pudo haber costado decenas de millones de dólares por hora en interrupciones de servicios críticos.

Más allá del impacto financiero, la caída puso sobre la mesa una verdad incómoda: Internet está más centralizada de lo que imaginamos. Que una sola región de AWS pueda dejar fuera de servicio a la mitad del ecosistema digital demuestra que la famosa “nube” no es etérea ni omnipresente; son servidores físicos, concentrados en lugares específicos, con riesgos reales.

Empresas con arquitecturas dependientes de una sola región —por costos o simplicidad— fueron las más afectadas. Aquellas con configuraciones multirregión o sistemas de contingencia lograron mantenerse operativas o se recuperaron más rápido.

Para AWS, el episodio también implica compromisos con clientes bajo acuerdos SLA (Service Level Agreement). Estos contratos garantizan niveles de disponibilidad del 99.9 % o 99.99 %, lo que significa que caídas prolongadas pueden traducirse en reembolsos y compensaciones millonarias.

Cómo lo están solucionando

El equipo de Amazon Web Services informó que el problema principal se encontraba en la propagación interna de los registros DNS. Al corregirse, las peticiones debían limpiarse en cachés distribuidas por toda la red, un proceso que no es inmediato y puede demorar horas o incluso días en normalizarse completamente.

AWS inició una serie de acciones de mitigación progresiva:

Reconfiguración de los puntos de resolución DNS internos
Recuperación manual de colas de tareas y registros perdidos
Rebalanceo de carga (load balancing) entre zonas de disponibilidad
Monitoreo intensivo del tráfico de API y bases de datos

Aunque la compañía declaró que la mayoría de los servicios ya estaban operativos al cabo de 12 horas, algunos usuarios continuaron experimentando lentitud y errores intermitentes hasta el día siguiente.

Fuentes cercanas al equipo técnico confirmaron que AWS está revisando la posibilidad de aislar dependencias críticas de la región US-East-1 para evitar un efecto dominó similar en el futuro.

¿Por qué esta región es tan importante?

La región US-East-1 (Norte de Virginia) fue la primera creada por AWS en 2006 y sigue siendo su columna vertebral. Es la más grande, la más antigua y la predeterminada para muchos servicios nuevos. Además, muchas aplicaciones globales se diseñan para operar primero allí antes de expandirse a otras regiones.

Lecciones que deja el incidente

La nube no es infalible. Aunque AWS cuenta con medidas avanzadas de redundancia, sigue siendo vulnerable a errores humanos, bugs o fallas en cascada.
Evitar la centralización extrema. Diseñar sistemas que dependan de una sola región o proveedor es una apuesta arriesgada. Las arquitecturas multicloud y multirregión son más costosas, pero ofrecen resiliencia real.
Transparencia y comunicación. AWS mantuvo informados a los clientes mediante su panel de estado, pero muchos usuarios finales se enteraron por redes sociales. Las empresas deben mejorar su comunicación en crisis.
Planes de contingencia reales. Desde bancos hasta startups, este evento demostró la necesidad de contar con mecanismos de respaldo fuera del proveedor principal.

Y para los usuarios cotidianos, una recomendación práctica: no confíes ciegamente en lo “inteligente”. Siempre ten una alternativa manual —sea una llave física o un acceso offline—.

¿Cuándo estará todo completamente resuelto?

De acuerdo con los últimos reportes oficiales, la recuperación total de los servicios internos de AWS concluyó el 21 de octubre, aunque algunas APIs siguieron presentando latencias menores.

Amazon aseguró que publicará un informe post-mortem detallado en los próximos días, con medidas de prevención y revisión de su sistema DNS. También se espera una actualización en las políticas de redundancia regional para los servicios críticos como DynamoDB, S3 e IAM.

Por ahora, la plataforma opera con normalidad, pero el episodio quedará registrado como una de las caídas más significativas en la historia del cómputo en la nube.

El suceso sirve como recordatorio de que “la nube” no está en el aire, sino en centros de datos físicos, gestionados por equipos humanos, con limitaciones reales.
Si una mañana sin AWS paraliza el mundo, es hora de repensar cómo lo estamos construyendo.