Caída de AWS del 20 de octubre de 2025: qué pasó, cómo funciona y cómo prepararte (con la ayuda de Proredes)
El 20 de octubre de 2025, una caída de AWS del 20 de octubre de 2025 ligada a la resolución DNS de DynamoDB en US-EAST-1 provocó interrupciones globales. Explicamos qué falló, cómo funcionan los servicios implicados y qué acciones prácticas deben tomar los equipos de TI para aumentar resiliencia, con recomendaciones aplicables en nubes públicas y entornos on-premise.
¿Qué ocurrió exactamente y a quién afectó?
El 20 de octubre de 2025, la caída de AWS del 20 de octubre de 2025 impactó a millones de usuarios y a decenas de servicios a nivel mundial. El problema se originó en la región US-EAST-1 (Virginia) y estuvo relacionado con la resolución DNS del endpoint de Amazon DynamoDB, lo que desencadenó errores y latencias en cascada en múltiples plataformas. AWS informó que el incidente fue mitigado progresivamente, con recuperación de la mayoría de los servicios durante la jornada.
En la mañana del 20 de octubre (hora EE. UU.), numerosos servicios reportaron interrupciones: redes sociales, apps de mensajería, videojuegos, fintech, e incluso dispositivos de hogar inteligente. Entre los afectados se mencionaron Reddit, Snapchat, Venmo, Roblox, Fortnite, Ring y más. Aunque la recuperación fue escalonada, la magnitud del impacto volvió a poner sobre la mesa la concentración de la infraestructura en pocos proveedores.
El denominador común: DynamoDB y su resolución DNS en US-EAST-1. Cuando el endpoint no resolvía correctamente, clientes y servicios que dependían directa o indirectamente de DynamoDB empezaron a fallar: timeouts, errores 5xx y degradación funcional. AWS confirmó la naturaleza del problema y emitió orientaciones operativas durante la mitigación.
Cómo funciona la infraestructura de AWS que estuvo en el foco
Regiones y Zonas de Disponibilidad (AZ): el mapa físico de la nube
AWS organiza su infraestructura en Regiones (ubicaciones geográficas amplias) y, dentro de cada una, en Zonas de Disponibilidad (AZ), que son grupos de centros de datos aislados entre sí por energía, red y ubicación. Esta segmentación permite que una aplicación siga funcionando incluso si una AZ sufre una incidencia. En términos simples: la Región es la “ciudad”, y las AZ son “barrios” independientes con autopistas de baja latencia entre ellos.
¿Por qué US-EAST-1 es tan sensible?
US-EAST-1 (Virginia del Norte) es una de las Regiones más antiguas, grandes y con mayor densidad de servicios y clientes. Muchas organizaciones la eligen por ecosistema, latencia a la costa este de EE. UU. y disponibilidad histórica de features. Esa concentración, sin diseño adecuado, amplifica el “blast radius” cuando aparece un problema regional: si todo tu stack vive allí, te expones a una afectación total.
Planos de control vs. planos de datos: dos mundos que deben convivir
En la nube, solemos distinguir entre plano de control (donde “configuras” recursos: crear tablas, cambiar políticas, escalar) y plano de datos (donde “corren” tus lecturas/escrituras de negocio). Un incidente puede golpear a uno, al otro o a ambos. Por ejemplo, podrías no poder crear recursos (plano de control) pero tus lecturas/escrituras seguir funcionando, o viceversa. Entender esta diferencia ayuda a planificar degradaciones: ¿qué hace tu app si no puede crear un recurso nuevo temporalmente?
DNS: el “Director de Orquesta” que todos damos por sentado
El DNS traduce nombres como dynamodb.us-east-1.amazonaws.com
a direcciones IP. Es invisible cuando funciona, pero crítico cuando falla: sin resolución correcta, los clientes ni siquiera “saben a dónde llamar”. En arquitecturas modernas, DNS no solo resuelve nombres: también equilibra carga, aplica políticas (latency/weighted/geo) y ejecuta health checks. Un problema de DNS puede parecer “caída total” aunque los servicios detrás estén sanos.
Endpoints regionales y descubrimiento de servicios
Muchos servicios gestionados (como DynamoDB) exponen endpoints regionales. El SDK de AWS en tus apps usa esos endpoints para crear conexiones HTTP(s) hacia API Gateways/servicios internos. Si el endpoint no resuelve o resuelve a IPs no alcanzables, tus clientes ven timeouts o 5xx. La lección: tu app depende del endpoint + DNS tanto como de la base de datos.
Regiones, Zonas de disponibilidad y resiliencia
AWS se organiza en Regiones (áreas geográficas) y Zonas de disponibilidad (data centers separados dentro de una región). La idea es aislar fallos y permitir alta disponibilidad. Sin embargo, US-EAST-1 es una región crítica y muy utilizada; concentrar cargas allí sin alternativas aumenta el riesgo de “punto único de falla” si se producen incidentes regionales.
Buenas prácticas: distribuir cargas entre múltiples zonas y, cuando el negocio lo requiera, multi-región para evitar que un fallo regional detenga todo el servicio.
DynamoDB, DNS y dependencia en cadena
Amazon DynamoDB es una base de datos NoSQL totalmente gestionada. Las aplicaciones consumen sus APIs por endpoints que, como cualquier servicio en Internet, dependen del DNS para traducir nombres a direcciones IP. Si el DNS falla o se degrada, el cliente no llega al servicio aunque el backend esté sano, provocando efectos dominó. Esto fue clave en la interrupción del día 20.
Lecciones para equipos de TI (y cómo Proredes puede ayudarte)
Arquitectura de alta disponibilidad real (multi-zona y multi-región)
- No dependas de una sola región si el RTO/RPO del negocio es exigente.
- Usa replicación multi-región para datos críticos (por ejemplo, tablas globales en DynamoDB o réplicas entre regiones en tu base de datos elegida).
- Diseña failover automatizado con health checks y enrutamiento inteligente (p. ej., Route 53, balanceadores multi-región, o soluciones de terceros).
Estas prácticas habrían limitado el blast radius de un incidente acotado a US-EAST-1.
Las AZ de una Región están unidas por redes de alta capacidad y baja latencia. Sobre esta malla, AWS ofrece VPC (redes virtuales privadas), subredes, balanceadores, gateways y peering. El tráfico intra-Región suele ser rápido y relativamente predecible; el inter-Región introduce más latencia. Cuando diseñamos resiliencia, definimos qué partes del sistema pueden tolerar ese salto de latencia si activamos failover multi-Región.
Degradación controlada en lugar de “todo o nada”
- Identifica funcionalidades esenciales y opcionales: si la base de datos de recomendaciones falla, que el carrito de compras siga funcionando.
- Implementa circuit breakers, colas y retentativas con backoff exponencial.
- Mantén modo lectura o cachés de solo-lectura para sobrevivir a fallas transitorias de escritura.
Observabilidad y monitoreo del proveedor
- Monitorea latencia, tasa de errores, timeouts y saturación de tus servicios y de los servicios gestionados que consumes.
- Correlaciona tus métricas con el AWS Health Dashboard y con alertas de terceros para detectar pronto incidentes externos y diferenciar “fallo interno” vs “fallo del proveedor”.
- Configura alertas proactivas (p. ej., “picos de 5xx en endpoints críticos” o “aumento súbito de errores DNS”).
Comunicación y gestión de incidentes
- Establece un playbook: quién lidera, quién comunica, SLA de actualización (cada 30–60 min), canales (Status Page, email, Slack/Teams, redes).
- Sé transparente con usuarios internos y clientes: “hay una incidencia en proveedor X en región Y; habilitamos mitigaciones”. La transparencia construye confianza.
- Documenta lecciones aprendidas para ajustes de arquitectura y procedimientos.
¿Por qué este incidente importa más allá de AWS?
El evento volvió a demostrar que gran parte de Internet depende de pocos proveedores y de servicios internos “invisibles” (DNS, bases de metadatos, orquestadores). Cuando uno de esos “eslabones” falla en un hub tan grande como US-EAST-1, el efecto cascada se siente en todo el mundo y en múltiples industrias. Diversificar y diseñar para fallas es un imperativo, no un lujo.
Para América Latina y Chile, donde muchas compañías consumen SaaS y PaaS globales, estos aprendizajes son directamente aplicables: audita dependencias, define umbrales de resiliencia por proceso de negocio y prueba los planes de continuidad con simulacros regulares.
Recomendaciones prácticas accionables (resumen tipo checklist)
Arquitectura
- Inventario de servicios gestionados críticos y sus dependencias (incluye DNS, colas, cachés, identidades).
- Multi-AZ por defecto; multi-región donde el negocio lo requiera.
- Separación de blast radius por dominio funcional (microservicios con límites claros).
Datos
- Replicación asíncrona/síncrona según RPO.
- Cachés y read replicas para continuidad de lectura.
- Estrategias de backfill post-incidente.
Tráfico
- DNS con políticas de enrutamiento (latency/geo/weighted) y health checks.
- Balanceadores globales y CDN para absorber picos y reducir latencia.
Operación
- Runbooks y simulacros (GameDays/Chaos Engineering).
- Telemetría unificada (logs, traces, métricas) y alertas vinculadas al AWS Health Dashboard y fuentes de terceros.
- Post-mortems sin culpables, con acciones y vencimientos.
Conclusión
La caída del 20/10/2025 evidencia algo claro: no basta con “estar en la nube”, hay que diseñar para fallar. DNS, bases de datos gestionadas y regiones hiper-concentradas pueden convertirse en cuellos de botella globales. La buena noticia es que las prácticas de resiliencia —multi-región, degradación controlada, observabilidad y runbooks— reducen drásticamente el impacto.
Si deseas revisar tu arquitectura o preparar un plan de continuidad que combine nube y on-premise, agenda una evaluación con Proredes. Optimizamos según tus SLA, presupuesto y realidad operativa.
¿Dónde entra Proredes?
Cuando ocurre una interrupción global como la que afectó a AWS el 20 de octubre de 2025, muchas organizaciones descubren que dependen en exceso de un único proveedor. La lección principal es que la resiliencia no se logra solo con tecnología en la nube, sino con una estrategia integral de continuidad.
En Proredes acompañamos a equipos de TI a diseñar y operar plataformas robustas que combinan lo mejor de la nube corporativa y los entornos on-premise. Nuestros servicios incluyen infraestructura y servidores administrados con alta disponibilidad, soporte técnico 24/7, soluciones de ciberseguridad y planes de continuidad operativa (DR/BCP) que minimizan el impacto de incidentes externos.
De esta forma, incluso frente a caídas masivas en proveedores globales, tu negocio puede seguir funcionando y mantener el control sobre sus servicios críticos.