Cloudflare: qué pasó, por qué importa y cómo proteger tu operación
El 18 de noviembre de 2025 (mañana del 18 en Chile), Cloudflare experimentó un incidente que interrumpió el acceso a servicios populares en todo el mundo. Sitios y apps mostraron errores 5xx por varias horas. No se trató de un ciberataque, sino de un problema interno que ya fue corregido por la compañía.
Publicado el 19 de Noviembre de 2025 por Proredes
Qué ocurrió realmente con Cloudflare
De acuerdo con el blog oficial, a las 11:20 UTC del 18/11/2025 se inició una falla en la red que generó errores visibles para los usuarios. El origen estuvo en un archivo de configuración (“feature file”) asociado a Bot Management que creció más de lo esperado tras un cambio de permisos en sistemas internos. Al propagarse, distintos servicios de Cloudflare fallaron en cadena. La empresa implementó un fix y reportó el incidente como contenido y resuelto ese mismo día.
¿Fue un ciberataque?
No. Diversas fuentes periodísticas y la propia Cloudflare lo confirman: no hubo actividad maliciosa. Fue un error de software/configuración que impactó a múltiples clientes, incluidos plataformas masivas y organismos públicos, evidenciando, una vez más, cuán interdependiente es hoy la infraestructura de Internet.
Por qué te debe importar aunque no uses términos técnicos
- Si tu sitio o tus APIs pasan por proveedores de red/CDN/WAF, eventos así pueden afectar tus ventas y experiencia de cliente aunque tu aplicación esté sana.
- Las interrupciones de terceros son un riesgo operativo que debe contemplarse en planes de continuidad operativa y alta disponibilidad.
Línea de tiempo sencilla del incidente de Cloudflare
- 11:20 UTC (18/11/25): comienzan las fallas de red en Cloudflare.
- Horas posteriores: errores 5xx y degradación de servicios en múltiples sitios; equipos de ingeniería aplican mitigaciones.
- Mismo día: Cloudflare comunica que el problema fue resuelto y mantiene monitoreo.
Estas marcas de tiempo (UTC) explican por qué algunas personas lo sintieron “antes” o “después” según su zona horaria.
Impacto visible (en palabras simples)
Medios como Reuters, Financial Times y AP reportaron afectaciones en redes sociales, asistentes de IA, e-commerce y servicios de transporte, entre otros. Esto no significa que esos servicios “fallaran por dentro”, sino que al enrutarse a través de Cloudflare parte de su tráfico encontró errores temporales.
Clave de negocio: dependencia y resiliencia
Tercerizar seguridad, caché y distribución de contenido a un proveedor global como Cloudflare acelera y protege, pero también centraliza riesgos: cuando se interrumpe el eslabón, se siente en toda la cadena. La solución no es “dejar de usar CDN/WAF”, sino diseñar para fallos con capas y planes B.
¿Y si vuelve a pasar?
La realidad es que volverá a pasar, no necesariamente con Cloudflare, sino con cualquier eslabón de la cadena digital. Por eso, el foco debe estar en tiempos de recuperación, comunicación con clientes y planes de continuidad operativa probados. Tener servicios profesionales IT integrados y a la medida acelera esa madurez sin sobredimensionar costos.
Fuentes y ampliación
- Cloudflare (post oficial del 18/11/2025): cronología, causa raíz y resolución (archivo de Bot Management que creció inesperadamente).
- Reuters: cobertura de alcance global y servicios afectados.
- AP News: lista de servicios impactados y recuperación declarada por la tarde (EST).
- Financial Times: confirmación de que no fue ciberataque y afectación a entidades públicas/privadas.
Preguntas frecuentes sobre Cloudflare e incidentes de continuidad operativa
¿Qué pasó con Cloudflare y por qué se habló tanto del incidente?
Hubo una falla interna que provocó errores temporales en múltiples servicios que usan Cloudflare. No fue un ciberataque, sino un problema técnico que la empresa corrigió. El interés se debe a que Cloudflare es un proveedor clave para miles de sitios.
¿Esto significa que mi empresa está en riesgo si usa Cloudflare?
Usar Cloudflare aporta seguridad y velocidad, pero como cualquier proveedor crítico, puede fallar. La clave es contar con planes de continuidad operativa y rutas alternativas.
¿Cloudflare es seguro después del incidente?
Sí. El proveedor aplicó correcciones y monitoreo. Ninguna plataforma está libre de fallas, por eso se recomienda diseñar para la resiliencia.
¿Fue un ataque de hackers?
No. La causa fue interna. Los ataques existen, pero en este caso el incidente Cloudflare no se debió a actores maliciosos.
¿Cómo me afectaría una caída similar?
Pérdida de ventas, formularios que no cargan, tiempos de respuesta lentos y mala experiencia de cliente. El impacto depende del grado de dependencia del proveedor.
¿Mi equipo debe cambiarse de proveedor por esto?
No necesariamente. Evaluar riesgo, costo y beneficios. En muchos casos conviene mantener Cloudflare y agregar mecanismos de respaldo.
¿Cuál es el primer paso para estar mejor preparados?
Definir un plan simple de continuidad operativa con responsables, contactos, criterios de conmutación y un tablero de monitoreo externo.
¿Qué es “diseñar para fallos” en palabras simples?
Asumir que cualquier componente puede fallar y preparar caminos alternativos, mensajes a clientes y procesos de recuperación rápidos.
¿Necesito dos CDNs o dos WAFs?
Depende del negocio. Para servicios críticos, considerar un proveedor principal (por ejemplo, Cloudflare) y un camino de contingencia listo para activar.
¿Qué puedo monitorear sin ser técnico?
El estado público de tu proveedor, tiempos de carga de tu sitio, disponibilidad de páginas clave (home, login, checkout) y alertas por email o SMS.
¿Cómo comunico a clientes y directorio durante un incidente?
Mensaje breve: qué ocurre, qué servicios se ven afectados, acciones en curso, tiempos estimados de actualización y próximo parte.
¿Qué es un runbook y por qué lo necesito?
Es una guía paso a paso para incidentes: a quién llamar, qué validar, cómo conmutar, cómo comunicar. Ahorra tiempo cuando cada minuto cuenta.
¿Qué KPIs mirar tras un incidente Cloudflare?
Tiempo de detección, tiempo de recuperación (MTTR), conversión perdida, tickets generados y cumplimiento de SLA con proveedores.
¿Cómo saber si el problema es mío o del proveedor?
Con monitoreo externo (pruebas desde internet) y estado del proveedor. Si tu backend está sano pero el acceso falla, suele ser un tercero.
¿Qué es el “modo degradado” y cómo ayuda?
Permite mantener funciones esenciales (p. ej., catálogos o checkout básico) aunque se pierdan optimizaciones mientras el proveedor se recupera.
¿Puedo reducir el impacto en mi ecommerce?
Sí: tener caché de emergencia para páginas clave, una página de estatus propia y un proceso de conmutación rápido a la ruta de respaldo.
¿Qué rol juega el DNS en estas contingencias?
Permite redirigir tráfico a una ruta alternativa. Con failover automático y chequeos de salud, acelera la recuperación.
¿Cómo me ayuda Proredes en términos prácticos?
Evaluamos tu dependencia de terceros, definimos arquitectura de respaldo, automatizamos alertas y acompañamos la respuesta con un equipo 24/7.
¿Cada cuánto debo hacer simulacros?
Trimestralmente es un buen comienzo. Lo importante es medir resultados y mejorar el plan de continuidad operativa tras cada ejercicio.
¿Qué costo tiene prepararse para esto?
Menor que el costo de una caída real. Se puede empezar con acciones de bajo esfuerzo y crecer según el riesgo del negocio.
Glosario de términos relacionados con Cloudflare y continuidad operativa
Cloudflare
Proveedor global que acelera y protege sitios web y APIs con red de entrega de contenido, seguridad y servicios de borde.
Incidente Cloudflare
Falla puntual en servicios de Cloudflare que impacta a clientes que enrutan su tráfico a través de su plataforma.
Continuidad operativa
Capacidad de una organización para mantener operaciones esenciales durante y después de una interrupción.
Alta disponibilidad
Diseño que reduce tiempos de inactividad mediante redundancia y conmutación rápida entre componentes.
CDN (Content Delivery Network)
Red de servidores distribuidos que entrega contenido más rápido y cercano a los usuarios.
WAF (Web Application Firewall)
Servicio que filtra y protege aplicaciones web frente a tráfico malicioso y ataques comunes.
DNS
“Agenda” de internet que traduce nombres de dominio a direcciones. Permite enrutar y hacer failover.
Failover
Pasar automáticamente o bajo orden a una ruta o sistema de respaldo cuando el principal falla.
MTTR
Tiempo medio de recuperación: cuánto se tarda en volver a la normalidad tras un incidente.
SLA
Acuerdo de nivel de servicio que define tiempos de respuesta, disponibilidad y responsabilidades con un proveedor.
Monitoreo sintético
Pruebas automáticas que simulan usuarios reales para medir disponibilidad desde fuera de tu infraestructura.
APM
Monitoreo del rendimiento de aplicaciones para detectar cuellos de botella internos.
Modo degradado
Operación con funcionalidades esenciales mientras se resuelve la falla, priorizando experiencia mínima viable.
Runbook
Guía operativa con pasos claros para responder a incidentes y reducir tiempos de decisión.
Conmutación
Acción de mover tráfico o servicios desde la ruta principal a la alternativa.
Borde (edge)
Procesamiento cercano al usuario final para reducir latencia y mejorar rendimiento.
Alertas
Notificaciones automáticas que informan de cambios de estado o umbrales críticos.
Riesgo de terceros
Dependencia operativa de proveedores externos que, si fallan, afectan tu servicio.
Plan de continuidad
Documento que define estrategias, responsables, comunicación y procesos para sostener el negocio en una crisis.
Prueba de contingencia
Simulacro que valida que el plan, las herramientas y el equipo funcionen cuando ocurre un incidente real.