Recientemente, los servicios de Google y Cloudflare enfrentaron una serie de interrupciones que afectaron a usuarios en todo el mundo. Aunque estos incidentes son preocupantes para cualquier empresa que dependa de la tecnología en la nube, también ofrecen una oportunidad para reflexionar sobre cómo podemos prepararnos mejor para futuros problemas. La caída, que comenzó en la tarde del jueves, fue inicialmente reportada como un problema global. A medida que la situación evolucionaba, las empresas comenzaron a preguntarse no solo qué había salido mal, sino qué servicios estaban funcionando correctamente.
Los detalles del incidente
Según Google, el problema en su plataforma de gestión de identidad y acceso tuvo un impacto en múltiples productos de GCP (Google Cloud Platform). El hecho de que este problema no solo afectara a usuarios en Estados Unidos, sino que también fuera global, subraya la interconexión de los servicios en la nube. A primera vista, no parecía ser un problema de internet, ya que no hubo reportes sobre fallos en el DNS (Sistema de Nombres de Dominio) o en el BGP (Protocolo de Puerta de Enlace Fronterizo). El tráfico de internet seguía fluyendo normalmente, lo que complicó la identificación de la raíz del problema.
Causas y soluciones
Google identificó el problema alrededor de las 3:41 p.m. ET, aunque la solución completa tomó más tiempo. El informe reveló que el origen de la caída fue una actualización automática de cuotas en su sistema de gestión de API, que fue distribuida de forma global y provocó el rechazo de solicitudes externas. Para mitigar el problema, se eludió la verificación de cuotas, lo que permitió la recuperación en la mayoría de las regiones en un par de horas. Sin embargo, la base de datos de políticas de cuotas en la región us-central1 se sobrecargó, causando demoras adicionales en esa área específica.
Impacto en Cloudflare y lecciones aprendidas
A pesar de que Google enfrentó la mayor parte de la carga, Cloudflare también experimentó fallos intermitentes en algunos de sus servicios que utilizaban Google Cloud. Un portavoz de Cloudflare aseguró que sus servicios principales no se vieron afectados y que esperaban una pronta recuperación. Este escenario resalta la importancia de diversificar proveedores de servicios en la nube. Para las empresas, depender de un solo proveedor puede ser arriesgado, y es recomendable explorar opciones de múltiple nube o soluciones híbridas. Esto no solo ayuda a distribuir riesgos, sino que también permite la recuperación rápida en caso de un fallo.
Preparación frente a futuras interrupciones
Es esencial que las empresas desarrollen un plan de recuperación ante desastres (DRP) que se active automáticamente en caso de que su proveedor principal de nube enfrente problemas. Esto puede incluir copias de seguridad en tiempo real de los datos o un sistema de failover completo. Si no hay experiencia técnica interna, hay compañías especializadas que pueden asistir en la implementación y gestión de un DRP, como CommVault o Druva. En un mundo donde la dependencia de servicios en la nube es cada vez mayor, es fundamental tener un plan que garantice la continuidad del negocio a pesar de las interrupciones.