- Du 2 au 4 novembre 2023, le plan de contrôle et les services d’analyse de Cloudflare ont subi une panne.
- Le plan de contrôle comprend principalement les interfaces orientées client des services Cloudflare, tandis que les services d’analyse incluent la journalisation et les rapports analytiques.
- L’incident a été provoqué par une panne d’alimentation dans le centre de données Flexential, qui héberge une part essentielle du plus grand cluster d’analyse de Cloudflare ainsi que de son cluster haute disponibilité.
- Bien que des systèmes haute disponibilité aient été mis en place pour éviter ce type d’interruption, certains systèmes critiques avaient des dépendances non publiques qui les ont rendus indisponibles pendant l’incident.
- Le plan de contrôle et les systèmes d’analyse de Cloudflare fonctionnent principalement dans trois centres de données autour de Hillsboro, dans l’Oregon, conçus pour fonctionner indépendamment et continuer à opérer même si l’un d’eux devient hors ligne.
- Cette panne a mis en évidence que certains services, en particulier les plus récents, n’avaient pas encore été ajoutés au cluster haute disponibilité, et que le système de journalisation ne faisait pas partie de ce cluster.
- La panne d’alimentation du centre de données Flexential a été causée par un événement de maintenance non planifié affectant les alimentations électriques indépendantes entrant dans le bâtiment, ce qui a provoqué un défaut de mise à la terre sur un transformateur.
- Cloudflare a pu restaurer la majeure partie du plan de contrôle depuis son site de reprise après sinistre, et une fois ce site revenu en ligne, la plupart des clients n’auraient plus dû rencontrer de problèmes sur la majorité des produits.
- Cependant, d’autres services ont nécessité plus de temps pour être restaurés, et les clients qui les utilisaient ont pu continuer à rencontrer des problèmes jusqu’à la résolution complète de l’incident.
- Cloudflare met en œuvre des changements à la lumière des enseignements tirés de l’incident, notamment la suppression des dépendances à des centres de données critiques, la garantie que les fonctions du plan de contrôle continuent même si tous les centres de données critiques deviennent indisponibles, et l’exigence que tous les produits et fonctionnalités dépendent du cluster haute disponibilité et disposent d’un plan de reprise après sinistre fiable.
- L’entreprise mène également des tests de chaos plus stricts sur toutes les fonctions des centres de données, audite tous les centres de données critiques et développe un plan de reprise après sinistre pour la journalisation et l’analyse.
1 commentaires
Commentaire Hacker News