2 points par GN⁺ 2023-11-05 | 1 commentaires | Partager sur WhatsApp
  • Du 2 au 4 novembre 2023, le plan de contrôle et les services d’analyse de Cloudflare ont subi une panne.
  • Le plan de contrôle comprend principalement les interfaces orientées client des services Cloudflare, tandis que les services d’analyse incluent la journalisation et les rapports analytiques.
  • L’incident a été provoqué par une panne d’alimentation dans le centre de données Flexential, qui héberge une part essentielle du plus grand cluster d’analyse de Cloudflare ainsi que de son cluster haute disponibilité.
  • Bien que des systèmes haute disponibilité aient été mis en place pour éviter ce type d’interruption, certains systèmes critiques avaient des dépendances non publiques qui les ont rendus indisponibles pendant l’incident.
  • Le plan de contrôle et les systèmes d’analyse de Cloudflare fonctionnent principalement dans trois centres de données autour de Hillsboro, dans l’Oregon, conçus pour fonctionner indépendamment et continuer à opérer même si l’un d’eux devient hors ligne.
  • Cette panne a mis en évidence que certains services, en particulier les plus récents, n’avaient pas encore été ajoutés au cluster haute disponibilité, et que le système de journalisation ne faisait pas partie de ce cluster.
  • La panne d’alimentation du centre de données Flexential a été causée par un événement de maintenance non planifié affectant les alimentations électriques indépendantes entrant dans le bâtiment, ce qui a provoqué un défaut de mise à la terre sur un transformateur.
  • Cloudflare a pu restaurer la majeure partie du plan de contrôle depuis son site de reprise après sinistre, et une fois ce site revenu en ligne, la plupart des clients n’auraient plus dû rencontrer de problèmes sur la majorité des produits.
  • Cependant, d’autres services ont nécessité plus de temps pour être restaurés, et les clients qui les utilisaient ont pu continuer à rencontrer des problèmes jusqu’à la résolution complète de l’incident.
  • Cloudflare met en œuvre des changements à la lumière des enseignements tirés de l’incident, notamment la suppression des dépendances à des centres de données critiques, la garantie que les fonctions du plan de contrôle continuent même si tous les centres de données critiques deviennent indisponibles, et l’exigence que tous les produits et fonctionnalités dépendent du cluster haute disponibilité et disposent d’un plan de reprise après sinistre fiable.
  • L’entreprise mène également des tests de chaos plus stricts sur toutes les fonctions des centres de données, audite tous les centres de données critiques et développe un plan de reprise après sinistre pour la journalisation et l’analyse.

1 commentaires

 
GN⁺ 2023-11-05
Commentaire Hacker News
  • Un article sur une panne majeure de Cloudflare, que l’entreprise attribue à une coupure de courant dans un centre de données exploité par le fournisseur Flexential.
  • Certains commentateurs critiquent Cloudflare pour avoir rejeté la faute sur Flexential et divulgué des informations confidentielles sur le fournisseur.
  • La cause profonde de la panne était la dépendance de Cloudflare à un seul centre de données, ce que certains commentateurs jugent honteux pour la réputation de Cloudflare.
  • Le processus de reprise a duré plus longtemps que la panne elle-même, certains services ayant mis environ 30 heures à être entièrement rétablis, car de nombreux services dépendaient les uns des autres.
  • Certains commentateurs expriment leur mécontentement face à la communication de Cloudflare pendant la panne, en particulier du point de vue des clients entreprises.
  • Malgré les problèmes, certains commentateurs saluent la transparence de Cloudflare et le caractère approfondi du rapport post-mortem.
  • Certains commentateurs font part de leurs inquiétudes concernant les défaillances de redondance chez Cloudflare et le manque de répartition géographique du control plane.
  • Les commentateurs reprochent également à Cloudflare de ne pas avoir placé tous les services dans des clusters haute disponibilité et de ne pas avoir testé tous les scénarios possibles de coupure électrique.
  • Certains commentateurs saluent l’attention portée au facteur humain dans le rapport, qui reconnaît la nécessité de faire des pauses pour éviter des erreurs supplémentaires pendant la reprise.
  • Les commentateurs soulignent aussi l’importance de pouvoir redémarrer un centre de données à partir d’un état totalement hors ligne et critiquent Cloudflare pour ne pas avoir testé ce scénario.
  • Certains commentateurs se disent surpris par la structure de l’article, dont la majeure partie traite du fournisseur tiers plutôt que des propres efforts de reprise de Cloudflare.