- Une dégradation des performances des services internes a touché le réseau mondial de Cloudflare, affectant par intermittence plusieurs services
- Des services majeurs comme Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers ont subi une panne temporaire
- L’équipe d’ingénierie a identifié le problème et lancé les correctifs, tandis que les services WARP et Access ont été rétablis en premier
- Ensuite, le taux d’erreur et la latence sont progressivement revenus à des niveaux normaux à l’échelle mondiale, et le service Dashboard a également été restauré
- Tous les services fonctionnent désormais normalement, et l’incident est entièrement résolu
Aperçu de l’incident
- Cloudflare a subi une dégradation des services internes (Internal Service Degradation), provoquant des interruptions intermittentes de certains services
- Les services affectés incluaient notamment Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers
- L’entreprise a immédiatement lancé les travaux de rétablissement et a continué à publier des mises à jour sur l’avancement de la résolution
Identification du problème et réponse initiale
- Cloudflare a confirmé une dégradation des services internes pendant la phase Investigating
- Certains clients ont rencontré des erreurs intermittentes et de la latence
- L’équipe d’ingénierie a mené en parallèle l’analyse de la cause et les opérations de rétablissement
- L’entreprise a ensuite identifié la cause du problème (Identified) et commencé à déployer les correctifs
- Pendant cette phase, l’accès WARP dans la région de Londres a été temporairement désactivé, et les utilisateurs de cette zone ont subi des échecs de connexion à Internet
Progression du rétablissement des services
- Après le déploiement des correctifs, les services Access et WARP ont été rétablis en premier, ramenant le taux d’erreur à son niveau d’avant l’incident
- L’accès WARP dans la région de Londres a été réactivé
- Les travaux de restauration des services pour les clients d’Application Services ont ensuite continué
- Des modifications ont été déployées pour restaurer le service Dashboard
- Certains clients rencontraient encore des problèmes de connexion ou d’utilisation du Dashboard, mais ceux-ci ont été résolus par des correctifs supplémentaires
Stabilisation de l’ensemble du réseau
- À l’échelle mondiale, le taux d’erreur et la latence ont progressivement diminué jusqu’à revenir à des niveaux normaux
- Le calcul des scores de Bot Management (bot scores) a été temporairement affecté, puis normalisé au cours du rétablissement
- L’équipe d’ingénierie a éliminé les erreurs restantes et accéléré le rétablissement de l’ensemble du réseau
- Par la suite, tous les services ont recommencé à fonctionner normalement, avec un taux d’erreur et une latence entièrement revenus à la normale
Clôture de l’incident et suites
- Cloudflare a confirmé que tous les services fonctionnent normalement et a clos l’incident
- Il n’y a actuellement aucun changement de configuration supplémentaire, et la plateforme fait l’objet d’une surveillance étroite
- Une enquête post-incident (post-incident investigation) sur la cause de la panne est en cours, et ses résultats seront publiés ultérieurement
- Cette panne est enregistrée comme un incident ayant affecté l’ensemble du réseau mondial
1 commentaires
Avis Hacker News
Quelqu’un a partagé une commande permettant de désactiver le proxy CF si l’on dispose d’un token API Cloudflare
Avec
curl, il suffit de récupérer l’ID de zone et les enregistrements DNS, puis d’envoyer une requêtePATCHavec"proxied": falseAttention toutefois au risque de perte de certificat SSL, de dégradation de la sécurité/des performances et d’exposition de l’IP du backend
X-Auth-EmailetX-Auth-KeyEt si vous avez configuré votre système pour n’autoriser que le trafic Cloudflare, il faut aussi désactiver temporairement cette règle
Heureusement, tout est revenu en ligne maintenant
curl, les requêtes GET sont le comportement par défaut, donc-X GETest inutileSi on utilise l’option
-d, cela devient automatiquement un POST, et pour PATCH,-X PATCHest bien ce qu’il fautCela dit, même après le tunneling, certains sites restent partiellement hors service
D’après le CTO de Cloudflare, un bug latent dans le système de blocage des bots s’est emballé après un changement de configuration, provoquant une panne à l’échelle du réseau
Il a expliqué dans la source qu’il ne s’agissait pas d’une attaque, mais d’un problème interne
Le code comme la configuration ne sont que des données, et on voit sans cesse se répéter le même schéma de déploiements mondiaux d’un coup qui provoquent des pannes majeures
Un collègue a débarqué en courant en disant qu’il venait de modifier une configuration Cloudflare juste avant que le site ne tombe, et qu’il avait eu très peur d’en être la cause
Il a été soulagé en voyant ce post
Voir le message « Cloudflare down » m’a vraiment soulagé
Vérification faite depuis les Pays-Bas, presque tous les services étaient hors ligne
Le dashboard Cloudflare était inaccessible, tout comme celui de Betterstack
Ironiquement, la page de statut fonctionnait encore, ce qui rendait impossible toute communication aux clients
J’ai écrit ce billet de blog sur l’idée de ne pas mettre un site derrière Cloudflare si ce n’est pas nécessaire
Malgré tout, lors de ce genre de panne massive, les clients se montrent souvent plus compréhensifs qu’on ne l’imagine
Cela m’a pris quelques minutes, mais j’ai détaché hcker.news de CF
j’ai mis en bas de page un widget de disponibilité en temps réel relié à une page de statut externe
Voir le SVG de statut et la page de statut externe
Quand Cloudflare ou AWS tombent, il y a une certaine satisfaction à voir que mes services self-hosted continuent à fonctionner parfaitement
Leur disponibilité à 99,999 % est peut-être belle sur le papier, mais à cet instant précis, c’est moi qui suis le plus fiable
Je devrais peut-être lui ajouter un tracker d’uptime
Les jeunes entreprises SaaS devraient en tirer une leçon
Le fait que mon petit site tombe est à la fois ridicule et étrangement satisfaisant
Ces derniers temps, on a l’impression que les grandes pannes d’infrastructure se multiplient. AWS comme Cloudflare sont très loin de leurs SLA
Ce ne sont pas des mesures de disponibilité réelle, mais des chiffres définis arbitrairement par les entreprises
Le problème de centralisation est grave : quand Cloudflare ou AWS s’arrêtent, c’est la moitié du web qui s’arrête avec eux
C’est aussi pour cela que cette structure ne change pas
Il est difficile pour un petit CDN de rivaliser, ce qui finit par créer une forme de monopole naturel
La stratégie de Cloudflare avec son offre gratuite visait précisément cet effet de réseau
Elle pourrait aussi devenir une cible privilégiée pour la censure gouvernementale
Les deux tiers du web en dépendent, la durée de vie des certificats raccourcit, et en cas de piratage ou de panne, c’est l’ensemble du web qui pourrait être paralysé
L’organisation est aujourd’hui bienveillante, mais il ne faut pas oublier que Google aussi l’a longtemps été dans sa perception publique
Les sauvegardes au niveau logiciel sont nombreuses, mais la culture du multi-hébergement au niveau infrastructure a largement disparu
Ironiquement, DownDetector utilisait aussi Cloudflare Turnstile, et s’est donc retrouvé en panne lui aussi
Le message visuel d’excuse de Cloudflare — « Your browser: Working / Host: Working / Cloudflare: Error » — était marquant
Les sites qui utilisent Cloudflare Challenge (« I’m not a robot ») se sont eux aussi arrêtés avec des erreurs HTTP 500
Un message demandait de « débloquer challenges.cloudflare.com »
ou n’affichent qu’un écran de chargement infini. En réalité, le backend renvoie souvent une erreur claire que le frontend masque
J’ai même vu récemment un cas où une erreur disant que le mot de passe était trop long était affichée comme « e-mail déjà utilisé »
Situation ironique où l’on doit prouver à une IA qu’on est humain
Le déni sarcastique façon /s sur l’idée que le Captcha Cloudflare puisse tomber est assez drôle