Comprendre comment Facebook a disparu le 4/10
(blog.cloudflare.com)-
Article de CloudFlare analysant de l’extérieur la raison pour laquelle les services liés à Facebook étaient inaccessibles le 4/10
-
L’échec commençait dès la résolution DNS, et les connexions IP vers toute l’infrastructure liée à Facebook étaient coupées
-
Selon l’annonce officielle de Facebook :
→ « Un problème est survenu lors d’une modification de la configuration des routeurs backbone qui coordonnent le trafic réseau entre les data centers. Cela a eu un effet en cascade sur la connectivité entre les data centers, entraînant l’interruption des services »
→ Les serveurs DNS s’annoncent généralement via BGP, mais les serveurs DNS de Facebook étaient configurés pour désactiver BGP s’ils perdaient la connexion avec les data centers de Facebook
→ Quand le backbone des data centers a été coupé, les requêtes BGP ont été rejetées, rendant les serveurs DNS inaccessibles
→ C’est ce qui a rendu tous les serveurs de Facebook injoignables
→ L’accès même aux data centers étant devenu difficile, les ingénieurs ont dû se déplacer sur site pour résoudre le problème
-
Le problème s’est produit comme si quelqu’un avait débranché le câble Internet du data center de Facebook
-
Ce n’était pas un problème de DNS, mais les erreurs DNS ont été le premier symptôme de cette panne massive
-
BGP (Border Gateway Protocol)
→ Mécanisme par lequel les AS (Autonomous Systems) d’Internet échangent des informations de routage
→ Les grands routeurs se partagent en continu les informations de routage pour gérer l’acheminement jusqu’à la destination finale
→ Si Facebook n’annonce pas sa présence sur le réseau (advertising), il devient impossible d’y accéder
→ Chaque réseau possède un ASN (Number) et annonce les préfixes des IP qu’il gère
- À partir de 15:40 UTC le 4/10, Facebook a cessé d’annoncer ses préfixes DNS
→ Comme l’a expliqué Facebook plus haut, l’absence d’annonces BGP a rendu l’accès impossible
→ Cela a modifié le routage et entraîné des mises à jour BGP à grande échelle
→ Tous les serveurs DNS ont commencé à renvoyer SERVFAIL pour les URL de Facebook
→ Les requêtes DNS ont commencé à augmenter de 30x
→ Les requêtes DNS vers Twitter, Signal et Telegram ont aussi augmenté
- À 21:00 UTC, BGP a de nouveau été mis à jour et tout est revenu à la normale
2 commentaires
Cinq heures de panne chez Facebook… c’était vraiment un énorme incident.
BGP est-il sûr ? https://fr.news.hada.io/topic?id=1932
Analyse de la panne Internet de CenturyLink/Level(3) du 30 août https://fr.news.hada.io/topic?id=2746