Comprendre comment Facebook a disparu le 4/10

xguru · 2021-10-06T11:18:00+09:00

Article de CloudFlare analysant de l’extérieur la raison pour laquelle les services liés à Facebook étaient inaccessibles le 4/10 L’échec commençait dès la résolution DNS, et les connexions IP vers toute l’infrastructure liée à Facebook étaient coupées Selon l’annonce officielle de Facebook : → « Un problème est survenu lors d’une modification de la configuration des routeurs backbone qui coordonnent le trafic réseau entre les data centers. Cela a eu un effet en cascade sur la connectivité entre les data centers, entraînant l’interruption des services » → Les serveurs DNS s’annoncent généralement via BGP, mais les serveurs DNS de Facebook étaient configurés pour désactiver BGP s’ils perdaient la connexion avec les data centers de Facebook → Quand le backbone des data centers a été coupé, les requêtes BGP ont été rejetées, rendant les serveurs DNS inaccessibles → C’est ce qui a rendu tous les serveurs de Facebook injoignables → L’accès même aux data centers étant devenu difficile, les ingénieurs ont dû se déplacer sur site pour résoudre le problème Le problème s’est produit comme si quelqu’un avait débranché le câble Internet du data center de Facebook Ce n’était pas un problème de DNS, mais les erreurs DNS ont été le premier symptôme de cette panne massive BGP (Border Gateway Protocol) → Mécanisme par lequel les AS (Autonomous Systems) d’Internet échangent des informations de routage → Les grands routeurs se partagent en continu les informations de routage pour gérer l’acheminement jusqu’à la destination finale → Si Facebook n’annonce pas sa présence sur le réseau (advertising), il devient impossible d’y accéder → Chaque réseau possède un ASN (Number) et annonce les préfixes des IP qu’il gère À partir de 15:40 UTC le 4/10, Facebook a cessé d’annoncer ses préfixes DNS → Comme l’a expliqué Facebook plus haut, l’absence d’annonces BGP a rendu l’accès impossible → Cela a modifié le routage et entraîné des mises à jour BGP à grande échelle → Tous les serveurs DNS ont commencé à renvoyer SERVFAIL pour les URL de Facebook → Les requêtes DNS ont commencé à augmenter de 30x → Les requêtes DNS vers Twitter, Signal et Telegram ont aussi augmenté À 21:00 UTC, BGP a de nouveau été mis à jour et tout est revenu à la normale

(blog.cloudflare.com)

15 points par xguru 2021-10-06 | 2 commentaires | Partager sur WhatsApp

Article de CloudFlare analysant de l’extérieur la raison pour laquelle les services liés à Facebook étaient inaccessibles le 4/10
L’échec commençait dès la résolution DNS, et les connexions IP vers toute l’infrastructure liée à Facebook étaient coupées
Selon l’annonce officielle de Facebook :

→ « Un problème est survenu lors d’une modification de la configuration des routeurs backbone qui coordonnent le trafic réseau entre les data centers. Cela a eu un effet en cascade sur la connectivité entre les data centers, entraînant l’interruption des services »

→ Les serveurs DNS s’annoncent généralement via BGP, mais les serveurs DNS de Facebook étaient configurés pour désactiver BGP s’ils perdaient la connexion avec les data centers de Facebook

→ Quand le backbone des data centers a été coupé, les requêtes BGP ont été rejetées, rendant les serveurs DNS inaccessibles

→ C’est ce qui a rendu tous les serveurs de Facebook injoignables

→ L’accès même aux data centers étant devenu difficile, les ingénieurs ont dû se déplacer sur site pour résoudre le problème

Le problème s’est produit comme si quelqu’un avait débranché le câble Internet du data center de Facebook
Ce n’était pas un problème de DNS, mais les erreurs DNS ont été le premier symptôme de cette panne massive
BGP (Border Gateway Protocol)

→ Mécanisme par lequel les AS (Autonomous Systems) d’Internet échangent des informations de routage

→ Les grands routeurs se partagent en continu les informations de routage pour gérer l’acheminement jusqu’à la destination finale

→ Si Facebook n’annonce pas sa présence sur le réseau (advertising), il devient impossible d’y accéder

→ Chaque réseau possède un ASN (Number) et annonce les préfixes des IP qu’il gère

À partir de 15:40 UTC le 4/10, Facebook a cessé d’annoncer ses préfixes DNS

→ Comme l’a expliqué Facebook plus haut, l’absence d’annonces BGP a rendu l’accès impossible

→ Cela a modifié le routage et entraîné des mises à jour BGP à grande échelle

→ Tous les serveurs DNS ont commencé à renvoyer SERVFAIL pour les URL de Facebook

→ Les requêtes DNS ont commencé à augmenter de 30x

→ Les requêtes DNS vers Twitter, Signal et Telegram ont aussi augmenté

À 21:00 UTC, BGP a de nouveau été mis à jour et tout est revenu à la normale

2 commentaires

roxie 2021-10-06

Cinq heures de panne chez Facebook… c’était vraiment un énorme incident.

xguru 2021-10-06

BGP est-il sûr ? https://fr.news.hada.io/topic?id=1932
Analyse de la panne Internet de CenturyLink/Level(3) du 30 août https://fr.news.hada.io/topic?id=2746

Comprendre comment Facebook a disparu le 4/10

À lire aussi

2 commentaires