15 points par xguru 2021-10-06 | 2 commentaires | Partager sur WhatsApp
  • Article de CloudFlare analysant de l’extérieur la raison pour laquelle les services liés à Facebook étaient inaccessibles le 4/10

  • L’échec commençait dès la résolution DNS, et les connexions IP vers toute l’infrastructure liée à Facebook étaient coupées

  • Selon l’annonce officielle de Facebook :

→ « Un problème est survenu lors d’une modification de la configuration des routeurs backbone qui coordonnent le trafic réseau entre les data centers. Cela a eu un effet en cascade sur la connectivité entre les data centers, entraînant l’interruption des services »

→ Les serveurs DNS s’annoncent généralement via BGP, mais les serveurs DNS de Facebook étaient configurés pour désactiver BGP s’ils perdaient la connexion avec les data centers de Facebook

→ Quand le backbone des data centers a été coupé, les requêtes BGP ont été rejetées, rendant les serveurs DNS inaccessibles

→ C’est ce qui a rendu tous les serveurs de Facebook injoignables

→ L’accès même aux data centers étant devenu difficile, les ingénieurs ont dû se déplacer sur site pour résoudre le problème

  • Le problème s’est produit comme si quelqu’un avait débranché le câble Internet du data center de Facebook

  • Ce n’était pas un problème de DNS, mais les erreurs DNS ont été le premier symptôme de cette panne massive

  • BGP (Border Gateway Protocol)

→ Mécanisme par lequel les AS (Autonomous Systems) d’Internet échangent des informations de routage

→ Les grands routeurs se partagent en continu les informations de routage pour gérer l’acheminement jusqu’à la destination finale

→ Si Facebook n’annonce pas sa présence sur le réseau (advertising), il devient impossible d’y accéder

→ Chaque réseau possède un ASN (Number) et annonce les préfixes des IP qu’il gère

  • À partir de 15:40 UTC le 4/10, Facebook a cessé d’annoncer ses préfixes DNS

→ Comme l’a expliqué Facebook plus haut, l’absence d’annonces BGP a rendu l’accès impossible

→ Cela a modifié le routage et entraîné des mises à jour BGP à grande échelle

→ Tous les serveurs DNS ont commencé à renvoyer SERVFAIL pour les URL de Facebook

→ Les requêtes DNS ont commencé à augmenter de 30x

→ Les requêtes DNS vers Twitter, Signal et Telegram ont aussi augmenté

  • À 21:00 UTC, BGP a de nouveau été mis à jour et tout est revenu à la normale

2 commentaires

 
roxie 2021-10-06

Cinq heures de panne chez Facebook… c’était vraiment un énorme incident.

 
xguru 2021-10-06