7 points par roxie 2025-06-15 | 5 commentaires | Partager sur WhatsApp
  • Service Control : l’un des modules centraux utilisés par les API de Google et de Google Cloud
    • Le 2025-05-29, une nouvelle fonctionnalité a été déployée dans Service Control. Elle servait à vérifier de nouvelles règles.
    • Le 2025-06-12, le problème a commencé avec l’ajout d’une nouvelle règle :
      • boucle de crash* due à un null pointer
      • il n’y avait pas de feature flag. Cependant, le red button d’arrêt d’urgence a été activé
      • dans de grandes régions comme us-central-1, cette action a provoqué un herd effect* sur les services internes qui en dépendaient, car la stratégie de randomized exponential backoff** n’était pas implémentée
  • Cela signifie qu’un très grand volume de trafic est arrivé d’un seul coup.
    ** Technique utilisée pour éviter la surcharge de trafic.

5 commentaires

 
kunggom 2025-06-16

Un article traitant du même rapport a aussi été publié sur GN+.

 
kunggom 2025-06-16

Même chez un acteur aussi énorme que Google, il semble qu’il y ait encore du code un peu partout où même une mesure de base comme l’ajout de jitter lors du traitement des nouvelles tentatives n’a pas été appliquée.
J’imagine que, comme ce problème ne s’était sans doute jamais manifesté auparavant, ils l’ont laissé tel quel ; au fond, même dans les très grandes entreprises, on évite aussi de toucher à un code qui fonctionne bien.

 
roxie 2025-06-15

En le revoyant maintenant, je constate que la mise en forme est un peu cassée. Les deux dernières lignes sont respectivement des annotations sur la boucle de crash et le randomized exponential backoff.

 
regentag 2025-06-15

Est-ce lié à l’incident mentionné dans le billet sur la panne d’Internet d’il y a quelques jours ?

 
roxie 2025-06-15

Oui, c’est bien de cette panne qu’il s’agit.