Rapport d’incident GCP du 2025-06-12
(status.cloud.google.com)- Service Control : l’un des modules centraux utilisés par les API de Google et de Google Cloud
- Le 2025-05-29, une nouvelle fonctionnalité a été déployée dans Service Control. Elle servait à vérifier de nouvelles règles.
- Le 2025-06-12, le problème a commencé avec l’ajout d’une nouvelle règle :
- boucle de crash* due à un
null pointer - il n’y avait pas de feature flag. Cependant, le red button d’arrêt d’urgence a été activé
- dans de grandes régions comme us-central-1, cette action a provoqué un herd effect* sur les services internes qui en dépendaient, car la stratégie de randomized exponential backoff** n’était pas implémentée
- boucle de crash* due à un
- Cela signifie qu’un très grand volume de trafic est arrivé d’un seul coup.
** Technique utilisée pour éviter la surcharge de trafic.
5 commentaires
Un article traitant du même rapport a aussi été publié sur GN+.
Même chez un acteur aussi énorme que Google, il semble qu’il y ait encore du code un peu partout où même une mesure de base comme l’ajout de jitter lors du traitement des nouvelles tentatives n’a pas été appliquée.
J’imagine que, comme ce problème ne s’était sans doute jamais manifesté auparavant, ils l’ont laissé tel quel ; au fond, même dans les très grandes entreprises, on évite aussi de toucher à un code qui fonctionne bien.
En le revoyant maintenant, je constate que la mise en forme est un peu cassée. Les deux dernières lignes sont respectivement des annotations sur la boucle de crash et le randomized exponential backoff.
Est-ce lié à l’incident mentionné dans le billet sur la panne d’Internet d’il y a quelques jours ?
Oui, c’est bien de cette panne qu’il s’agit.