Rapport d’incident GCP du 2025-06-12

roxie · 2025-06-15T03:00:39+09:00

Service Control : l’un des modules centraux utilisés par les API de Google et de Google Cloud Le 2025-05-29, une nouvelle fonctionnalité a été déployée dans Service Control. Elle servait à vérifier de nouvelles règles. Le 2025-06-12, le problème a commencé avec l’ajout d’une nouvelle règle : boucle de crash* due à un null pointer il n’y avait pas de feature flag. Cependant, le red button d’arrêt d’urgence a été activé dans de grandes régions comme us-central-1, cette action a provoqué un herd effect* sur les services internes qui en dépendaient, car la stratégie de randomized exponential backoff** n’était pas implémentée Cela signifie qu’un très grand volume de trafic est arrivé d’un seul coup. ** Technique utilisée pour éviter la surcharge de trafic.

(status.cloud.google.com)

7 points par roxie 2025-06-15 | 5 commentaires | Partager sur WhatsApp

Service Control : l’un des modules centraux utilisés par les API de Google et de Google Cloud
- Le 2025-05-29, une nouvelle fonctionnalité a été déployée dans Service Control. Elle servait à vérifier de nouvelles règles.
- Le 2025-06-12, le problème a commencé avec l’ajout d’une nouvelle règle :
  - boucle de crash* due à un null pointer
  - il n’y avait pas de feature flag. Cependant, le red button d’arrêt d’urgence a été activé
  - dans de grandes régions comme us-central-1, cette action a provoqué un herd effect* sur les services internes qui en dépendaient, car la stratégie de randomized exponential backoff** n’était pas implémentée

Cela signifie qu’un très grand volume de trafic est arrivé d’un seul coup.
** Technique utilisée pour éviter la surcharge de trafic.

5 commentaires

kunggom 2025-06-16

Un article traitant du même rapport a aussi été publié sur GN+.

https://fr.news.hada.io/topic?id=21473

kunggom 2025-06-16

Même chez un acteur aussi énorme que Google, il semble qu’il y ait encore du code un peu partout où même une mesure de base comme l’ajout de jitter lors du traitement des nouvelles tentatives n’a pas été appliquée.
J’imagine que, comme ce problème ne s’était sans doute jamais manifesté auparavant, ils l’ont laissé tel quel ; au fond, même dans les très grandes entreprises, on évite aussi de toucher à un code qui fonctionne bien.

roxie 2025-06-15

En le revoyant maintenant, je constate que la mise en forme est un peu cassée. Les deux dernières lignes sont respectivement des annotations sur la boucle de crash et le randomized exponential backoff.

regentag 2025-06-15

Est-ce lié à l’incident mentionné dans le billet sur la panne d’Internet d’il y a quelques jours ?

roxie 2025-06-15

Oui, c’est bien de cette panne qu’il s’agit.

Rapport d’incident GCP du 2025-06-12

À lire aussi

5 commentaires