Mise à jour du rapport sur l’incident Google #20013 (2020/12/14)
(status.cloud.google.com)Mise à jour du 18/12/2020 (ajout de la cause et des mesures de réponse)
#ROOT CAUSE
Depuis octobre dernier, Google avait introduit un nouveau système automatique d’allocation du stockage pour le service d’identifiants utilisateur. Certains services utilisaient encore l’ancien système de quotas et avaient un problème qui faisait remonter une utilisation à 0. Le fait que cette valeur de 0 n’ait pas eu d’effet immédiat venait du temps d’expiration restant ; une fois ce délai expiré, une réduction du quota du service User ID a provoqué l’incident. Il existait bien des contrôles de sécurité destinés à valider les modifications de quotas non intentionnelles, mais ils ne couvraient pas le scénario où la valeur était 0.
Le quota de la base de données des comptes a été réduit, ce qui a empêché les écritures du leader Paxos, puis la plupart des opérations de lecture ont expiré, provoquant des erreurs lors des requêtes d’authentification.
#REMEDIATION AND PREVENTION
-
Revue de l’automatisation de la gestion des quotas afin d’empêcher le déploiement trop rapide de modifications globales
-
Amélioration du monitoring et des alertes pour détecter rapidement les configurations incorrectes
-
Renforcement de la fiabilité des outils et des processus de communication externe en cas d’incident provoqué par des outils internes
-
Mise en place d’une résilience face aux erreurs d’écriture sur la base de données du service User ID
-
Amélioration de la résilience des services GCP en limitant strictement l’impact sur les zones de données en cas de défaillance du service User ID
- Un rapport détaillé sur l’incident du 14 décembre a été mis à jour, et j’en ai fait une traduction rapide en le lisant. S’il y a des erreurs, n’hésitez pas à me le signaler. Et comme je lis toujours GeekNews avec plaisir, si je tombe sur d’autres incidents intéressants, j’essaierai de les partager.
Aucun commentaire pour le moment.