Partage de détails sur un incident récent ayant affecté un client
Support client Google Cloud
- Plus tôt ce mois-ci, un incident Google Cloud a affecté le client australien UniSuper.
- Immédiatement après l’incident, la priorité absolue était de travailler avec le client pour restaurer complètement les systèmes.
- Peu après le début de l’incident, l’entreprise a publiquement reconnu l’incident dans une déclaration commune avec le client.
- Une fois les systèmes du client entièrement restaurés, l’examen interne a été achevé.
- Ces informations sont publiées afin de clarifier la nature de l’incident et de fournir une explication précise dans un souci de transparence.
- Google Cloud a pris des mesures pour empêcher qu’un incident aussi spécifique et isolé ne se reproduise.
- L’impact de cet incident a été extrêmement décevant, et l’entreprise présente ses plus sincères excuses au client pour les désagréments causés.
Étendue de l’impact
Technologies et services affectés
- Cet incident a affecté les services gérés par Google suivants :
- Un client dans une région cloud.
- L’un des services Google Cloud utilisés par ce client : Google Cloud VMware Engine (GCVE).
- L’un des plusieurs clouds privés GCVE du client, réparti sur deux zones.
Éléments non affectés
- Cet incident n’a pas affecté les éléments suivants :
- Les autres services Google Cloud.
- Les autres clients utilisant GCVE ou d’autres services Google Cloud.
- Les autres clouds privés GCVE du client, son compte Google, son organisation, ses dossiers ou ses projets.
- Les sauvegardes de données du client stockées dans la même région (Google Cloud Storage).
Cause de l’incident
Résumé
- Lors du déploiement initial du cloud privé Google Cloud VMware Engine (GCVE) pour ce client, un opérateur Google a mal configuré le service GCVE via un outil interne. Cela s’est produit parce qu’un paramètre a été laissé vide.
- En conséquence, le cloud privé GCVE du client a été configuré avec une durée fixe, au terme de laquelle il était automatiquement supprimé.
- La cause de l’incident et le comportement du système ont été corrigés afin que cela ne puisse plus se reproduire.
- Cet incident n’a affecté aucun autre service Google Cloud en dehors d’un cloud privé GCVE de ce client.
- Aucun autre client n’a été affecté par cet incident.
Analyse détaillée
Déploiement via un processus d’exception
- Début 2023, un opérateur Google a utilisé un outil interne pour déployer l’un des clouds privés GCVE du client afin de répondre à une exigence spécifique de répartition de capacité.
- Cet outil interne de gestion de capacité a été abandonné au quatrième trimestre 2023 et est désormais entièrement automatisé, sans intervention humaine requise.
Comportement involontaire dû à un paramètre d’entrée vide
- L’opérateur Google a suivi les protocoles de contrôle internes.
- Cependant, lors de l’utilisation de l’outil interne pour provisionner le cloud privé du client, un paramètre d’entrée a été laissé vide.
- Le système a donc attribué à ce paramètre une valeur par défaut alors inconnue : une durée fixe d’un an.
- Une fois cette période d’un an arrivée à son terme, le cloud privé GCVE du client a été supprimé.
- Aucune notification n’a été envoyée au client, car la suppression résultait du fait qu’un opérateur Google avait laissé un paramètre vide en utilisant l’outil interne.
- Une suppression initiée par le client n’aurait eu lieu qu’après l’envoi d’une notification au client.
Restauration
- Pendant plusieurs jours, le client et les équipes Google ont collaboré 24 heures sur 24 pour restaurer le cloud privé GCVE du client, rétablir les configurations réseau et sécurité, remettre les applications en service et récupérer les données afin de rétablir un fonctionnement complet.
- Cela a été possible grâce à l’approche architecturale robuste et résiliente du client.
- Les sauvegardes de données stockées dans Google Cloud Storage dans la même région n’ont pas été affectées par la suppression et, avec un logiciel de sauvegarde tiers, ont joué un rôle crucial dans la restauration rapide.
Mesures correctives
- Google Cloud a pris plusieurs mesures pour éviter qu’un tel incident ne se reproduise :
- L’outil interne à l’origine de l’incident a été abandonné. Cette partie est désormais entièrement automatisée et peut être contrôlée par le client via l’interface utilisateur.
- La base de données du système a été nettoyée et tous les clouds privés GCVE ont été examinés manuellement afin de s’assurer qu’aucun autre déploiement GCVE ne soit exposé au risque.
- Le comportement du système dans ces workflows de déploiement a été modifié afin qu’il ne configure plus les clouds privés GCVE pour suppression.
Conclusion
- C’est la première fois qu’un incident de cette nature se produit au sein de Google Cloud. Il ne s’agit pas d’un problème systémique.
- Les services Google Cloud disposent de protections robustes, notamment la suppression souple, des notifications préalables et une intervention humaine.
- Il a été confirmé que ces protections restent bien en place.
- Une collaboration étroite avec le client est essentielle à une restauration rapide. Le CIO du client et ses équipes techniques méritent d’être salués pour avoir travaillé en étroite collaboration avec les équipes Google Cloud afin de mener une restauration 24/7 rapide et précise.
- Une gestion des risques robuste et résiliente est indispensable pour une restauration rapide en cas d’incident imprévu.
- Google Cloud continue de disposer de l’une des infrastructures cloud les plus résilientes et fiables au monde. Malgré cet incident isolé, son temps de disponibilité et sa résilience ont été validés de manière indépendante.
L’avis de GN⁺
- Importance de l’incident : cet incident montre à quel point il est important pour un fournisseur de services cloud de résoudre rapidement les problèmes et de coopérer avec ses clients.
- Nécessité de l’automatisation : il souligne l’importance de l’automatisation des outils internes, en particulier lorsque des erreurs humaines peuvent avoir un impact majeur sur les systèmes.
- Coopération avec le client : il montre à quel point une collaboration étroite avec le client est cruciale pour résoudre le problème. C’est aussi un élément important pour instaurer la confiance.
- Importance des sauvegardes de données : il met en avant à quel point les sauvegardes sont essentielles, notamment pour une restauration rapide lors d’un incident imprévu.
- Mesures de prévention futures : les actions prises par Google Cloud pour éviter qu’un tel incident ne se reproduise peuvent aussi servir de bon exemple à d’autres fournisseurs de services cloud.
1 commentaires
Commentaire Hacker News
Résumé des commentaires Hacker News
Mécontentement concernant la profondeur de la résolution du problème
Questions sur les mesures de protection pour les clients GCP
Doutes sur le travail en 24x7
Incidents liés
Surprise face à une erreur côté Google
Rigueur de l’examen
Attentes vis-à-vis de GCP
Éloges pour les efforts du client
Expérience d’un client UniSuper
Malentendu autour de l’annonce initiale