1 points par GN⁺ 2024-05-26 | 1 commentaires | Partager sur WhatsApp

Partage de détails sur un incident récent ayant affecté un client

Support client Google Cloud

  • Plus tôt ce mois-ci, un incident Google Cloud a affecté le client australien UniSuper.
  • Immédiatement après l’incident, la priorité absolue était de travailler avec le client pour restaurer complètement les systèmes.
  • Peu après le début de l’incident, l’entreprise a publiquement reconnu l’incident dans une déclaration commune avec le client.
  • Une fois les systèmes du client entièrement restaurés, l’examen interne a été achevé.
  • Ces informations sont publiées afin de clarifier la nature de l’incident et de fournir une explication précise dans un souci de transparence.
  • Google Cloud a pris des mesures pour empêcher qu’un incident aussi spécifique et isolé ne se reproduise.
  • L’impact de cet incident a été extrêmement décevant, et l’entreprise présente ses plus sincères excuses au client pour les désagréments causés.

Étendue de l’impact

Technologies et services affectés

  • Cet incident a affecté les services gérés par Google suivants :
    • Un client dans une région cloud.
    • L’un des services Google Cloud utilisés par ce client : Google Cloud VMware Engine (GCVE).
    • L’un des plusieurs clouds privés GCVE du client, réparti sur deux zones.

Éléments non affectés

  • Cet incident n’a pas affecté les éléments suivants :
    • Les autres services Google Cloud.
    • Les autres clients utilisant GCVE ou d’autres services Google Cloud.
    • Les autres clouds privés GCVE du client, son compte Google, son organisation, ses dossiers ou ses projets.
    • Les sauvegardes de données du client stockées dans la même région (Google Cloud Storage).

Cause de l’incident

Résumé

  • Lors du déploiement initial du cloud privé Google Cloud VMware Engine (GCVE) pour ce client, un opérateur Google a mal configuré le service GCVE via un outil interne. Cela s’est produit parce qu’un paramètre a été laissé vide.
  • En conséquence, le cloud privé GCVE du client a été configuré avec une durée fixe, au terme de laquelle il était automatiquement supprimé.
  • La cause de l’incident et le comportement du système ont été corrigés afin que cela ne puisse plus se reproduire.
  • Cet incident n’a affecté aucun autre service Google Cloud en dehors d’un cloud privé GCVE de ce client.
  • Aucun autre client n’a été affecté par cet incident.

Analyse détaillée

Déploiement via un processus d’exception
  • Début 2023, un opérateur Google a utilisé un outil interne pour déployer l’un des clouds privés GCVE du client afin de répondre à une exigence spécifique de répartition de capacité.
  • Cet outil interne de gestion de capacité a été abandonné au quatrième trimestre 2023 et est désormais entièrement automatisé, sans intervention humaine requise.
Comportement involontaire dû à un paramètre d’entrée vide
  • L’opérateur Google a suivi les protocoles de contrôle internes.
  • Cependant, lors de l’utilisation de l’outil interne pour provisionner le cloud privé du client, un paramètre d’entrée a été laissé vide.
  • Le système a donc attribué à ce paramètre une valeur par défaut alors inconnue : une durée fixe d’un an.
  • Une fois cette période d’un an arrivée à son terme, le cloud privé GCVE du client a été supprimé.
  • Aucune notification n’a été envoyée au client, car la suppression résultait du fait qu’un opérateur Google avait laissé un paramètre vide en utilisant l’outil interne.
  • Une suppression initiée par le client n’aurait eu lieu qu’après l’envoi d’une notification au client.

Restauration

  • Pendant plusieurs jours, le client et les équipes Google ont collaboré 24 heures sur 24 pour restaurer le cloud privé GCVE du client, rétablir les configurations réseau et sécurité, remettre les applications en service et récupérer les données afin de rétablir un fonctionnement complet.
  • Cela a été possible grâce à l’approche architecturale robuste et résiliente du client.
  • Les sauvegardes de données stockées dans Google Cloud Storage dans la même région n’ont pas été affectées par la suppression et, avec un logiciel de sauvegarde tiers, ont joué un rôle crucial dans la restauration rapide.

Mesures correctives

  • Google Cloud a pris plusieurs mesures pour éviter qu’un tel incident ne se reproduise :
    1. L’outil interne à l’origine de l’incident a été abandonné. Cette partie est désormais entièrement automatisée et peut être contrôlée par le client via l’interface utilisateur.
    2. La base de données du système a été nettoyée et tous les clouds privés GCVE ont été examinés manuellement afin de s’assurer qu’aucun autre déploiement GCVE ne soit exposé au risque.
    3. Le comportement du système dans ces workflows de déploiement a été modifié afin qu’il ne configure plus les clouds privés GCVE pour suppression.

Conclusion

  • C’est la première fois qu’un incident de cette nature se produit au sein de Google Cloud. Il ne s’agit pas d’un problème systémique.
  • Les services Google Cloud disposent de protections robustes, notamment la suppression souple, des notifications préalables et une intervention humaine.
  • Il a été confirmé que ces protections restent bien en place.
  • Une collaboration étroite avec le client est essentielle à une restauration rapide. Le CIO du client et ses équipes techniques méritent d’être salués pour avoir travaillé en étroite collaboration avec les équipes Google Cloud afin de mener une restauration 24/7 rapide et précise.
  • Une gestion des risques robuste et résiliente est indispensable pour une restauration rapide en cas d’incident imprévu.
  • Google Cloud continue de disposer de l’une des infrastructures cloud les plus résilientes et fiables au monde. Malgré cet incident isolé, son temps de disponibilité et sa résilience ont été validés de manière indépendante.

L’avis de GN⁺

  • Importance de l’incident : cet incident montre à quel point il est important pour un fournisseur de services cloud de résoudre rapidement les problèmes et de coopérer avec ses clients.
  • Nécessité de l’automatisation : il souligne l’importance de l’automatisation des outils internes, en particulier lorsque des erreurs humaines peuvent avoir un impact majeur sur les systèmes.
  • Coopération avec le client : il montre à quel point une collaboration étroite avec le client est cruciale pour résoudre le problème. C’est aussi un élément important pour instaurer la confiance.
  • Importance des sauvegardes de données : il met en avant à quel point les sauvegardes sont essentielles, notamment pour une restauration rapide lors d’un incident imprévu.
  • Mesures de prévention futures : les actions prises par Google Cloud pour éviter qu’un tel incident ne se reproduise peuvent aussi servir de bon exemple à d’autres fournisseurs de services cloud.

1 commentaires

 
GN⁺ 2024-05-26
Commentaire Hacker News

Résumé des commentaires Hacker News

  • Mécontentement concernant la profondeur de la résolution du problème

    • La solution n’est pas à la hauteur de l’impact de l’incident. Le même problème a été empêché de se reproduire, mais des problèmes similaires restent possibles. Des mesures supplémentaires sont nécessaires pour empêcher de manière systématique l’arrêt/la suppression du service.
  • Questions sur les mesures de protection pour les clients GCP

    • Il est recommandé aux clients GCP de demander à leur TAM quelles sont les mesures de protection mises en place par GCP. GCP dispose de très peu de garde-fous humains, bien moins qu’AWS.
  • Doutes sur le travail en 24x7

    • Des doutes sont exprimés sur la formule « l’équipe Google a travaillé en 24x7 pendant plusieurs jours ».
  • Incidents liés

    • Sont mentionnés l’incident où des membres d’UniSuper n’ont pas pu accéder à leur compte pendant une semaine en raison d’une mauvaise configuration de Google Cloud, ainsi que l’incident où Google Cloud a supprimé par erreur le compte d’un client.
  • Surprise face à une erreur côté Google

    • De la surprise est exprimée face au fait qu’il s’agissait d’une erreur du côté de Google. Il est mentionné qu’UniSuper a dû recevoir un choc considérable.
  • Rigueur de l’examen

    • L’examen est jugé rigoureux, car il ne s’est pas limité à l’enquête sur un outil/processus précis, mais a aussi passé en revue le problème de suppression automatique et vérifié le comportement de suppression logicielle. Il est toutefois mentionné qu’un examen supplémentaire du comportement par défaut est nécessaire.
  • Attentes vis-à-vis de GCP

    • Le problème d’UniSuper a été résolu, mais l’on espère que cet incident servira d’électrochoc utile à GCP.
  • Éloges pour les efforts du client

    • Le CIO du client et l’équipe technique sont félicités pour avoir collaboré avec l’équipe Google Cloud afin de mener rapidement et précisément la restauration en 24x7.
  • Expérience d’un client UniSuper

    • Un client d’UniSuper indique avoir appris la réalité de l’incident par les médias et mentionne qu’il y a eu une tentative de réduire l’affaire à une simple « indisponibilité du système ».
  • Malentendu autour de l’annonce initiale

    • Il est expliqué que l’annonce initiale a prêté à confusion et qu’en réalité seules des machines virtuelles d’une région spécifique ont été perdues. Il est précisé qu’il s’agit d’un problème que le système peut gérer.