1 points par GN⁺ 2023-12-04 | 1 commentaires | Partager sur WhatsApp

Problèmes de Google Cloud Platform et réponse apportée

  • Railway exploite sa plateforme de développement d’applications en utilisant Compute Engine de Google Cloud Platform (GCP).
  • Certaines machines ont cessé de répondre, provoquant une interruption de service qui a duré environ 10 minutes.
  • Le problème a été résolu, toutes les charges de travail ont été migrées avec succès et le service a été rétabli.

Une relation difficile avec Google Cloud

  • Railway a rencontré plusieurs problèmes avec Google Cloud au cours des 18 derniers mois.
  • Face à la persistance des problèmes réseau, l’entreprise a construit sa propre stack réseau pour les résoudre.
  • Lorsque Google a limité les quotas du registre, Railway a créé son propre produit de registre pour contourner le problème.
  • Déçue par le support de Google, l’entreprise a discuté avec des vice-présidents de Google afin de résoudre ces problèmes.
  • Google a modifié ses conditions d’utilisation, ce qui a entraîné une hausse des coûts de 20 %, et Railway attend toujours une solution.
  • Railway prévoit d’abandonner les services Google Cloud et de migrer vers ses propres instances bare metal.

Retour sur l’incident

  • Google a redémarré des machines, ce qui a mis les serveurs hors ligne.
  • Un système automatique de reprise après incident était en place, mais certains serveurs n’ayant pas été restaurés, une reprise manuelle a été nécessaire.
  • Railway soupçonne un problème lié à la migration live automatique de Google Cloud, et a tenté de contacter Google sans obtenir de réponse.
  • L’analyse des logs de la console série suggère que, dans de rares cas, le guest GCP peut subir un soft lock sous pression de ressources lors d’un transfert mémoire de l’espace utilisateur vers le noyau.

Conclusion pour les utilisateurs

  • Lors de la reprise manuelle, chaque hôte a subi environ 10 minutes d’indisponibilité.
  • Pour les utilisateurs exécutant des charges de travail multi-services, l’indisponibilité a pu être plus longue.
  • Railway présente ses excuses aux utilisateurs pour la gêne occasionnée et prévoit de migrer vers son propre bare metal afin d’offrir une fiabilité supérieure.

L’avis de GN⁺

Le point le plus important de cet article est l’impact des problèmes techniques de Google Cloud Platform et des défaillances du support client sur les utilisateurs. Les difficultés rencontrées par Railway soulignent l’importance de la fiabilité et de l’assistance chez un fournisseur de cloud, tout en montrant l’intérêt de construire sa propre infrastructure pour résoudre ce type de problèmes. Ce texte aide à comprendre la complexité du cloud computing et ses risques potentiels, tout en apportant des pistes de réponse et des éclairages utiles sur ces incidents, ce qui le rend intéressant et instructif.

1 commentaires

 
GN⁺ 2023-12-04
Commentaires Hacker News
  • Expérience d’une petite entreprise de logiciels

    • En tant qu’entreprise logicielle de deux personnes, ils ont rencontré plusieurs problèmes avec Google.
    • La plupart des problèmes étaient liés à Google Adwords.
    • Si Google ne fournit pas un support correct à l’auteur original, qui paie des sommes importantes, il y a peu d’espoir pour les petites entreprises.
  • Avis sur l’évolution de GCP

    • Il y a quelques années, GCP était une meilleure option qu’AWS en termes de rapport qualité-prix.
    • À l’époque, le support de GCP était excellent, et l’expérience de traitement des premiers tickets était impressionnante.
    • Les interactions avec l’équipe commerciale étaient également bonnes, mais aujourd’hui AWS a rattrapé GCP sur le rapport qualité-prix et le dépasse sur les services managés.
    • L’expérience du support GCP s’est nettement dégradée et n’a pas su reconnaître des problèmes réseau.
    • Bien qu’ils aient beaucoup investi dans GCP, ils sont déçus de la situation actuelle et essaient de réduire leurs dépenses.
  • Comparaison de la fiabilité entre GCP et AWS

    • Même si les pannes d’instances de calcul sont rares sur GCP, celui-ci est malgré tout critiqué.
    • Sur AWS, ils ont vécu des cas où des instances s’arrêtaient fréquemment ou disparaissaient.
    • Ils affirment, d’après leur expérience personnelle et la documentation AWS, que les briques de base d’AWS sont moins fiables que celles de GCP.
  • Avis sur les problèmes des fournisseurs cloud

    • Tous les fournisseurs cloud ont des problèmes.
    • Ils ont découvert et signalé plusieurs problèmes sur AWS, et le support leur a fait perdre du temps.
    • En dehors des services essentiels (EC2, EBS, S3), ils hésitent à les utiliser.
  • Expérience avec le support Google Cloud

    • Le support Google Cloud ne les a pas impressionnés.
    • Sur AWS, leur expérience du support a toujours été bonne.
    • En cas d’interaction positive avec Google Cloud, ils recommandent de la souligner et de donner un retour positif.
  • Expérience sur des problèmes de fonctionnalités dans GCP

    • Des fonctionnalités d’entreprise de GCP ne fonctionnaient pas correctement, et les tentatives de correction ont provoqué des temps d’arrêt.
    • Les représentants de GCP rappelaient la NDA et hésitaient à reconnaître le problème.
  • Expérience avec des seuils non documentés dans GCP

    • Avec Cloud Run, ils ont observé des événements de scaling inexplicables liés à l’utilisation CPU et aux requêtes simultanées.
    • Le support premium leur a appris qu’il existait des critères supplémentaires, sans fournir d’explications détaillées.
  • Solution aux problèmes réseau de Google Cloud

    • Ils ont subi des problèmes réseau persistants sur les produits Google Cloud.
    • Ils ont résolu le problème en construisant leur propre pile réseau.
    • Ils s’interrogent sur la manière dont un overlay UDP/Wireguard peut être plus fiable lorsque le réseau sous-jacent est instable.
  • Avis sur la fiabilité de Google Cloud

    • On peut comprendre des problèmes de fiabilité aux débuts du cloud computing, mais décevoir de grands clients en 2023 n’est pas une bonne situation.
    • Ils se demandent si d’autres ont vécu des expériences similaires ou si l’auteur a simplement joué de malchance.
  • Confusion personnelle sur les problèmes rencontrés sur GCP

    • Ils ne comprennent pas quel lien la virtualisation imbriquée a avec le problème.
    • La mention des instructions MMIO n’est pas claire pour eux.
    • L’auteur semble frustré par l’incident récent et cherche désespérément une solution.