État des incidents sur GCP
(blog.railway.app)Problèmes de Google Cloud Platform et réponse apportée
- Railway exploite sa plateforme de développement d’applications en utilisant Compute Engine de Google Cloud Platform (GCP).
- Certaines machines ont cessé de répondre, provoquant une interruption de service qui a duré environ 10 minutes.
- Le problème a été résolu, toutes les charges de travail ont été migrées avec succès et le service a été rétabli.
Une relation difficile avec Google Cloud
- Railway a rencontré plusieurs problèmes avec Google Cloud au cours des 18 derniers mois.
- Face à la persistance des problèmes réseau, l’entreprise a construit sa propre stack réseau pour les résoudre.
- Lorsque Google a limité les quotas du registre, Railway a créé son propre produit de registre pour contourner le problème.
- Déçue par le support de Google, l’entreprise a discuté avec des vice-présidents de Google afin de résoudre ces problèmes.
- Google a modifié ses conditions d’utilisation, ce qui a entraîné une hausse des coûts de 20 %, et Railway attend toujours une solution.
- Railway prévoit d’abandonner les services Google Cloud et de migrer vers ses propres instances bare metal.
Retour sur l’incident
- Google a redémarré des machines, ce qui a mis les serveurs hors ligne.
- Un système automatique de reprise après incident était en place, mais certains serveurs n’ayant pas été restaurés, une reprise manuelle a été nécessaire.
- Railway soupçonne un problème lié à la migration live automatique de Google Cloud, et a tenté de contacter Google sans obtenir de réponse.
- L’analyse des logs de la console série suggère que, dans de rares cas, le guest GCP peut subir un soft lock sous pression de ressources lors d’un transfert mémoire de l’espace utilisateur vers le noyau.
Conclusion pour les utilisateurs
- Lors de la reprise manuelle, chaque hôte a subi environ 10 minutes d’indisponibilité.
- Pour les utilisateurs exécutant des charges de travail multi-services, l’indisponibilité a pu être plus longue.
- Railway présente ses excuses aux utilisateurs pour la gêne occasionnée et prévoit de migrer vers son propre bare metal afin d’offrir une fiabilité supérieure.
L’avis de GN⁺
Le point le plus important de cet article est l’impact des problèmes techniques de Google Cloud Platform et des défaillances du support client sur les utilisateurs. Les difficultés rencontrées par Railway soulignent l’importance de la fiabilité et de l’assistance chez un fournisseur de cloud, tout en montrant l’intérêt de construire sa propre infrastructure pour résoudre ce type de problèmes. Ce texte aide à comprendre la complexité du cloud computing et ses risques potentiels, tout en apportant des pistes de réponse et des éclairages utiles sur ces incidents, ce qui le rend intéressant et instructif.
1 commentaires
Commentaires Hacker News
Expérience d’une petite entreprise de logiciels
Avis sur l’évolution de GCP
Comparaison de la fiabilité entre GCP et AWS
Avis sur les problèmes des fournisseurs cloud
Expérience avec le support Google Cloud
Expérience sur des problèmes de fonctionnalités dans GCP
Expérience avec des seuils non documentés dans GCP
Solution aux problèmes réseau de Google Cloud
Avis sur la fiabilité de Google Cloud
Confusion personnelle sur les problèmes rencontrés sur GCP