- Postman a connu temporairement une interruption de service en raison d'un incident global de cloud.
- La panne a provoqué, chez de nombreux utilisateurs, des erreurs de fonctionnement et des indisponibilités de connexion intermittentes en raison d’un problème du fournisseur de cloud.
- L'équipe d'ingénierie a effectué des actions de restauration en temps réel et le service s'est progressivement rétabli.
- Les incidents affectant partiellement la fonction de recherche ainsi que les problèmes de dépendances croisées ont été suivis et résolus en continu.
- L'incident est désormais résolu et le service est de retour à la normale, avec une surveillance supplémentaire de la stabilité.
Chronologie de l'incident Postman et du rétablissement du service
Détection de l'incident et impact (Oct 20, 05:39 ~ 05:52 PDT)
- Postman a affiché des problèmes fonctionnels à la suite d'une augmentation du taux d'erreurs.
- La cause principale de cet incident était une défaillance majeure du fournisseur de services cloud.
- L'équipe Postman a travaillé avec le fournisseur cloud pour répondre rapidement et normaliser le service.
Restauration partielle et surveillance (Oct 20, 05:56 ~ 17:17 PDT)
- Une reprise de certains systèmes a été observée.
- La surveillance des performances de plusieurs services a été poursuivie en continu pendant le travail de restauration globale.
- La rétablissement de la plupart des fonctionnalités ayant été confirmé, l'attention a été portée sur une surveillance continue pour prévenir de nouvelles défaillances.
Récupération complète et reprise normale du service (Oct 20, 19:00 ~ 20:51 PDT)
- Bien que des problèmes intermittents aient persisté sur certains services, de nombreux systèmes se sont rétablis de manière stable.
- Les erreurs de dépendance croisée et les incidents liés à la fonction de recherche ont été résolus progressivement.
- Après la résolution de tous les problèmes et la fin de la restauration complète du service, une surveillance supplémentaire a été lancée pour garantir la stabilité.
Résumé et enseignements
- Postman, avec une forte dépendance à l'environnement cloud, est structurellement exposé à des incidents globaux.
- À l'avenir, les outils similaires ou les services qui semblent fonctionner localement mettent aussi en évidence la nécessité de se préparer aux pannes d'infrastructure cloud.
- Lorsqu'une panne se produit, une surveillance des incidents en temps réel et une communication claire sont cruciales pour la maintenance et la confiance des clients.
- Dans un processus de reprise progressive du service, la réactivité rapide de l'équipe et des annonces transparentes sont importantes.
- La nécessité de mettre en place un cadre de monitoring pour vérifier que tous les services fonctionnent normalement est de nouveau soulignée.
Aucun commentaire pour le moment.