Rapport d’incident de Slack du 12/05/2020
(slack.engineering)Explication de l’incident où Slack a connu pour la première fois une panne totale assez longue
-
Après le déploiement d’un changement de configuration de la base de données, un bug de performance provoquant une hausse de la charge DB a été découvert, et un rollback a été effectué en quelques minutes
-
Malgré cela, cet incident a activé l’autoscaling de la web app, augmentant le nombre d’instances au-delà de la Hard Limit
-
Cela a provoqué un bug dans la partie de mise à jour de la liste des hôtes du load balancer, empêchant l’enregistrement des nouvelles instances
→ HAProxy + Consul
-
Huit heures plus tard, les seules instances encore présentes dans la liste des hôtes étaient les plus anciennes, et lorsqu’un scale-down s’est produit, ces anciennes instances ont été arrêtées
-
Les nouvelles instances auraient dû prendre le relais, mais elles n’étaient pas présentes dans la liste des hôtes du load balancer.
Aucun commentaire pour le moment.