2020

(slack.engineering)

10 points par xguru 2020-07-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Explication de l’incident où Slack a connu pour la première fois une panne totale assez longue

Après le déploiement d’un changement de configuration de la base de données, un bug de performance provoquant une hausse de la charge DB a été découvert, et un rollback a été effectué en quelques minutes
Malgré cela, cet incident a activé l’autoscaling de la web app, augmentant le nombre d’instances au-delà de la Hard Limit
Cela a provoqué un bug dans la partie de mise à jour de la liste des hôtes du load balancer, empêchant l’enregistrement des nouvelles instances

→ HAProxy + Consul

Huit heures plus tard, les seules instances encore présentes dans la liste des hôtes étaient les plus anciennes, et lorsqu’un scale-down s’est produit, ces anciennes instances ont été arrêtées
Les nouvelles instances auraient dû prendre le relais, mais elles n’étaient pas présentes dans la liste des hôtes du load balancer.

À lire aussi