10 points par xguru 2020-07-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Explication de l’incident où Slack a connu pour la première fois une panne totale assez longue

  1. Après le déploiement d’un changement de configuration de la base de données, un bug de performance provoquant une hausse de la charge DB a été découvert, et un rollback a été effectué en quelques minutes

  2. Malgré cela, cet incident a activé l’autoscaling de la web app, augmentant le nombre d’instances au-delà de la Hard Limit

  3. Cela a provoqué un bug dans la partie de mise à jour de la liste des hôtes du load balancer, empêchant l’enregistrement des nouvelles instances

→ HAProxy + Consul

  1. Huit heures plus tard, les seules instances encore présentes dans la liste des hôtes étaient les plus anciennes, et lorsqu’un scale-down s’est produit, ces anciennes instances ont été arrêtées

  2. Les nouvelles instances auraient dû prendre le relais, mais elles n’étaient pas présentes dans la liste des hôtes du load balancer.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.