- Article sur l’évolution de l’ingénierie de la fiabilité des sites (SRE) chez Google sur 20 ans
- Au cours des 20 dernières années, la puissance de calcul de Google a été multipliée par 1 000, et son réseau par 10 000
- Les outils SRE ont évolué, passant de scripts Python à un écosystème de services intégrés, puis à une plateforme unifiée fournissant la fiabilité par défaut
- Article mettant en avant 11 leçons clés tirées de 20 ans de SRE chez Google
- Leçon 1 : le risque des mesures d’atténuation doit varier selon la gravité de la panne
- Leçon 2 : les mécanismes de reprise doivent être entièrement testés avant toute situation d’urgence
- Leçon 3 : toutes les modifications doivent être appliquées progressivement afin d’éviter un impact à grande échelle
- Leçon 4 : chaque dépendance de service doit disposer d’un « gros bouton rouge » pour annuler un état indésirable
- Leçon 5 : les tests unitaires ne suffisent pas ; des tests d’intégration sont aussi nécessaires
- Leçon 6 : plusieurs canaux de communication, y compris des solutions de secours, sont indispensables pendant une panne
- Leçon 7 : les services doivent pouvoir dégrader volontairement et élégamment leurs performances dans des situations exceptionnelles
- Leçon 8 : la résilience aux sinistres et les tests de reprise doivent faire partie de la stratégie de continuité d’activité
- Leçon 9 : les mesures d’atténuation doivent être automatisées pour réduire le temps moyen de résolution (MTTR)
- Leçon 10 : des déploiements fréquents, accompagnés de tests appropriés, peuvent réduire le risque qu’un déploiement se passe mal
- Leçon 11 : une version matérielle globale unique constitue un point de défaillance unique, et maintenir une infrastructure diversifiée peut éviter une panne générale
- Ces leçons s’appuient sur des incidents réels vécus et analysés par Google au fil des années
Aucun commentaire pour le moment.