Peut-on vraiment faire confiance à la durabilité d’un disque cloud ?

computerphilosopher · 2026-03-08T02:27:32+09:00

Indicateur de durabilité d’EBS gp3 : d’après la documentation officielle d’AWS, le taux de panne annuel (AFR) est de 0,1 % à 0,2 %. La durabilité d’un disque unique est très élevée, à 99,9 %, mais à mesure que l’infrastructure grandit, le risque probabiliste s’accumule. Probabilité d’incident selon l’échelle : Lorsqu’on exploite 1 000 disques, la probabilité qu’aucune panne ne survienne en un an est d’environ 36,8 % ($0.999^{1000}$). Autrement dit, on a statistiquement environ 63,2 % de chances de subir au moins une panne de disque, un niveau de risque qui doit être traité comme une constante lors de la conception. Évolution du taux de survie selon la structure de stockage : Structure distribuée (Sharding/RAID 0) : la durabilité de l’ensemble du système est déterminée par le produit de la durabilité de chaque composant ($R^n$). Plus le nombre de disques augmente, plus la probabilité de survie du système chute de façon exponentielle. Structure répliquée (Mirroring/RAID 1) : en réduisant la probabilité de panne par shard au carré ($Q^2$), il est possible d’améliorer drastiquement la durabilité globale du système, même avec le même matériel. Séparation des stratégies de gestion : Redundancy (RAID, etc.) : stratégie visant à maintenir la disponibilité du service et la durabilité face aux pannes mécaniques du matériel physique. Backup (snapshots S3, etc.) : seul moyen de restaurer une « altération logique des données » causée par une erreur opérateur, un bug logiciel, un ransomware, etc. Les deux approches ne sont pas interchangeables. Conclusion : les services cloud managés offrent certes une grande fiabilité, mais la durabilité finale d’un système est déterminée moins par les spécifications de chaque composant que par la capacité de l’ingénieur à concevoir l’architecture.

Indicateur de durabilité d’EBS gp3 : d’après la documentation officielle d’AWS, le taux de panne annuel (AFR) est de 0,1 % à 0,2 %. La durabilité d’un disque unique est très élevée, à 99,9 %, mais à mesure que l’infrastructure grandit, le risque probabiliste s’accumule.
Probabilité d’incident selon l’échelle :
- Lorsqu’on exploite 1 000 disques, la probabilité qu’aucune panne ne survienne en un an est d’environ 36,8 % ($0.999^{1000}$).
- Autrement dit, on a statistiquement environ 63,2 % de chances de subir au moins une panne de disque, un niveau de risque qui doit être traité comme une constante lors de la conception.
Évolution du taux de survie selon la structure de stockage :
- Structure distribuée (Sharding/RAID 0) : la durabilité de l’ensemble du système est déterminée par le produit de la durabilité de chaque composant ($R^n$). Plus le nombre de disques augmente, plus la probabilité de survie du système chute de façon exponentielle.
- Structure répliquée (Mirroring/RAID 1) : en réduisant la probabilité de panne par shard au carré ($Q^2$), il est possible d’améliorer drastiquement la durabilité globale du système, même avec le même matériel.
Séparation des stratégies de gestion :
- Redundancy (RAID, etc.) : stratégie visant à maintenir la disponibilité du service et la durabilité face aux pannes mécaniques du matériel physique.
- Backup (snapshots S3, etc.) : seul moyen de restaurer une « altération logique des données » causée par une erreur opérateur, un bug logiciel, un ransomware, etc. Les deux approches ne sont pas interchangeables.
Conclusion : les services cloud managés offrent certes une grande fiabilité, mais la durabilité finale d’un système est déterminée moins par les spécifications de chaque composant que par la capacité de l’ingénieur à concevoir l’architecture.

Peut-on vraiment faire confiance à la durabilité d’un disque cloud ?

À lire aussi

1 commentaires