- Résumé d’une présentation de David Rosenthal, spécialiste de la préservation numérique (Digital Preservation)
Différence entre sauvegarde (Backup) et archivage (Archival)
- Une sauvegarde est nécessaire pour restaurer l’état le plus récent en cas de sinistre
- La durée de validité des données de sauvegarde est déterminée par le temps écoulé entre la dernière sauvegarde et la restauration
- La durée de vie du support de stockage des sauvegardes n’a pas d’importance
- Après près de 20 ans dans le domaine de la préservation numérique, voici mes 4 méthodes importantes de sauvegarde système
- Serveurs mail et web : sauvegarde complète hebdomadaire et sauvegarde incrémentale quotidienne sur un Raspberry Pi → sauvegarde hebdomadaire enregistrée sur DVD-R
- PC de bureau : sauvegarde complète nocturne sur disque dur externe → rotation périodique sur 3 disques durs
- iPhone : sauvegarde quotidienne sur Mac Air → sauvegarde périodique du SSD via Time Machine
- Stockage hors site : conservation chaque semaine de DVD-R, SSD et disques durs dans un lieu externe
- Que sont les données d’archive ?
- Avec le temps, les données descendent dans la hiérarchie des niveaux de stockage
- Données d’archive = données dont le coût de conservation dans le stockage opérationnel n’est plus supportable
- L’objectif principal d’un système de stockage d’archives est la réduction des coûts, en acceptant une latence d’accès plus élevée
La réalité des supports de stockage d’archives
- Les médias exagèrent souvent l’idée d’un « stockage capable de conserver les données pour toujours »
- Les nouvelles technologies de stockage issues de la recherche ont peu de chances d’être adoptées à grande échelle sur le marché
- Les supports dédiés à l’archivage ont une demande de marché trop faible pour réussir commercialement
- Exemple : les bandes LTO représentent moins de 1 % du marché total des supports de stockage
- En 2023, OD-3 (disque optique de 1 To) a été annulé en raison d’une pénurie sur le marché
Le problème du délai d’adoption des supports de stockage
- Il faut beaucoup de temps pour qu’une nouvelle technologie de stockage arrive sur le marché
- Disques durs HAMR : déployés 26 ans après le début des recherches
- Stockage sur silice et sur ADN : après des décennies de recherche, il faut encore au moins 5 ans avant une commercialisation
Le problème de l’économie des supports de stockage
- Le coût de l’infrastructure du système de stockage est bien plus important que celui du support lui-même
- Le coût des supports comme les bandes ou les disques pèse peu dans le coût total
- Il faut opérer à l’échelle d’un data center pour réduire les coûts
- Le stockage d’archives est peu rentable à petite échelle
Stockage cloud et problème de lock-in
- Le coût du stockage d’archives dans le cloud devient très élevé sur le long terme
- Amazon Glacier : permet de réduire les coûts de conservation longue durée, mais le coût de récupération des données est élevé
- Coût de stockage : 10 900 $/an
- Coût de récupération : 49 550 $ (pour 1 PB)
- Coût total : 60 950 $
- Période de lock-in : 50,0 mois
- Google Archive : coûts élevés de stockage et de récupération → inefficace pour la conservation de longue durée
- Coût de stockage : 13 200 $/an
- Coût de récupération : 210 810 $ (pour 1 PB)
- Coût total : 224 510 $
- Période de lock-in : 175,6 mois
- Microsoft Archive : coût de conservation faible, mais coût de récupération des données élevé
- Coût de stockage : 22 000 $/an
- Coût de récupération : 40 100 $ (pour 1 PB)
- Coût total : 62 200 $
- Période de lock-in : 20,0 mois
- Problème de lock-in : le coût élevé de récupération rend les déplacements de données difficiles
- Amazon Glacier offre le coût de stockage le plus bas et un coût de récupération relativement faible
Project Silica (projet Silica de Microsoft)
- Silica : support de stockage de données à ultra-haute densité
- Stockage des données sur des plateaux de silice via un laser femtoseconde
- Densité de stockage élevée et excellente stabilité physique
- Problème de coût : le laser femtoseconde est cher → baisse de prix attendue avec la production de masse
- Séparation lecture/écriture → renforcement de la sécurité et garantie de l’intégrité des données
- Problème de vitesse de lecture : temps de réponse estimé à 15 heures → efficace uniquement dans les systèmes de grande taille
Le problème de la récupération des données
- Dans l’archivage, l’essentiel est la possibilité de récupérer les données
- Microsoft stocke du code open source sur film sur l’île de Svalbard
- La probabilité de récupération après sinistre est faible
- L’accès est difficile en raison de l’éloignement et des mauvaises conditions météorologiques
Système LOCKSS (Lots Of Copies Keep Stuff Safe)
- Conservation d’un grand nombre de copies sur des supports de stockage peu coûteux → sécurité renforcée des données
- La sauvegarde et la restauration sont garanties par la multiplicité des copies plutôt que par des systèmes coûteux
- L’efficacité économique est essentielle → préférence pour des systèmes de stockage bon marché plutôt que pour des supports onéreux
Conclusion
- Le cœur du stockage d’archives n’est pas la technologie, mais l’économie
- Les supports dédiés à l’archivage sont économiquement inefficaces
- Les services cloud impliquent des coûts de récupération élevés → problème de lock-in
- Il faut opérer dans un data center de grande taille pour réduire les coûts du stockage longue durée
- Project Silica est la technologie de stockage d’archives la plus prometteuse, mais sa commercialisation demandera encore du temps
1 commentaires
Avis Hacker News