6 points par GN⁺ 2025-03-18 | 1 commentaires | Partager sur WhatsApp
  • Résumé d’une présentation de David Rosenthal, spécialiste de la préservation numérique (Digital Preservation)

Différence entre sauvegarde (Backup) et archivage (Archival)

  • Une sauvegarde est nécessaire pour restaurer l’état le plus récent en cas de sinistre
    • La durée de validité des données de sauvegarde est déterminée par le temps écoulé entre la dernière sauvegarde et la restauration
    • La durée de vie du support de stockage des sauvegardes n’a pas d’importance
  • Après près de 20 ans dans le domaine de la préservation numérique, voici mes 4 méthodes importantes de sauvegarde système
    • Serveurs mail et web : sauvegarde complète hebdomadaire et sauvegarde incrémentale quotidienne sur un Raspberry Pi → sauvegarde hebdomadaire enregistrée sur DVD-R
    • PC de bureau : sauvegarde complète nocturne sur disque dur externe → rotation périodique sur 3 disques durs
    • iPhone : sauvegarde quotidienne sur Mac Air → sauvegarde périodique du SSD via Time Machine
    • Stockage hors site : conservation chaque semaine de DVD-R, SSD et disques durs dans un lieu externe
  • Que sont les données d’archive ?
    • Avec le temps, les données descendent dans la hiérarchie des niveaux de stockage
    • Données d’archive = données dont le coût de conservation dans le stockage opérationnel n’est plus supportable
    • L’objectif principal d’un système de stockage d’archives est la réduction des coûts, en acceptant une latence d’accès plus élevée

La réalité des supports de stockage d’archives

  • Les médias exagèrent souvent l’idée d’un « stockage capable de conserver les données pour toujours »
  • Les nouvelles technologies de stockage issues de la recherche ont peu de chances d’être adoptées à grande échelle sur le marché
  • Les supports dédiés à l’archivage ont une demande de marché trop faible pour réussir commercialement
    • Exemple : les bandes LTO représentent moins de 1 % du marché total des supports de stockage
    • En 2023, OD-3 (disque optique de 1 To) a été annulé en raison d’une pénurie sur le marché

Le problème du délai d’adoption des supports de stockage

  • Il faut beaucoup de temps pour qu’une nouvelle technologie de stockage arrive sur le marché
  • Disques durs HAMR : déployés 26 ans après le début des recherches
  • Stockage sur silice et sur ADN : après des décennies de recherche, il faut encore au moins 5 ans avant une commercialisation

Le problème de l’économie des supports de stockage

  • Le coût de l’infrastructure du système de stockage est bien plus important que celui du support lui-même
    • Le coût des supports comme les bandes ou les disques pèse peu dans le coût total
    • Il faut opérer à l’échelle d’un data center pour réduire les coûts
    • Le stockage d’archives est peu rentable à petite échelle

Stockage cloud et problème de lock-in

  • Le coût du stockage d’archives dans le cloud devient très élevé sur le long terme
  • Amazon Glacier : permet de réduire les coûts de conservation longue durée, mais le coût de récupération des données est élevé
    • Coût de stockage : 10 900 $/an
    • Coût de récupération : 49 550 $ (pour 1 PB)
    • Coût total : 60 950 $
    • Période de lock-in : 50,0 mois
  • Google Archive : coûts élevés de stockage et de récupération → inefficace pour la conservation de longue durée
    • Coût de stockage : 13 200 $/an
    • Coût de récupération : 210 810 $ (pour 1 PB)
    • Coût total : 224 510 $
    • Période de lock-in : 175,6 mois
  • Microsoft Archive : coût de conservation faible, mais coût de récupération des données élevé
    • Coût de stockage : 22 000 $/an
    • Coût de récupération : 40 100 $ (pour 1 PB)
    • Coût total : 62 200 $
    • Période de lock-in : 20,0 mois
  • Problème de lock-in : le coût élevé de récupération rend les déplacements de données difficiles
  • Amazon Glacier offre le coût de stockage le plus bas et un coût de récupération relativement faible

Project Silica (projet Silica de Microsoft)

  • Silica : support de stockage de données à ultra-haute densité
    • Stockage des données sur des plateaux de silice via un laser femtoseconde
    • Densité de stockage élevée et excellente stabilité physique
  • Problème de coût : le laser femtoseconde est cher → baisse de prix attendue avec la production de masse
  • Séparation lecture/écriture → renforcement de la sécurité et garantie de l’intégrité des données
  • Problème de vitesse de lecture : temps de réponse estimé à 15 heures → efficace uniquement dans les systèmes de grande taille

Le problème de la récupération des données

  • Dans l’archivage, l’essentiel est la possibilité de récupérer les données
  • Microsoft stocke du code open source sur film sur l’île de Svalbard
    • La probabilité de récupération après sinistre est faible
    • L’accès est difficile en raison de l’éloignement et des mauvaises conditions météorologiques

Système LOCKSS (Lots Of Copies Keep Stuff Safe)

  • Conservation d’un grand nombre de copies sur des supports de stockage peu coûteux → sécurité renforcée des données
  • La sauvegarde et la restauration sont garanties par la multiplicité des copies plutôt que par des systèmes coûteux
  • L’efficacité économique est essentielle → préférence pour des systèmes de stockage bon marché plutôt que pour des supports onéreux

Conclusion

  • Le cœur du stockage d’archives n’est pas la technologie, mais l’économie
    • Les supports dédiés à l’archivage sont économiquement inefficaces
    • Les services cloud impliquent des coûts de récupération élevés → problème de lock-in
  • Il faut opérer dans un data center de grande taille pour réduire les coûts du stockage longue durée
  • Project Silica est la technologie de stockage d’archives la plus prometteuse, mais sa commercialisation demandera encore du temps

1 commentaires

 
GN⁺ 2025-03-18
Avis Hacker News
  • Il y a l’IA, l’informatique quantique, les écrans 6K, les M.2 NVMe et des milliards d’appareils réseau, mais les données ordinaires ne durent parfois qu’environ 5 ans à cause des pannes de disque, de l’instabilité des SSD et du bit rot
    • Pour contourner cela, il faut entretenir en permanence un JBOD, un RAID ou un NAS, ou graver sur des Blu-ray M-Disc, confier ça au cloud, ou faire les deux
    • Une simple stratégie de sauvegarde 3-2-1 peut fonctionner avec un peu de chance, mais l’archivage de gros volumes de données reste difficile
  • Je réfléchis depuis longtemps au problème des « centaines d’années », et les méthodes suivantes me semblent être celles qui ont le plus de chances de fonctionner
    • Graver ou imprimer sur un matériau (tablettes de pierre, cylindres Edison, disques 78 tours en shellac, vinyles, Voyager Golden Record, etc.)
    • Imprimer ou perforer sur papier avec de l’encre (livres, cartes, bandes)
    • Photographie ; microfiche/microfilm (GitHub Arctic Code Vault), lithographie
  • J’ai récemment étudié comment « imprimer » du microfilm de qualité archivage ; il existe quelques options, mais la plupart consistent à scanner le microfilm pour en faire une copie numérique
    • D’après mon expérience personnelle, un dessin au crayon fait en deuxième année a plus de chances de durer quelques centaines d’années de plus que des supports numériques
  • À l’échelle d’une entreprise, le calcul des coûts peut être très différent de celui d’un particulier
    • Linear Tape-Open est un support de stockage peu coûteux quand il faut conserver des pétaoctets
    • Le prix d’un lecteur permet d’acheter 400 To de disques durs
    • Je pense que les disques durs produits en masse sont plus fiables que les bandes LTO
    • Personnellement, j’ai eu de mauvaises expériences avec les bandes
  • La note « J’ai fait un relevé géologique dans l’archipel du Svalbard pendant l’été 1969 » m’a donné envie d’en savoir plus sur l’auteur, et sa carrière est très intéressante
  • Lorsqu’on utilise le stockage cloud pour les sauvegardes, il ne faut pas oublier d’activer Object Lock
    • Ce n’est pas aussi bien qu’un stockage hors ligne, mais c’est bien mieux qu’un support en lecture/écriture
    • Dans l’entreprise, on utilise restic pour sauvegarder sur B2, avec une sauvegarde dédupliquée à chaque fois
  • J’utilise une stratégie de sauvegarde 3-2-1
    • Trois copies des données sur deux types de supports différents, dont une copie conservée hors site
    • Je mets en miroir les données importantes sur SSD et je conserve plusieurs copies sur Blu-ray
    • J’utilise les Blu-ray pour me protéger contre les tempêtes géomagnétiques comme l’événement de Carrington de 1859
  • J’aimerais que les archives sur bande soient plus accessibles
    • C’est un marché de niche, surtout orienté entreprise, donc les lecteurs commencent à plusieurs milliers de dollars, et avec une capacité inférieure à celle des SSD modernes si on réduit l’échelle
  • L’article aborde des sujets très variés, et il est difficile d’en tirer une conclusion unique
    • Il se termine par une citation du CTO de Backblaze : « prévoyez les pannes et achetez les composants les moins chers »
    • C’est adapté aux grandes entreprises, mais pas aux particuliers ni aux petites structures
    • Personnellement, je fais mes sauvegardes sur des disques durs externes bon marché et j’archive sur des Blu-ray M-DISC
  • Je conserve des fichiers depuis 1991 et je les ai migrés à travers différents formats
    • J’utilise une stratégie de sauvegarde 3-2-1 et je vérifie les sommes de contrôle de tous les fichiers deux fois par an
    • Avec des scripts, cela se gère facilement chaque semaine avec quelques commandes
  • Des avis sur LOCKSS ?
    • LOCKSS semble prendre très au sérieux l’idée que si des données n’ont pas été vérifiées récemment, elles n’existent pas vraiment