1 points par GN⁺ 2023-07-28 | 1 commentaires | Partager sur WhatsApp
  • Le service est passé hors ligne à cause d’une panne de Tarsnap.
  • L’incident a été provoqué par l’échec de la vérification d’état système du serveur central Tarsnap, hébergé dans la région EC2 us-east-1 d’Amazon.
  • La cause exacte de la panne n’est pas connue, mais il s’agit probablement d’une défaillance matérielle isolée.
  • Le système de supervision de Tarsnap a détecté la panne et a envoyé une alerte à l’opérateur.
  • Une instance EC2 de remplacement a été créée, mais afin d’éviter toute perte de données, le code serveur de Tarsnap n’a pas été redémarré automatiquement.
  • Après le redémarrage du serveur, les journaux ont révélé une corruption du système de fichiers, et il a été décidé de mettre en place un nouveau serveur plutôt que de restaurer l’ancien.
  • Le processus de récupération a consisté à lire les en-têtes de métadonnées depuis Amazon S3 et à rejouer les opérations localement.
  • Pendant la récupération, des erreurs sont apparues, liées aux entrées du journal d’enregistrement des machines et à l’ordre des entrées de journal non initialisées.
  • Le processus de récupération a progressé plus lentement que prévu et aurait pu être optimisé pour de meilleures performances.
  • La restauration de l’état s’est achevée le 3 juillet et le serveur est revenu en ligne.
  • Le trafic a repris environ 26 heures et 16 minutes après le début de l’incident.
  • En compensation de cette interruption, Tarsnap a accordé aux comptes utilisateurs 50 % d’un mois de frais de stockage.
  • Les utilisateurs sont invités à contacter Colin Percival, fondateur de Tarsnap, pour toute question ou préoccupation.

1 commentaires

 
GN⁺ 2023-07-28
Commentaires sur Hacker News
  • L’éditeur de cet article a crédité sur tous les comptes Tarsnap l’équivalent de 50 % d’un mois de coûts de stockage après la panne.
  • Cet éditeur est salué pour son approche généreuse et centrée sur le client dans sa gestion de la situation.
  • Cet éditeur se dit surpris par la popularité de l’article et mentionne qu’il est limité pour répondre aux questions pour des raisons personnelles.
  • Un commentateur suggère qu’échanger du temps d’indisponibilité supplémentaire contre du repos pourrait aider à résoudre le problème.
  • Tester régulièrement le processus de restauration aide à identifier et corriger les bugs ou autres problèmes.
  • Cette analyse post-mortem est appréciée pour son professionnalisme, sa courtoisie et son honnêteté.
  • Des commentateurs recommandent de définir et tester des étapes de reprise après incident afin de minimiser les futures indisponibilités.
  • Dans des incidents similaires, il est suggéré d’embaucher un collaborateur à temps partiel pour améliorer la résilience de l’activité.
  • Pour les utilisateurs potentiels, le risque de dépendre d’une seule personne, en l’occurrence Colin Percival, est mentionné.
  • Une erreur de code datant de 2014 est identifiée comme la cause de la panne, et l’usage de la modélisation TLA+ est recommandé pour détecter ce type de problème.
  • La page d’infrastructure du site web de Tarsnap devrait être mise à jour pour refléter la panne.
  • La question est posée de savoir s’il est possible d’intégrer le logiciel de chiffrement de Tarsnap à Dropbox pour un stockage sécurisé des données.