- Le service est passé hors ligne à cause d’une panne de Tarsnap.
- L’incident a été provoqué par l’échec de la vérification d’état système du serveur central Tarsnap, hébergé dans la région EC2
us-east-1 d’Amazon.
- La cause exacte de la panne n’est pas connue, mais il s’agit probablement d’une défaillance matérielle isolée.
- Le système de supervision de Tarsnap a détecté la panne et a envoyé une alerte à l’opérateur.
- Une instance EC2 de remplacement a été créée, mais afin d’éviter toute perte de données, le code serveur de Tarsnap n’a pas été redémarré automatiquement.
- Après le redémarrage du serveur, les journaux ont révélé une corruption du système de fichiers, et il a été décidé de mettre en place un nouveau serveur plutôt que de restaurer l’ancien.
- Le processus de récupération a consisté à lire les en-têtes de métadonnées depuis Amazon S3 et à rejouer les opérations localement.
- Pendant la récupération, des erreurs sont apparues, liées aux entrées du journal d’enregistrement des machines et à l’ordre des entrées de journal non initialisées.
- Le processus de récupération a progressé plus lentement que prévu et aurait pu être optimisé pour de meilleures performances.
- La restauration de l’état s’est achevée le 3 juillet et le serveur est revenu en ligne.
- Le trafic a repris environ 26 heures et 16 minutes après le début de l’incident.
- En compensation de cette interruption, Tarsnap a accordé aux comptes utilisateurs 50 % d’un mois de frais de stockage.
- Les utilisateurs sont invités à contacter Colin Percival, fondateur de Tarsnap, pour toute question ou préoccupation.
1 commentaires
Commentaires sur Hacker News