Débogage de Hetzner : résoudre les problèmes avec powerstat, sensors et dmidecode
-
Contexte
- Ubicloud a adopté les serveurs AX162 de Hetzner, mais a rencontré de sérieux problèmes de fiabilité.
- Les serveurs AX162 offraient de meilleures performances et un prix plus bas que le modèle précédent, mais tombaient en panne 16 fois plus souvent.
- Le problème n’a été résolu qu’après plusieurs mises à jour matérielles.
-
Apparition du problème
- Le premier serveur AX162 est tombé en panne trois semaines après son achat.
- Des octets NULL ont été trouvés dans les journaux système, signe d’une défaillance brutale comme une coupure d’alimentation.
- Hetzner a effectué des vérifications matérielles sans détecter d’anomalie.
- À mesure que la fréquence des pannes augmentait, Hetzner remplaçait les serveurs chaque fois qu’un défaut matériel était identifié.
-
Enquête initiale
- Charge système : l’équipe pensait que le problème pouvait survenir lorsque la charge augmentait, mais des pannes se produisaient aussi lorsque la charge était faible, voire nulle.
- Température : la température a été mesurée avec des capteurs, mais au moment des pannes elle n’était pas supérieure à la moyenne.
- Composants défectueux : des informations matérielles ont été collectées avec la commande
dmidecode, mais aucune différence majeure n’a été observée entre les serveurs tombés en panne et les autres. - Consommation électrique : l’outil
powerstata servi à mesurer la consommation électrique, et l’équipe a soupçonné Hetzner d’avoir pu limiter l’usage de l’alimentation.
-
Collecte et comparaison des données de taux de panne
- Le taux de panne annuel (AFR) a été utilisé pour mesurer la fiabilité du matériel.
- Les serveurs AX162 tombaient en panne 16 fois plus souvent que les autres modèles.
- Après une première panne, 80 % des serveurs subissaient une deuxième panne dans les 24 heures.
-
Observation de la stabilité avec le nouveau matériel
- Hetzner a confirmé l’existence d’un lot de cartes mères défectueuses et a recommandé leur remplacement.
- Des pannes se sont encore produites après le remplacement par de nouvelles cartes mères.
- Après un remplacement par les cartes mères les plus récentes et plusieurs mois de surveillance, le problème de panne a été résolu.
-
Amélioration des processus
- Un examen approfondi est nécessaire lors de l’introduction de nouveaux modèles de serveurs.
- Le nouveau matériel doit être déployé progressivement, en commençant par les charges de travail non critiques.
- Ajouter davantage de fournisseurs de bare metal permet de répartir les risques.
-
Conclusion
- L’adoption initiale des serveurs Hetzner a causé des problèmes, mais ceux-ci ont été résolus grâce à des améliorations continues.
- Ubicloud continuera à travailler pour fournir des solutions cloud fiables et adaptables.
1 commentaires
Commentaires sur Hacker News