1 points par GN⁺ 2025-02-21 | 1 commentaires | Partager sur WhatsApp

Débogage de Hetzner : résoudre les problèmes avec powerstat, sensors et dmidecode

  • Contexte

    • Ubicloud a adopté les serveurs AX162 de Hetzner, mais a rencontré de sérieux problèmes de fiabilité.
    • Les serveurs AX162 offraient de meilleures performances et un prix plus bas que le modèle précédent, mais tombaient en panne 16 fois plus souvent.
    • Le problème n’a été résolu qu’après plusieurs mises à jour matérielles.
  • Apparition du problème

    • Le premier serveur AX162 est tombé en panne trois semaines après son achat.
    • Des octets NULL ont été trouvés dans les journaux système, signe d’une défaillance brutale comme une coupure d’alimentation.
    • Hetzner a effectué des vérifications matérielles sans détecter d’anomalie.
    • À mesure que la fréquence des pannes augmentait, Hetzner remplaçait les serveurs chaque fois qu’un défaut matériel était identifié.
  • Enquête initiale

    • Charge système : l’équipe pensait que le problème pouvait survenir lorsque la charge augmentait, mais des pannes se produisaient aussi lorsque la charge était faible, voire nulle.
    • Température : la température a été mesurée avec des capteurs, mais au moment des pannes elle n’était pas supérieure à la moyenne.
    • Composants défectueux : des informations matérielles ont été collectées avec la commande dmidecode, mais aucune différence majeure n’a été observée entre les serveurs tombés en panne et les autres.
    • Consommation électrique : l’outil powerstat a servi à mesurer la consommation électrique, et l’équipe a soupçonné Hetzner d’avoir pu limiter l’usage de l’alimentation.
  • Collecte et comparaison des données de taux de panne

    • Le taux de panne annuel (AFR) a été utilisé pour mesurer la fiabilité du matériel.
    • Les serveurs AX162 tombaient en panne 16 fois plus souvent que les autres modèles.
    • Après une première panne, 80 % des serveurs subissaient une deuxième panne dans les 24 heures.
  • Observation de la stabilité avec le nouveau matériel

    • Hetzner a confirmé l’existence d’un lot de cartes mères défectueuses et a recommandé leur remplacement.
    • Des pannes se sont encore produites après le remplacement par de nouvelles cartes mères.
    • Après un remplacement par les cartes mères les plus récentes et plusieurs mois de surveillance, le problème de panne a été résolu.
  • Amélioration des processus

    • Un examen approfondi est nécessaire lors de l’introduction de nouveaux modèles de serveurs.
    • Le nouveau matériel doit être déployé progressivement, en commençant par les charges de travail non critiques.
    • Ajouter davantage de fournisseurs de bare metal permet de répartir les risques.
  • Conclusion

    • L’adoption initiale des serveurs Hetzner a causé des problèmes, mais ceux-ci ont été résolus grâce à des améliorations continues.
    • Ubicloud continuera à travailler pour fournir des solutions cloud fiables et adaptables.

1 commentaires

 
GN⁺ 2025-02-21
Commentaires sur Hacker News
  • La plupart des autres modèles AX (AX42, AX52, AX102) présentent eux aussi de graves problèmes de fiabilité et tombent en panne après quelques mois. Cela serait dû à des cartes mères défectueuses. Hetzner devrait remplacer la majorité des cartes mères des serveurs fabriqués avant une certaine date
  • Dans une ancienne entreprise, on constatait fréquemment des pannes de ventilateurs CPU chez Hetzner, en plus des pannes habituelles de HDD/SSD. Une surveillance maison est nécessaire, ce qui fait partie des raisons pour lesquelles un serveur non managé coûte moins cher qu’une instance cloud
  • Avec le recul, attendre 6 mois aurait permis d’éviter beaucoup de problèmes. Les early adopters découvrent souvent des problèmes qui seront corrigés plus tard
    • C’est un très bon conseil, et je l’applique à tous les systèmes qui exigent de la stabilité
    • Sauf problème de sécurité, j’attends quelques mois ou je reste une ou deux versions en arrière
  • Hetzner n’a ni confirmé ni infirmé la possibilité d’une limitation de puissance
    • Quelles sont les conséquences d’une limitation de puissance ? D’après l’article, le matériel pourrait se dégrader plus vite
    • L’absence de réponse de Hetzner et les mesures d’UbiCloud semblent indiquer qu’ils limitent effectivement la puissance. Sinon, ils l’auraient dit
  • Dell rencontre aussi parfois ce type de problème. Quand nous avons reçu leur premier lot d’anciens serveurs, il a fallu remplacer la section I/O (à l’arrière). Une fois ce problème réglé, ils ont tourné pendant presque 10 ans
    • Nous avons récemment mis ces serveurs à la retraite. De la carte RAID au régulateur de puissance, tout était usé
    • C’est assez choquant de redémarrer un serveur qui fonctionnait parfaitement à cause d’un changement de configuration, puis de perdre la carte RAID définitivement
  • Pour augmenter le nombre de machines sous contrainte électrique, les opérateurs de data centers limitent généralement la consommation électrique par machine. Mais cela pourrait accélérer la dégradation des cartes mères
    • Quelqu’un peut-il expliquer ce point ? Cela semble contre-intuitif
    • D’après les résultats de recherche, lorsqu’on atteint le thermal throttling, des températures de fonctionnement élevées peuvent accélérer la dégradation des composants (par exemple les condensateurs). Mais l’article a examiné divers capteurs de température, donc cela ne semble pas être le cas ici
  • Je me demande si cela pourrait venir d’un problème d’alimentation/signal ou d’un problème de VRM. Ce n’est pas parce que le CPU n’est pas chaud que d’autres parties de la carte ne sortent pas des spécifications au point de provoquer une panne fatale
    • Les problèmes de carte mère liés à l’alimentation/au signal sont difficiles à diagnostiquer. Ils se manifestent comme des problèmes touchant d’autres composants, et on finit par tout remplacer avant d’en arriver à changer réellement la carte mère
  • Il m’est arrivé quelque chose de similaire sur un AX102 actuellement en service. Des plantages se produisaient à cause d’un problème lié à la carte réseau. Heureusement, le support Hetzner a aidé au remplacement du matériel. Cela a causé beaucoup de douleur, mais a aussi été une bonne leçon sur la résolution des problèmes matériels
  • Quelqu’un ayant de l’expérience en data center peut-il estimer à quel type d’accord commercial Hetzner a pu parvenir avec le fournisseur de cartes mères ? Peut-on supposer qu’ils ont obtenu le remplacement gratuit de toutes les cartes mères, avec compensation ?
  • Avant de supposer qu’il y a une limitation de puissance, j’aimerais voir quel gouverneur CPU tourne sur ces systèmes. Beaucoup d’installations Linux par défaut utilisent un gouverneur d’économie d’énergie, ce qui limite la fréquence maximale et la puissance maximale