2 points par GN⁺ 2024-03-25 | 1 commentaires | Partager sur WhatsApp

Outils de crise pour Linux

  • Fournit une liste d’« outils de crise » à installer par défaut sur un serveur Linux, ainsi que les noms des paquets (Ubuntu) qui les contiennent.
  • Inclut des outils pour les statistiques de base, les journaux système, les informations sur les périphériques, les statistiques des périphériques, les outils réseau, les statistiques NUMA, les sniffers réseau, les profileurs et les statistiques PMU.
  • bpfcc-tools (bcc) et bpftrace fournissent des outils eBPF ; bcc offre davantage de fonctionnalités, tandis que bpftrace peut être édité en temps réel.
  • Selon le serveur, il est aussi recommandé de préinstaller certains outils d’analyse d’accélérateurs ou de débogage.
  • Ces outils d’analyse essentiels changent rarement et n’ont donc besoin d’être mis à jour qu’une fois tous les quelques années.

Importance d’installer les outils en cas de crise

  • Explique, à l’aide d’exemples, les problèmes pouvant survenir lors de l’installation de logiciels en pleine crise dans un environnement de production.
  • Le système peut ralentir, ce qui allonge le temps nécessaire pour installer les outils requis, et divers problèmes de configuration ou politiques de sécurité peuvent compliquer l’installation.
  • Afin de diagnostiquer et résoudre rapidement les problèmes en situation critique, il est préférable d’installer ces outils de crise à l’avance.

Avis de GN⁺

  • Cet article fournit des informations très utiles aux administrateurs système et aux SRE (ingénieurs de fiabilité de site). Il souligne l’importance de la préparation en amont pour pouvoir utiliser rapidement les outils nécessaires en situation réelle.
  • La préinstallation des outils de crise contribue à améliorer la disponibilité et la résilience du système, et aide à minimiser les temps d’arrêt potentiels.
  • Il est toutefois important de trouver un équilibre entre sécurité et performance. Par exemple, si des outils inutiles sont installés sur le système, un attaquant pourrait en tirer parti.
  • On pourrait envisager que les distributions Linux incluent par défaut des outils de crise adaptés aux environnements d’entreprise, mais cela dépend des politiques de sécurité et des besoins de chaque organisation.
  • La communauté open source propose déjà divers outils de monitoring et d’analyse des performances ; par exemple, des outils comme Prometheus et Grafana sont largement utilisés pour surveiller les performances système. Utilisés conjointement avec les outils de crise, ils peuvent rendre l’administration système plus efficace.

1 commentaires

 
GN⁺ 2024-03-25
Avis Hacker News
  • 16h07 échec de l’installation du paquet, impossible de résoudre le dépôt. Il y a un problème dans la configuration de /etc/apt

    • Le cloud a ses inconvénients, mais il est utile dans ce genre de situation. Au lieu de faire une réparation complexe, on peut résoudre le problème en arrêtant la machine défaillante ou en la retirant du pool, puis en utilisant une nouvelle machine.
  • Il y a beaucoup de serveurs conteneurisés, mais il reste malgré tout des défis.

    • De nombreux outils présents dans les images Docker sont signalés comme à risque par les outils de scan de sécurité. Des outils comme gdb peuvent effectivement susciter des inquiétudes, mais beaucoup d’autres non.
    • Pour éviter cela, certains placent les outils sous forme de binaires statiques sur un volume séparé, ou compilent et installent en utilisant le chemin de montage comme préfixe d’installation. Quand un débogage est nécessaire, l’équipe d’exploitation monte temporairement le volume en lecture seule.
  • Lorsqu’un outil de débogage nécessite l’activation de certaines fonctionnalités du noyau, il existe des inquiétudes quant à l’impact sur les autres conteneurs exécutés sur le même hôte.

  • Sur les systèmes FreeBSD, il existe un répertoire /rescue/ qui fournit un unique binaire d’environ 17 Mo, lié statiquement, regroupant environ 150 outils essentiels.

  • Quand je travaillais chez Netflix, Brendan et son équipe installaient partout des outils de débogage comme bpftrace, bcc et une version fonctionnelle de perf, et cela a sauvé la mise à plusieurs reprises.

  • Étonné de ne pas voir strace dans la liste. C’est un outil particulièrement utile quand un programme renvoie un message d’erreur inutile ou erroné.

  • Lors des entretiens pour des postes de type SRE, j’aborde toujours ces outils. Ce qui compte, ce ne sont pas tant les commandes précises que le candidat a mémorisées, mais ce qu’il est possible de faire, les types d’outils disponibles et la manière de s’en servir.

  • En situation de crise, quand il est impossible d’installer des outils, on peut exécuter de nombreux utilitaires via Docker. Par exemple, il est proposé de construire et d’exécuter un conteneur Docker lançant tcpdump tout en étant connecté au réseau de l’hôte.

  • yum install est préféré, mais si Docker est disponible, cela reste une alternative viable, même si elle exige des mappings supplémentaires. Cela peut ne pas fonctionner dans une configuration rootless/podman.

  • nmap, netstat et nc ne sont pas mentionnés. Ces outils ont aidé à résoudre des problèmes à de nombreuses reprises.

  • On peut obtenir un accès root ? Je dois ouvrir un ticket auprès de l’administrateur système pour pouvoir faire quoi que ce soit.

  • Ce que j’ajouterais, c’est nmap. Les problèmes de connectivité réseau ne sont pas toujours évidents dans certaines applications.