nvidia-smi et nvtop ne font que vérifier si des kernels s’exécutent sur le GPU, et peuvent donc afficher 100 % d’utilisation même si seule une infime partie de la capacité matérielle réelle est utilisée
- Utilyze lit directement les compteurs de performance du GPU pour montrer en direct l’utilisation réelle des ressources, avec une surcharge négligeable
- Il calcule la borne supérieure Attainable SOL, c’est-à-dire le taux d’utilisation maximal réalistement atteignable pour une combinaison charge de travail·modèle·matériel, afin de voir jusqu’où l’on peut encore pousser l’utilisation actuelle
- Il détecte automatiquement les serveurs d’inférence en cours d’exécution et identifie les modèles chargés sur chaque GPU ; le backend actuel ne prend en charge que vLLM (prise en charge de SGLang, etc. prévue plus tard)
- Le matériel pris en charge est NVIDIA Ampere ou plus récent (A100, H100, H200, B200, RTX 3000+), avec à ce jour la prise en charge de certains modèles sur H100-80G et A100-80G dans des configurations allant jusqu’à 8 GPU par nœud
- L’architecture consiste à exécuter le serveur de profiling sous Linux et à s’y connecter depuis macOS/Windows via un client distant basé sur WebSocket
- Un seul ID de périphérique ne peut surveiller qu’une seule instance — une contrainte liée à la méthode d’accès aux périphériques de l’API NVIDIA Perf SDK
- Pour l’exécuter sans sudo, il faut définir
NVreg_RestrictProfilingToAdminUsers=0 puis redémarrer
- Licence Apache-2.0
Aucun commentaire pour le moment.