Utilyze - un outil qui mesure avec quelle efficacité un GPU exécute réellement un travail utile

xguru · 2026-05-22T09:31:03+09:00

nvidia-smi et nvtop ne font que vérifier si des kernels s’exécutent sur le GPU, et peuvent donc afficher 100 % d’utilisation même si seule une infime partie de la capacité matérielle réelle est utilisée Utilyze lit directement les compteurs de performance du GPU pour montrer en direct l’utilisation réelle des ressources, avec une surcharge négligeable Il calcule la borne supérieure Attainable SOL, c’est-à-dire le taux d’utilisation maximal réalistement atteignable pour une combinaison charge de travail·modèle·matériel, afin de voir jusqu’où l’on peut encore pousser l’utilisation actuelle Il détecte automatiquement les serveurs d’inférence en cours d’exécution et identifie les modèles chargés sur chaque GPU ; le backend actuel ne prend en charge que vLLM (prise en charge de SGLang, etc. prévue plus tard) Le matériel pris en charge est NVIDIA Ampere ou plus récent (A100, H100, H200, B200, RTX 3000+), avec à ce jour la prise en charge de certains modèles sur H100-80G et A100-80G dans des configurations allant jusqu’à 8 GPU par nœud L’architecture consiste à exécuter le serveur de profiling sous Linux et à s’y connecter depuis macOS/Windows via un client distant basé sur WebSocket Un seul ID de périphérique ne peut surveiller qu’une seule instance — une contrainte liée à la méthode d’accès aux périphériques de l’API NVIDIA Perf SDK Pour l’exécuter sans sudo, il faut définir NVreg_RestrictProfilingToAdminUsers=0 puis redémarrer Licence Apache-2.0

(github.com/systalyze)

4 points par xguru 2026-05-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp

nvidia-smi et nvtop ne font que vérifier si des kernels s’exécutent sur le GPU, et peuvent donc afficher 100 % d’utilisation même si seule une infime partie de la capacité matérielle réelle est utilisée
Utilyze lit directement les compteurs de performance du GPU pour montrer en direct l’utilisation réelle des ressources, avec une surcharge négligeable
Il calcule la borne supérieure Attainable SOL, c’est-à-dire le taux d’utilisation maximal réalistement atteignable pour une combinaison charge de travail·modèle·matériel, afin de voir jusqu’où l’on peut encore pousser l’utilisation actuelle
Il détecte automatiquement les serveurs d’inférence en cours d’exécution et identifie les modèles chargés sur chaque GPU ; le backend actuel ne prend en charge que vLLM (prise en charge de SGLang, etc. prévue plus tard)
Le matériel pris en charge est NVIDIA Ampere ou plus récent (A100, H100, H200, B200, RTX 3000+), avec à ce jour la prise en charge de certains modèles sur H100-80G et A100-80G dans des configurations allant jusqu’à 8 GPU par nœud
L’architecture consiste à exécuter le serveur de profiling sous Linux et à s’y connecter depuis macOS/Windows via un client distant basé sur WebSocket
Un seul ID de périphérique ne peut surveiller qu’une seule instance — une contrainte liée à la méthode d’accès aux périphériques de l’API NVIDIA Perf SDK
Pour l’exécuter sans sudo, il faut définir NVreg_RestrictProfilingToAdminUsers=0 puis redémarrer
Licence Apache-2.0

Utilyze - un outil qui mesure avec quelle efficacité un GPU exécute réellement un travail utile

À lire aussi

Aucun commentaire pour le moment.