NVBeacon - une app pour voir l’état de GPU NVIDIA distants depuis la barre de menus de macOS
(github.com/jaein4722)Comme je travaille dans la recherche en IA, je lance souvent des entraînements sur des serveurs GPU partagés. À chaque fois, devoir ouvrir un terminal pour vérifier nvidia-smi afin de voir s’il reste un GPU libre, si le processus d’entraînement est toujours actif, ou si l’utilisation et la mémoire sont correctement exploitées, était assez fastidieux.
J’ai donc créé une app qui permet de consulter directement depuis la barre de menus de macOS l’état de serveurs NVIDIA GPU distants. Elle se connecte au serveur en SSH pour récupérer les informations, et fonctionne sans agent dédié ni programme supplémentaire à installer côté serveur.
Depuis la barre de menus, on peut voir immédiatement l’état des GPU du serveur connecté, ainsi que les informations par processus. L’app récupère aussi les UID des processus, qui ne sont pas facilement visibles avec le seul nvidia-smi, ce qui permet d’identifier plus intuitivement quel utilisateur exécute quelle tâche. J’ai aussi veillé à réutiliser autant que possible la configuration SSH existante, et à faciliter la localisation rapide des processus que je lance moi-même.
C’est un outil que j’avais créé pour mon usage personnel, mais après l’avoir fait tester rapidement à quelques personnes autour de moi et avoir reçu un accueil meilleur que prévu, j’ai décidé de le rendre public. Pour l’instant, il est uniquement disponible sur macOS.
Si certains d’entre vous utilisent souvent des serveurs GPU dans un environnement similaire, n’hésitez pas à l’essayer. Et si vous rencontrez des points gênants ou avez besoin de fonctionnalités supplémentaires, je vous serais reconnaissant pour vos retours !
2 commentaires
Waouh... ça a l'air vraiment utile.
Merci !
Nous continuons à l’améliorer pour qu’il soit encore plus agréable à utiliser.