llmfit - l’outil terminal qui trouve et optimise automatiquement le modèle LLM adapté à votre matériel

(github.com/AlexsJones)

28 points par GN⁺ 2026-03-03 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Un outil qui, parmi des centaines de modèles et fournisseurs de LLM, trouve en une seule commande les modèles réellement exécutables sur la RAM, le CPU et le GPU de votre système
Il note chaque modèle selon la qualité, la vitesse, l’adéquation et le contexte, puis indique sa faisabilité d’exécution, avec prise en charge à la fois d’une TUI (interface terminal) et d’un mode CLI
Prend en charge les GPU multiples, l’architecture MoE, la quantification dynamique, l’estimation de vitesse et l’intégration avec des runtimes locaux (Ollama, llama.cpp, MLX)
Analyse pour chaque modèle le mode d’exécution (GPU, CPU+GPU, CPU) et le niveau d’adéquation (Perfect, Good, Marginal, Too Tight) afin de proposer la meilleure combinaison
Fournit aux développeurs qui veulent exploiter efficacement les LLM en local une automatisation du choix de modèle basée sur le matériel

Aperçu des principales fonctionnalités

llmfit est un outil en ligne de commande qui détecte les caractéristiques matérielles du système et évalue si un modèle LLM peut réellement être exécuté
- Lit les informations de RAM, CPU et GPU pour calculer, pour chaque modèle, des scores de qualité, vitesse, adéquation et contexte
- Les résultats sont affichés soit dans une TUI interactive, soit dans une CLI classique
Prend en charge les GPU multiples, le Mixture-of-Experts (MoE), la sélection de quantification dynamique, l’estimation de vitesse et l’intégration avec des runtimes locaux
Prend en charge Ollama, llama.cpp et MLX comme runtimes locaux, avec détection automatique des modèles installés et possibilité de téléchargement
Le mode Plan permet de calculer à rebours le matériel minimum et recommandé nécessaire pour un modèle donné
Fonctionne sur diverses plateformes, dont macOS, Linux, Windows et Ascend

Sur macOS/Linux, installation via brew install llmfit ou curl -fsSL https://llmfit.axjns.dev/install.sh | sh
Sur Windows, installation possible via cargo install llmfit
À l’exécution, la commande llmfit ouvre la TUI et affiche les spécifications du système ainsi que la liste des modèles
En mode CLI, divers sous-commandes sont disponibles comme llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json

Détection matérielle : collecte des informations RAM, CPU et GPU à l’aide de sysinfo, nvidia-smi, rocm-smi, system_profiler, etc.
Base de données de modèles : récupère des centaines de modèles via l’API HuggingFace et les stocke dans data/hf_models.json
- Inclut notamment les principaux modèles de Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite, etc.
Quantification dynamique : parcourt les niveaux Q8_0 à Q2_K et sélectionne automatiquement la meilleure quantification possible dans la mémoire disponible
Estimation de vitesse : utilise une formule basée sur la bande passante mémoire GPU, (bandwidth_GB_s / model_size_GB) × 0.55
- Table de bande passante intégrée pour environ 80 GPU
Analyse d’adéquation : évalue, pour les modes GPU, CPU+GPU et CPU, la faisabilité d’exécution et la marge mémoire disponible

Touches de la TUI :
- f pour le filtre d’adéquation, a pour le filtre de disponibilité, s pour changer le critère de tri
- p pour entrer en mode Plan, d pour télécharger un modèle, t pour changer de thème
En mode Plan, il est possible de modifier la longueur de contexte, la quantification, la vitesse cible en tokens, etc., afin de calculer la VRAM/RAM/CPU nécessaire
Thèmes : 6 thèmes de couleur intégrés, dont Default, Dracula, Solarized, Nord, Monokai et Gruvbox

Intégration Ollama : connexion à une instance Ollama locale ou distante (variable d’environnement OLLAMA_HOST) pour détecter les modèles installés et les télécharger
Intégration llama.cpp : télécharge les fichiers GGUF depuis HuggingFace dans le cache local et indique leur statut d’installation
Intégration MLX : prise en charge du cache de modèles et de la connexion serveur pour Apple Silicon
Intégration OpenClaw : grâce à la skill llmfit-advisor, l’agent OpenClaw peut automatiquement recommander et configurer des modèles adaptés au matériel

Génération automatique de la liste des modèles depuis l’API HuggingFace via le script scripts/scrape_hf_models.py
Mise à jour des données et reconstruction du binaire via la commande make update-models
Les modèles sont classés en catégories : généralistes, code, raisonnement, multimodal, chat, embeddings, etc.
Le cache des sources GGUF (data/gguf_sources_cache.json) conserve les chemins de téléchargement pendant 7 jours

Linux/macOS (Apple Silicon) : prise en charge complète
Windows : détection RAM/CPU et prise en charge des GPU NVIDIA via nvidia-smi
En cas d’échec de la détection GPU, l’option --memory= permet de définir manuellement la VRAM