28 points par GN⁺ 2026-03-03 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Un outil qui, parmi des centaines de modèles et fournisseurs de LLM, trouve en une seule commande les modèles réellement exécutables sur la RAM, le CPU et le GPU de votre système
  • Il note chaque modèle selon la qualité, la vitesse, l’adéquation et le contexte, puis indique sa faisabilité d’exécution, avec prise en charge à la fois d’une TUI (interface terminal) et d’un mode CLI
  • Prend en charge les GPU multiples, l’architecture MoE, la quantification dynamique, l’estimation de vitesse et l’intégration avec des runtimes locaux (Ollama, llama.cpp, MLX)
  • Analyse pour chaque modèle le mode d’exécution (GPU, CPU+GPU, CPU) et le niveau d’adéquation (Perfect, Good, Marginal, Too Tight) afin de proposer la meilleure combinaison
  • Fournit aux développeurs qui veulent exploiter efficacement les LLM en local une automatisation du choix de modèle basée sur le matériel

Aperçu des principales fonctionnalités

  • llmfit est un outil en ligne de commande qui détecte les caractéristiques matérielles du système et évalue si un modèle LLM peut réellement être exécuté
    • Lit les informations de RAM, CPU et GPU pour calculer, pour chaque modèle, des scores de qualité, vitesse, adéquation et contexte
    • Les résultats sont affichés soit dans une TUI interactive, soit dans une CLI classique
  • Prend en charge les GPU multiples, le Mixture-of-Experts (MoE), la sélection de quantification dynamique, l’estimation de vitesse et l’intégration avec des runtimes locaux
  • Prend en charge Ollama, llama.cpp et MLX comme runtimes locaux, avec détection automatique des modèles installés et possibilité de téléchargement
  • Le mode Plan permet de calculer à rebours le matériel minimum et recommandé nécessaire pour un modèle donné
  • Fonctionne sur diverses plateformes, dont macOS, Linux, Windows et Ascend

Installation et exécution

  • Sur macOS/Linux, installation via brew install llmfit ou curl -fsSL https://llmfit.axjns.dev/install.sh | sh
  • Sur Windows, installation possible via cargo install llmfit
  • À l’exécution, la commande llmfit ouvre la TUI et affiche les spécifications du système ainsi que la liste des modèles
  • En mode CLI, divers sous-commandes sont disponibles comme llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json

Fonctionnement

  • Détection matérielle : collecte des informations RAM, CPU et GPU à l’aide de sysinfo, nvidia-smi, rocm-smi, system_profiler, etc.
  • Base de données de modèles : récupère des centaines de modèles via l’API HuggingFace et les stocke dans data/hf_models.json
    • Inclut notamment les principaux modèles de Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite, etc.
  • Quantification dynamique : parcourt les niveaux Q8_0 à Q2_K et sélectionne automatiquement la meilleure quantification possible dans la mémoire disponible
  • Estimation de vitesse : utilise une formule basée sur la bande passante mémoire GPU, (bandwidth_GB_s / model_size_GB) × 0.55
    • Table de bande passante intégrée pour environ 80 GPU
  • Analyse d’adéquation : évalue, pour les modes GPU, CPU+GPU et CPU, la faisabilité d’exécution et la marge mémoire disponible

Interface utilisateur

  • Touches de la TUI :
    • f pour le filtre d’adéquation, a pour le filtre de disponibilité, s pour changer le critère de tri
    • p pour entrer en mode Plan, d pour télécharger un modèle, t pour changer de thème
  • En mode Plan, il est possible de modifier la longueur de contexte, la quantification, la vitesse cible en tokens, etc., afin de calculer la VRAM/RAM/CPU nécessaire
  • Thèmes : 6 thèmes de couleur intégrés, dont Default, Dracula, Solarized, Nord, Monokai et Gruvbox

Runtimes et intégrations

  • Intégration Ollama : connexion à une instance Ollama locale ou distante (variable d’environnement OLLAMA_HOST) pour détecter les modèles installés et les télécharger
  • Intégration llama.cpp : télécharge les fichiers GGUF depuis HuggingFace dans le cache local et indique leur statut d’installation
  • Intégration MLX : prise en charge du cache de modèles et de la connexion serveur pour Apple Silicon
  • Intégration OpenClaw : grâce à la skill llmfit-advisor, l’agent OpenClaw peut automatiquement recommander et configurer des modèles adaptés au matériel

Gestion de la base de données de modèles

  • Génération automatique de la liste des modèles depuis l’API HuggingFace via le script scripts/scrape_hf_models.py
  • Mise à jour des données et reconstruction du binaire via la commande make update-models
  • Les modèles sont classés en catégories : généralistes, code, raisonnement, multimodal, chat, embeddings, etc.
  • Le cache des sources GGUF (data/gguf_sources_cache.json) conserve les chemins de téléchargement pendant 7 jours

Prise en charge des plateformes

  • Linux/macOS (Apple Silicon) : prise en charge complète
  • Windows : détection RAM/CPU et prise en charge des GPU NVIDIA via nvidia-smi
  • En cas d’échec de la détection GPU, l’option --memory= permet de définir manuellement la VRAM

Licence

  • Licence MIT

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.