- Outil CLI qui recommande automatiquement des LLM locaux adaptés au matériel de l’utilisateur à partir de benchmarks mesurés en conditions réelles, et non du nombre de paramètres
- Détecte automatiquement le GPU/CPU/la RAM et propose un classement des meilleurs modèles parmi les modèles HuggingFace compatibles avec le système
- Prend en charge NVIDIA, AMD, Apple Silicon et les configurations CPU-only
- L’objectif principal n’est pas de choisir le plus gros modèle qui tient dans la VRAM, mais le meilleur modèle réel parmi ceux qui tiennent
- Exemple : dans une simulation RTX 4090, même si un modèle 32B rentre, l’outil recommande en n°1 un modèle 27B plus récent (
Qwen3.6-27B)
- Notation fusionnée multi-benchmarks : intègre LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO et Open LLM Leaderboard pour produire un score de 0 à 100
- Prise en compte de la récence des modèles (recency-aware) : les leaderboards anciens sont pénalisés en suivant la lignée des modèles, afin d’empêcher qu’un modèle de 2024 dépasse les modèles de génération actuelle grâce à des scores d’anciennes versions
- 5 niveaux de qualification des preuves - étiquetage en
direct / variant / base_model / line_interp / self_reported, avec décote de fiabilité
- Empêche les auto-déclarations trompeuses des uploaders ainsi que l’héritage inter-familles où de petits forks récupèrent les gros scores de leur modèle de base
- L’héritage est refusé si le nombre de paramètres diffère d’un facteur supérieur ou égal à 2 par rapport au membre dominant de la famille
- Estimation de la VRAM et de la vitesse tenant compte de l’architecture - pour la VRAM : poids + cache KV GQA + activations + surcharge ; pour la vitesse : modèle limité par la bande passante, distinction entre MoE actif et total, et prise en compte de la mémoire unifiée vs offload partiel via PCIe
- Prend en charge un workflow en une seule commande avec
whichllm run, permettant d’aller directement du téléchargement du modèle au chat
- Crée un environnement isolé avec
uv, installe les dépendances, télécharge le modèle et lance automatiquement un chat interactif
- Tous les formats sont pris en charge : GGUF / AWQ / GPTQ / FP16 / BF16
- Commandes de planification matérielle
whichllm --gpu "RTX 5090" - simuler un GPU arbitraire pour vérifier avant achat
whichllm plan "llama 3 70b" - rechercher à rebours les GPU requis pour un modèle donné
whichllm upgrade "RTX 4090" "RTX 5090" "H100" - comparer la machine actuelle et plusieurs GPU candidats
- Intégration Ollama : possibilité de construire des pipelines du type
whichllm --top 1 --json | jq -r '.models[0].model_id'
- Sortie d’extraits de code :
whichllm snippet "qwen 7b" fournit du code Python prêt à copier-coller, depuis l’appel à llama_cpp.Llama.from_pretrained jusqu’à la complétion de chat
- Licence MIT
1 commentaires
J’en recommande donc 5 comme ça. 3 sont des Qwen.
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B