whichllm - Trouver le LLM local qui fonctionne réellement sur votre matériel et offre les meilleures performances

xguru · 2026-05-18T10:06:01+09:00

Outil CLI qui recommande automatiquement des LLM locaux adaptés au matériel de l’utilisateur à partir de benchmarks mesurés en conditions réelles, et non du nombre de paramètres Détecte automatiquement le GPU/CPU/la RAM et propose un classement des meilleurs modèles parmi les modèles HuggingFace compatibles avec le système Prend en charge NVIDIA, AMD, Apple Silicon et les configurations CPU-only L’objectif principal n’est pas de choisir le plus gros modèle qui tient dans la VRAM, mais le meilleur modèle réel parmi ceux qui tiennent Exemple : dans une simulation RTX 4090, même si un modèle 32B rentre, l’outil recommande en n°1 un modèle 27B plus récent (Qwen3.6-27B) Notation fusionnée multi-benchmarks : intègre LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO et Open LLM Leaderboard pour produire un score de 0 à 100 Prise en compte de la récence des modèles (recency-aware) : les leaderboards anciens sont pénalisés en suivant la lignée des modèles, afin d’empêcher qu’un modèle de 2024 dépasse les modèles de génération actuelle grâce à des scores d’anciennes versions 5 niveaux de qualification des preuves - étiquetage en direct / variant / base_model / line_interp / self_reported, avec décote de fiabilité Empêche les auto-déclarations trompeuses des uploaders ainsi que l’héritage inter-familles où de petits forks récupèrent les gros scores de leur modèle de base L’héritage est refusé si le nombre de paramètres diffère d’un facteur supérieur ou égal à 2 par rapport au membre dominant de la famille Estimation de la VRAM et de la vitesse tenant compte de l’architecture - pour la VRAM : poids + cache KV GQA + activations + surcharge ; pour la vitesse : modèle limité par la bande passante, distinction entre MoE actif et total, et prise en compte de la mémoire unifiée vs offload partiel via PCIe Prend en charge un workflow en une seule commande avec whichllm run, permettant d’aller directement du téléchargement du modèle au chat Crée un environnement isolé avec uv, installe les dépendances, télécharge le modèle et lance automatiquement un chat interactif Tous les formats sont pris en charge : GGUF / AWQ / GPTQ / FP16 / BF16 Commandes de planification matérielle whichllm --gpu "RTX 5090" - simuler un GPU arbitraire pour vérifier avant achat whichllm plan "llama 3 70b" - rechercher à rebours les GPU requis pour un modèle donné whichllm upgrade "RTX 4090" "RTX 5090" "H100" - comparer la machine actuelle et plusieurs GPU candidats Intégration Ollama : possibilité de construire des pipelines du type whichllm --top 1 --json | jq -r '.models[0].model_id' Sortie d’extraits de code : whichllm snippet "qwen 7b" fournit du code Python prêt à copier-coller, depuis l’appel à llama_cpp.Llama.from_pretrained jusqu’à la complétion de chat Licence MIT

(github.com/Andyyyy64)

71 points par xguru 2026-05-18 | 3 commentaires | Partager sur WhatsApp

Outil CLI qui recommande automatiquement des LLM locaux adaptés au matériel de l’utilisateur à partir de benchmarks mesurés en conditions réelles, et non du nombre de paramètres
Détecte automatiquement le GPU/CPU/la RAM et propose un classement des meilleurs modèles parmi les modèles HuggingFace compatibles avec le système
- Prend en charge NVIDIA, AMD, Apple Silicon et les configurations CPU-only
L’objectif principal n’est pas de choisir le plus gros modèle qui tient dans la VRAM, mais le meilleur modèle réel parmi ceux qui tiennent
- Exemple : dans une simulation RTX 4090, même si un modèle 32B rentre, l’outil recommande en n°1 un modèle 27B plus récent (Qwen3.6-27B)
Notation fusionnée multi-benchmarks : intègre LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO et Open LLM Leaderboard pour produire un score de 0 à 100
Prise en compte de la récence des modèles (recency-aware) : les leaderboards anciens sont pénalisés en suivant la lignée des modèles, afin d’empêcher qu’un modèle de 2024 dépasse les modèles de génération actuelle grâce à des scores d’anciennes versions
5 niveaux de qualification des preuves - étiquetage en direct / variant / base_model / line_interp / self_reported, avec décote de fiabilité
- Empêche les auto-déclarations trompeuses des uploaders ainsi que l’héritage inter-familles où de petits forks récupèrent les gros scores de leur modèle de base
- L’héritage est refusé si le nombre de paramètres diffère d’un facteur supérieur ou égal à 2 par rapport au membre dominant de la famille
Estimation de la VRAM et de la vitesse tenant compte de l’architecture - pour la VRAM : poids + cache KV GQA + activations + surcharge ; pour la vitesse : modèle limité par la bande passante, distinction entre MoE actif et total, et prise en compte de la mémoire unifiée vs offload partiel via PCIe
Prend en charge un workflow en une seule commande avec whichllm run, permettant d’aller directement du téléchargement du modèle au chat
- Crée un environnement isolé avec uv, installe les dépendances, télécharge le modèle et lance automatiquement un chat interactif
- Tous les formats sont pris en charge : GGUF / AWQ / GPTQ / FP16 / BF16
Commandes de planification matérielle
- whichllm --gpu "RTX 5090" - simuler un GPU arbitraire pour vérifier avant achat
- whichllm plan "llama 3 70b" - rechercher à rebours les GPU requis pour un modèle donné
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - comparer la machine actuelle et plusieurs GPU candidats
Intégration Ollama : possibilité de construire des pipelines du type whichllm --top 1 --json | jq -r '.models[0].model_id'
Sortie d’extraits de code : whichllm snippet "qwen 7b" fournit du code Python prêt à copier-coller, depuis l’appel à llama_cpp.Llama.from_pretrained jusqu’à la complétion de chat
Licence MIT

3 commentaires

xguru 2026-05-18

J’en recommande donc 5 comme ça. 3 sont des Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 2026-05-19

J’utilisais le site https://www.canirun.ai/, il faudra que je l’essaie une fois.

popopo 2026-05-18

╭────────────────────────────────────────────────────── Informations matérielles ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — mémoire partagée — BP : 256 GB/s            │  
│ CPU : AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 cœurs (AVX2, AVX-512)                                                             │  
│ RAM : 117.5 GB                                                                                                                     │  
│ Espace disque libre : 174.1 GB                                                                                                     │  
│ OS : linux                                                                                                                         │  
╰─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               Modèles recommandés  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Modèle                                    ┃ Params ┃ Quant  ┃ Publication ┃ Télécharg. ┃ Score ┃ Licence  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Niveau de confiance du meilleur choix : élevé (benchmark direct, écart de +2.9)  
  Référence du benchmark : snapshot sélectionné de 2026-05 ; fusion de live AA / LiveBench / Aider lorsqu’accessibles.

whichllm - Trouver le LLM local qui fonctionne réellement sur votre matériel et offre les meilleures performances

À lire aussi

3 commentaires