71 points par xguru 2026-05-18 | 3 commentaires | Partager sur WhatsApp
  • Outil CLI qui recommande automatiquement des LLM locaux adaptés au matériel de l’utilisateur à partir de benchmarks mesurés en conditions réelles, et non du nombre de paramètres
  • Détecte automatiquement le GPU/CPU/la RAM et propose un classement des meilleurs modèles parmi les modèles HuggingFace compatibles avec le système
    • Prend en charge NVIDIA, AMD, Apple Silicon et les configurations CPU-only
  • L’objectif principal n’est pas de choisir le plus gros modèle qui tient dans la VRAM, mais le meilleur modèle réel parmi ceux qui tiennent
    • Exemple : dans une simulation RTX 4090, même si un modèle 32B rentre, l’outil recommande en n°1 un modèle 27B plus récent (Qwen3.6-27B)
  • Notation fusionnée multi-benchmarks : intègre LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO et Open LLM Leaderboard pour produire un score de 0 à 100
  • Prise en compte de la récence des modèles (recency-aware) : les leaderboards anciens sont pénalisés en suivant la lignée des modèles, afin d’empêcher qu’un modèle de 2024 dépasse les modèles de génération actuelle grâce à des scores d’anciennes versions
  • 5 niveaux de qualification des preuves - étiquetage en direct / variant / base_model / line_interp / self_reported, avec décote de fiabilité
    • Empêche les auto-déclarations trompeuses des uploaders ainsi que l’héritage inter-familles où de petits forks récupèrent les gros scores de leur modèle de base
    • L’héritage est refusé si le nombre de paramètres diffère d’un facteur supérieur ou égal à 2 par rapport au membre dominant de la famille
  • Estimation de la VRAM et de la vitesse tenant compte de l’architecture - pour la VRAM : poids + cache KV GQA + activations + surcharge ; pour la vitesse : modèle limité par la bande passante, distinction entre MoE actif et total, et prise en compte de la mémoire unifiée vs offload partiel via PCIe
  • Prend en charge un workflow en une seule commande avec whichllm run, permettant d’aller directement du téléchargement du modèle au chat
    • Crée un environnement isolé avec uv, installe les dépendances, télécharge le modèle et lance automatiquement un chat interactif
    • Tous les formats sont pris en charge : GGUF / AWQ / GPTQ / FP16 / BF16
  • Commandes de planification matérielle
    • whichllm --gpu "RTX 5090" - simuler un GPU arbitraire pour vérifier avant achat
    • whichllm plan "llama 3 70b" - rechercher à rebours les GPU requis pour un modèle donné
    • whichllm upgrade "RTX 4090" "RTX 5090" "H100" - comparer la machine actuelle et plusieurs GPU candidats
  • Intégration Ollama : possibilité de construire des pipelines du type whichllm --top 1 --json | jq -r '.models[0].model_id'
  • Sortie d’extraits de code : whichllm snippet "qwen 7b" fournit du code Python prêt à copier-coller, depuis l’appel à llama_cpp.Llama.from_pretrained jusqu’à la complétion de chat
  • Licence MIT

3 commentaires

 
xguru 2026-05-18

J’en recommande donc 5 comme ça. 3 sont des Qwen.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

 
nezz1204 2026-05-19

J’utilisais le site https://www.canirun.ai/, il faudra que je l’essaie une fois.

 
popopo 2026-05-18
╭────────────────────────────────────────────────────── Informations matérielles ───────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — mémoire partagée — BP : 256 GB/s            │  
│ CPU : AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 cœurs (AVX2, AVX-512)                                                             │  
│ RAM : 117.5 GB                                                                                                                     │  
│ Espace disque libre : 174.1 GB                                                                                                     │  
│ OS : linux                                                                                                                         │  
╰─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               Modèles recommandés  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Modèle                                    ┃ Params ┃ Quant  ┃ Publication ┃ Télécharg. ┃ Score ┃ Licence  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴────────────┴───────────┴───────┴──────────┘  
  Niveau de confiance du meilleur choix : élevé (benchmark direct, écart de +2.9)  
  Référence du benchmark : snapshot sélectionné de 2026-05 ; fusion de live AA / LiveBench / Aider lorsqu’accessibles.