Qwen 3.6 27B est le point d’équilibre idéal pour le développement local

(quesma.com)

5 points par GN⁺ 6 시간 전 | 1 commentaires | Partager sur WhatsApp

Qwen 3.6 27B apparaît comme une option pertinente pour les tâches généralistes, même pour les utilisateurs sceptiques vis-à-vis des modèles locaux ; il est recommandé comme modèle dense plus lent, mais plus puissant, que le 35B A3B
Dans les tests de création et de code, le respect des contraintes s’est révélé être un point fort ; dans OpenCode, il a généré en une seule invite un démineur hexagonal basé sur pnpm sous forme de package Node
En combinant llama.cpp et la quantification GGUF 8-bit de Hugging Face, l’exécution locale devient possible ; avec MTP, le chargement des couches sur GPU, flash attention et un contexte de 64k, on peut même configurer un environnement de codage agentique
Lors d’un test sur Macbook Max M5 128GB, Qwen3.6-27B 8-bit avec llama.cpp + MTP a atteint 32 tok/s en utilisant environ 42GB de RAM ; malgré un 35B A3B plus rapide, le 27B est préféré pour la meilleure qualité de son code
D’après Artificial Analysis, Qwen3.6-27B obtient 37 points, soit un niveau mid 2025 comparable à GPT-5 / Claude Sonnet 4.5, et se montre pratique pour les données sensibles, le travail hors ligne et l’exploitation d’un modèle propriétaire impossible à retirer à distance

Pourquoi recommander Qwen 3.6 27B

Qwen 3.6 est proposé en deux variantes
- Qwen 3.6 35B A3B : modèle mixture-of-experts
- Qwen 3.6 27B : modèle dense, plus lent mais plus puissant
Qwen 3.6 27B a suscité de nombreuses réactions selon lesquelles il « joue dans une catégorie supérieure à sa taille », avec notamment l’exemple Will it Mythos?
L’exécution locale peut faire chauffer l’ordinateur, mais les performances obtenues valent le compromis

Tests simples et résultats en conditions réelles

Comme test rapide, au lieu du « penguins on a bicycle » de Simon Willison, l’auteur utilise de l’écriture sous contrainte
Lorsqu’on lui a demandé un poème de 8 vers sur la danse zouk et la physique quantique, son raisonnement sur les termes quantiques et les rimes s’est enchaîné naturellement
- La conversation correspondante se trouve dans ce transcript
Dans OpenCode, lorsqu’on lui a demandé de créer un démineur hexagonal avec pnpm, il a généré un véritable package Node avec une seule invite
Qwen 3.6 35B A3B était plus rapide, mais n’a pas suivi l’instruction de créer un package et a implémenté le tout dans un unique index.html
Dans des tâches de travail courantes, il a aussi produit des résultats fonctionnels à partir de prompts courts, avec une réactivité et des valeurs par défaut plutôt correctes
- Ce n’est pas remarquable au regard des modèles frontier, mais c’est déjà un niveau pratique pour un modèle local

Exécution locale avec llama.cpp

L’exécution d’un modèle local est possible avec quelques lignes de CLI, et l’outil recommandé est llama.cpp
On télécharge depuis Hugging Face un modèle quantifié de taille réduite pour l’exécuter
- Parmi les fournisseurs populaires de modèles quantifiés figurent unsloth et bartowski
- Le modèle de base est généralement en précision BF16
- La quantification 8-bit réduit l’espace de moitié avec une perte de qualité quasi inexistante
- Les quantifications à plus faible nombre de bits rendent le modèle plus petit et potentiellement plus rapide, mais au prix de la qualité
- La comparaison du 27B se trouve dans ce benchmark Reddit, et celle du 35B A3B dans cette discussion Hugging Face
Exemple de lancement du serveur
```
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
    --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
```
- -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 : récupère le modèle depuis Hugging Face, puis le réutilise lors des exécutions suivantes
- -m ~/models/Qwen3.6-27B-Q8_0.gguf : peut être utilisé à la place si le fichier du modèle est déjà présent
- draft-mtp : accélère la génération avec la multi-token prediction, qui prédit les prochains tokens à l’aide d’un modèle rapide
- -ngl 999 : place toutes les couches sur le GPU
- -fa on : active flash attention
- -c 65536 : définit la taille du contexte à 64k tokens
- Le contexte natif de Qwen 3.6 27B est de 256k
- --port 8080 : fixe le port à utiliser dans d’autres configurations
- En ouvrant http://127.0.0.1:8080, on peut discuter directement avec le modèle

Configuration OpenCode

Le même serveur peut aussi servir au vibe coding
Dans OpenCode, ajoutez la configuration suivante à ~/.config/opencode/opencode.jsonc

{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "llama": {
      "name": "llama.cpp (local)",
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1";,
        "apiKey": "local"
      },
      "models": {
        "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
      }
    }
  },
  "model": "llama/qwen3.6-27b"
}

Lancement pour discuter dans le terminal
- Pour simplement discuter dans le terminal, on peut utiliser llama-cli au lieu de llama-server
```
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                -ngl 999 -fa on -c 65536
```

Mesures de performances sur Apple Silicon

Les résultats de test sont compilés dans benching-local-llms-on-apple-silicon, avec une exécution sur Macbook Max M5 128GB
Qwen3.6-35B-A3B · 8-bit
- MLX : 85 tok/s, 37GB de RAM
- llama.cpp : 93 tok/s, 44GB de RAM
- llama.cpp + MTP : 105 tok/s, 45GB de RAM
Qwen3.6-27B · 8-bit
- MLX : 17 tok/s, 28GB de RAM
- llama.cpp : 18 tok/s, 41GB de RAM
- llama.cpp + MTP : 32 tok/s, 42GB de RAM
DeepSeek-V4-Flash · Q2–Q4
- llama.cpp : 33 tok/s, 103GB de RAM
30 tok/s est une vitesse correcte, qui se situe dans la plage habituelle des API de modèles frontier
mlx-lm vise Apple Silicon, mais dans ce test llama.cpp était plus rapide
Pendant l’exécution, l’utilisation du GPU était de 95 %, ce qui semble exploiter efficacement les ressources disponibles
Les deux variantes de Qwen 3.6 tiennent dans les 48GB de RAM partagée d’Apple Silicon
Sur les cartes Nvidia RTX grand public, une quantification plus agressive est nécessaire, mais l’inférence s’exécute plus vite
- Sur Hacker News, gfosco indique avoir obtenu de manière stable 50 tok/s sur une 5090 avec une quantification Q6_K et du KV Q4_0 sur un contexte de 123k, en utilisant environ 28/32GB de VRAM avec LM Studio
Le 35B A3B est 3 fois plus rapide, mais même si le code généré par le 27B représente un tiers du volume, sa qualité supérieure peut justifier de le choisir

Comparaison avec les anciens modèles de pointe

Dans la comparaison des scores d’Artificial Analysis, Qwen3.6-27B obtient 37 points
Les principaux éléments du tableau comparatif sont les suivants
- Gemma 4 31B : 29 points, niveau late 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B : 32 points, niveau early 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B : 37 points, niveau mid 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash : 40 points, niveau late 2025, GPT-5.2 / Claude Opus 4.5
D’autres benchmarks figurent dans les notes, avec une tendance générale similaire
Gemma 4 31B est inclus dans la comparaison car beaucoup l’utilisent comme valeur par défaut pour le codage local
Les benchmarks comme les réactions en ligne préfèrent nettement Qwen 3.6 27B à Gemma 4 31B
Il faut toutefois faire attention aux conditions de quantification
- La quantification 8-bit a de bonnes chances de ne pas beaucoup affecter les résultats
- DwarfStar4 utilise une quantification bien plus agressive de 2 à 4 bits pour DeepSeek V4 Flash, il est donc clairement moins bon que le modèle complet
- Dans ces conditions, Qwen 3.6 27B donne l’impression d’être équivalent ou légèrement supérieur à DwarfStar4
- Sur des projets à contexte plus long, DS4 pourrait aussi avoir l’avantage

Prochaines étapes pour l’exploitation de modèles locaux

Exécuter soi-même un modèle devient une option de plus en plus réaliste
L’état des modèles frontier propriétaires pourrait encore pousser cette tendance
- Claude Fable 5 a été retiré
- D’autres modèles frontier fonctionnent grâce à d’importantes subventions, avec une structure où 100 dollars par mois donnent accès à plusieurs milliers de dollars de tokens
Un modèle installé localement peut être fine-tuné selon les besoins et ne peut pas être retiré à distance
Les entreprises peuvent utiliser des modèles locaux pour leurs données propriétaires et sensibles
Les particuliers peuvent les utiliser pour des projets hors ligne, ou lorsqu’ils ne veulent pas partager des secrets importants ou des données médicales avec les États-Unis ou la Chine
La sortie de GLM 5.2 open-weight au niveau frontier accélère encore la dynamique des modèles locaux
- Qwen 3.6 était un tremplin, et GLM 5.2 peut aussi être exécuté localement
- GLM 5.2 ne tourne pas sur un Macbook ni sur une seule RTX 5090, mais reste abordable avec un budget d’entreprise
Des modèles plus intelligents que l’état de l’art actuel, tout en pouvant tourner sur des appareils locaux, voire sur smartphone, pourraient apparaître
Les modèles actuels combinent intelligence brute et connaissances factuelles dans les mêmes poids, mais les futurs modèles pourraient séparer les deux en déléguant la connaissance à des appels d’outils

1 commentaires

GN⁺ 6 시간 전

Avis sur Hacker News

Le MacBook Pro M5 avec 128 Go de RAM et qwen3.6 me plaisent, mais si vous envisagez sérieusement de coder avec un LLM local, mieux vaut ne pas acheter ce MacBook
La raison est simple : vos doigts chauffent et le bruit des ventilateurs donne l’impression que votre tête va exploser
Lancer des tâches complexes sur le portable que l’on utilise vraiment n’est pas réaliste ; en mode clamshell c’est possible, mais pendant du codage IA ou des tâches d’agent, il devient difficile à toucher
Si vous voulez faire tourner correctement Qwen3.6 27B/35B, il vaut mieux acheter un MacMini M4 64 Go, le mettre à la cave ou au moins à quelques mètres, et s’y connecter via le LAN ou Tailscale ; en plus, il coûte presque trois fois moins qu’un MacBook Pro
- Pour la même raison, j’ai acheté un portable classique 32 Go
  Je sais à quel point même des modèles relativement petits comme Qwen 27B ou Gemma 4 31B peuvent être bruyants et chauds sur un GPU de bureau
  Le Strix Halo, avec son gros ventilateur unique, n’est pas bruyant, mais il chauffe ; et quand les petits ventilateurs d’un portable doivent évacuer cette chaleur, ils finissent forcément par hurler
  L’idée d’un portable capable de faire tourner des modèles partout est séduisante, mais c’est plutôt le rôle des modèles cloud ; comme il n’y a pas beaucoup de données qui transitent, ce n’est pas un gros problème
  Pour les tâches nécessitant de la confidentialité, il suffit d’auto-héberger un modèle sur une grosse machine à la maison et de s’y connecter via VPN
  En revanche, les modèles qui tournent bien même sur des appareils 16 Go ou des tablettes, comme Gemma 4 12B QAT 4-bit, se sont révélés très utiles pour certaines tâches ; c’est le meilleur modèle de vision auto-hébergé que j’aie testé pour de la classification, de l’identification ou de l’étiquetage
  Sa prose est correcte et son usage d’outils est plutôt bon, mais 7 Go ne suffisent pas à contenir beaucoup de connaissances du monde ; il faut donc faire des recherches pour l’investigation, et je ne l’utiliserais pas pour coder au-delà de choses très simples
- Vous pouvez essayer le flag --power dans DwarfStar 4 : https://github.com/antirez/ds4#reducing-heat-power-usage-and...
- Si « les doigts brûlent et le bruit fait exploser la tête », il suffit peut-être de mettre un Mac mini dans une autre pièce, non ?
  Ces six derniers mois environ, j’ai fait tourner un agent de codage en mode YOLO sur mon portable ; ce n’était pas local la plupart du temps, mais la façon de l’utiliser sans crainte a été de créer un utilisateur Linux agent dédié à l’agent
  L’agent peut supprimer son répertoire personnel /agent, mais il ne peut ni toucher ni même lire mon propre répertoire personnel
  Je devais à chaque fois passer sur cet utilisateur avec sudo, donc j’ai créé un alias ; et quand des problèmes de permissions ou de propriété apparaissaient, je les réglais avec une fonction exécutée une fois par jour
  Cela restait pénible, donc si j’avais eu une machine dédiée, je lui aurais probablement simplement donné root ; pour m’amuser, j’ai donné à Claude l’accès root à un VPS à 3 $, et ça fonctionne bien
  Après plusieurs mois d’essais et d’erreurs, j’ai finalement réinventé depuis le début le conseil « achète juste un Mac mini »
- Quand j’ai testé des tâches de LLM local sur un M4 Max avec pi, il m’a semblé plus chaud que n’importe quel MacBook que j’aie utilisé jusqu’ici
  Je sentais la chaleur rayonnée même à quelques centimètres, et il me paraissait encore plus chaud que les MacBook Intel que j’ai utilisés, donc j’ai arrêté
  Avec les problèmes d’approvisionnement et les hausses de prix, je risque de devoir garder ce portable 10 ans, et je ne voulais pas l’abîmer
- C’est exactement comme ça que je l’utilise : Mini M4 Pro 64 Go avec qwen3.6
  Mon ouïe n’est pas excellente, mais je pense que j’aurais entendu le ventilateur ; je ne l’ai jamais entendu, au point que j’ai dû chercher s’il y en avait vraiment un
L’article s’appuie sur une utilisation de Qwen 3.6 sur un MacBook Pro 128 Go
À titre de référence, le MBP 128 Go commence actuellement à 6 699 $ [0]
Certaines personnes seraient prêtes à payer ce surcoût pour la confidentialité, mais pour environ 10 fois le prix d’un MacBook Neo, on peut acheter pas mal de crédits OpenRouter ou d’API de labos à la pointe
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
- Le calcul est difficile à contester, mais à ma place je ne tracerais pas la ligne comme ça
  Avoir une machine capable de faire tourner un LLM local raisonnable, comme Gemma 4 12B, a une vraie valeur
  Je ne sais pas combien de codage agentique sérieux et autonome on finira par faire sur un seul MacBook, mais si je n’avais pas manipulé moi-même des modèles locaux, llama.cpp, LM Studio, etc., je ne comprendrais pas ce domaine de cette façon
  Ce domaine est immense, épuisant, plein de jargon, et quand on a plus de 50 ans, il est facile de se sentir dépassé
  C’est en configurant moi-même une machine d’occasion, en observant les appels API et en comprenant les termes que les choses ont commencé à devenir concrètes
  Le Neo est trop limité pour rendre ce genre d’opportunité vraiment tangible et compréhensible
- Toutes les expériences avec Qwen 3.6 pouvaient se contenter de 48 Go d’Apple Silicon
  Avec une quantification plus agressive, je pense qu’on pourrait descendre encore plus bas
  Économiquement, faire tourner le modèle sur un ordinateur portable n’a pas beaucoup de sens, et même en ne regardant que le coût de l’électricité, il peut être difficile de battre le prix des tokens générés à grande échelle
  Malgré tout, c’est une percée qui change la donne
  Avant, ce genre de vibe coding sur des appareils grand public n’était pas difficile ou coûteux : c’était tout simplement impossible
- Le modèle dense Qwen 3.6 27B peut aussi tourner sur un DGX Spark avec des performances similaires [1][2], pour environ 4 000 $
  L’Asus Ascent GX10 est également à 3 999 $ chez plusieurs revendeurs
  En théorie, on pourrait aussi obtenir 48 Go de VRAM avec deux 3090, mais par rapport à un MacBook Pro ou à un GB10, cela prend beaucoup de place et dégage beaucoup de chaleur
  [1] https://x.com/MiaAI_lab/status/2070859135399182444
  [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
- Le modèle mentionné peut tourner facilement avec 24 Go ou plus de VRAM, et il existe des modèles similaires qui fonctionnent bien même avec 16 Go de VRAM
  Les 128 Go ne sont donc pas indispensables ici
- Les tokens ou les crédits disparaissent quand on les utilise, mais le MacBook, lui, reste
  On peut aussi faire tourner d’autres modèles sur le même MacBook
  Quand on voit l’argent que les gens brûlent chaque mois en SaaS, il y a des cas où ce montant amortit un MacBook en cinq mois
  Et ce n’est pas qu’une simple question de « confidentialité des données »
  Utiliser Claude revient à envoyer tout à Anthropic, ce qui est assez dingue
Il est difficile de dire que les exemples reflètent un « vrai travail »
En tout cas, ce n’est pas ce que je considère comme du vrai travail
Réussir un nouveau projet en zéro-shot est relativement facile même pour de petits modèles
Parce qu’il n’y a pas beaucoup de contexte à accumuler, et qu’ils peuvent facilement revenir à des exemples similaires dans les données d’entraînement
Tant qu’on ne leur demande pas d’inventer quelque chose de totalement nouveau, ils ont de bonnes chances de s’en sortir correctement
Le vrai test, c’est de savoir s’ils peuvent travailler dans une base de code existante
Dans les expériences limitées que j’ai faites, Qwen 3.5 était correct sur une appli Rust+React, et moins bon sur un monolithe C#
Pas au point d’être inutilisable, mais assez médiocre pour que je revienne à Claude au bout de 20 minutes ; et si je perdais l’accès aux modèles cloud et devais n’utiliser que Qwen, je pense que je serais assez triste
- Ce n’est pas directement lié à l’idée que « réussir un nouveau projet en zéro-shot est relativement facile même pour de petits modèles », mais il fut un temps où il fallait une semaine pour lancer une simple preuve de concept, et où ce genre de phrase aurait sonné comme de la pure science-fiction
- Quand on évalue de petits modèles, on sous-estime le fait que leurs faiblesses apparaissent d’autant plus clairement qu’on s’éloigne du code d’exemple standard
  Qwen3.6 a donné des résultats étonnants pour un petit modèle sur des applis simples qu’on voit partout
  Si on lui demande de créer une petite appli boilerplate avec des outils populaires comme une appli TODO en React ou shadcn, le résultat est assez convaincant
  Mais dès que je suis sorti des tâches courantes pour entrer dans mes besoins plus de niche, il a tourné en rond pendant des heures avant de produire au final un résultat inutilisable à faire gémir
  Pour de simples refactorings ou de petites tâches avec des instructions très claires, où il s’agit surtout de taper à ma place, il s’en sort plutôt bien
  Mais dès qu’on entre dans de longues sessions de contexte ou des sujets moins grand public, ses faiblesses deviennent très nettes
  La quantification souvent utilisée pour tenir sur du petit matériel aggrave aussi le problème
  En ligne, l’ambiance est à dire que la quantification 4-bit est presque sans perte et que la quantification du cache clé-valeur q8_0/q8_0 n’entraîne pratiquement aucune perte, mais sur de vrais projets ces quantifications ont nettement dégradé les performances en contexte long
- J’utilise pi et l’ancien codex cli pour le développement professionnel avec Qwen 3.6 27B et 100k de contexte, et j’ai été très surpris par son bon fonctionnement
  Ce n’est pas parfait, mais c’est suffisant pour accélérer mon flux de développement habituel, principalement en Go et en C#
- Il y a plusieurs tâches qui fonctionnent bien avec des modèles de la catégorie Gemma 4 12B
  Par exemple concevoir de grands projets composés de petites bibliothèques afin que chacune puisse être codée et testée indépendamment, remettre de l’ordre dans de vieux projets de code, ajouter un README, commenter du code, montrer des exemples d’utilisation d’une nouvelle API et mettre à jour les endroits où l’API est utilisée
  Ce sont toutes des tâches de petite taille
  Pour les gros projets d’intégration, l’API commerciale DeepSeek v4 Pro est très bon marché et aide à obtenir de bons résultats
- D’après mon expérience, les petits modèles ont du mal à démarrer un nouveau projet, même avec des concepts de projet assez basiques
  Il y a trop de décisions à prendre, et ils ne le font pas bien
  Modifier du code existant est beaucoup plus facile, tant qu’on n’attend pas d’eux qu’ils soient intelligents
  Plutôt que de dire « ajoute la fonctionnalité X » et de les laisser explorer la base de code, il vaut mieux indiquer les fichiers concernés puis dire : « l’objectif est d’ajouter la fonctionnalité X à ce code, en suivant les consignes Y »
  Si l’humain prend en charge les décisions les plus difficiles, le modèle n’a plus qu’à suivre les instructions et colorier à l’intérieur des lignes
Faire tourner ce modèle hors ligne sur un MacBook Pro avec 48 Go de mémoire permet d’accomplir le travail, mais c’est évidemment plus lent que Claude ou Codex
Voir quelqu’un acheter un MBP 128 Go à plusieurs milliers de dollars pour faire tourner un modèle objectivement très inférieur à l’état de l’art me donne l’impression de perdre la tête
Avec l’argent d’un M5 MAX 128 Go, on peut acheter une voiture neuve ici
Je ne sais pas ce qui m’échappe, et je me demande si les développeurs d’autres pays vivent vraiment dans un monde aussi différent
Je sais que là où je vis, les prix absolus sont même plus élevés qu’aux États-Unis, et c’est aussi pour ça que je le ressens encore plus
Si une personne saine d’esprit avait acheté ce genre de chose dans un autre pays, j’ai l’impression qu’elle le revendrait dès son arrivée ici pour économiser de l’argent
- Je trouve idiot de choisir le format portable
  L’automne dernier, j’ai monté une station de travail avec deux 3090 d’occasion ; je les ai payées 850 dollars canadiens chacune, même si le prix plancher est maintenant autour de 1200
  Avec 48 Go de VRAM, c’est assez raisonnable, et j’utilise Qwen 3.6 27B pour plusieurs tâches de création de graphes de connaissances à partir de corpus textuels et de raisonnement
  J’ai comparé avec ce qui est disponible sur OpenRouter, et à un coût de jetons de 0 $, le Qwen 27B local est difficile à battre
  C’est plus lent et mon bureau gagne quelques degrés, mais personne ne peut débrancher la prise, personne ne regarde par-dessus mon épaule, et les résultats sont d’un niveau comparable à ceux des modèles de pointe
  J’attends avec impatience Qwen 3.7 de taille similaire
  D’après ce que j’ai vu jusqu’ici, c’est un grand bond par rapport à la version précédente
- Je ne comprends pas pourquoi, à ce niveau de prix, les gens achètent un portable Mac plutôt qu’un desktop avec GPU
  À croire qu’ils veulent montrer qu’il est transportable
- Dans mes comptes, c’est déjà un actif qui prend pas mal de valeur, et il y a de bonnes chances que je puisse le revendre dans 7 à 10 ans au prix auquel je l’ai acheté
  Avec les mensualités Apple, les 5 k$ reviennent à 416 $ par mois pendant un an, sans intérêts
  Je peux faire tourner des modèles de niveau DS4 et d’autres modèles ouverts sans quantification, parfois plusieurs en même temps
  Imaginez sa valeur si des scénarios sombres se réalisaient autour d’une guerre entre Taïwan et le monde chinois, de la connectivité mondiale ou de la fiabilité des modèles commerciaux
  C’est un équipement très difficile à fabriquer à d’autres moments de l’histoire, et j’aurais aimé en acheter davantage
  J’ai vu en temps réel les signaux, les tendances de prix et les ruptures de stock, et d’autres personnes qui en ont les moyens sont sûrement en train d’en stocker aussi
- Oui, pour beaucoup de gens, 6 000 dollars, c’est de la petite monnaie
- C’est vrai
  Les gens de chez vous ont des revenus inférieurs de plus d’un ordre de grandeur à ceux des Américains
On parle souvent du coût élevé du matériel nécessaire pour faire tourner des modèles en local, mais si l’on ne s’intéresse pas aux machines Apple, les Intel Arc Pro B50/B60/B70, qui semblent offrir un rapport qualité-prix plutôt correct, sont assez peu mentionnées
J’ai récemment acheté un modèle B70 avec 32 Go de RAM pour environ 1 200 $ en incluant taxe de vente et droits de douane, depuis mon lieu de résidence hors des États-Unis, et cela peut être moins cher dans d’autres régions
La bande passante mémoire est de 608 Go/s
Le GPU 32 cœurs du M5 Max est à 460 Go/s, le GPU 40 cœurs à 614 Go/s, et la 3090 reste plus rapide avec environ 900 Go/s, mais on obtient 32 Go de VRAM pour bien moins cher qu’une carte Nvidia équivalente
En gros, on obtient environ un tiers de la bande passante d’une 5090 pour un tiers du prix, avec les mêmes 32 Go de VRAM ; c’est donc un compromis séduisant si l’on veut faire tourner de plus gros modèles quantifiés avec un peu de contexte, à budget réduit
J’explore encore les modèles locaux, donc je n’ai pas envie de dépenser 5 000 à 10 000 $ juste pour tester, et si je peux expérimenter à moindre coût, des performances un peu plus lentes me conviennent
Au départ, j’ai acheté une B50 16 Go à 70 W de TDP pour tester une carte Intel dans ma stack, et elle a fonctionné facilement sous Ubuntu et Vulkan
J’ai vu beaucoup de messages disant que c’était pénible et inutilisable, mais cela semble surtout concerner SYCL ; et comme SYCL n’a pas l’air d’être plus performant que Vulkan, je ne vois pas trop pourquoi s’embêter avec
La B50 m’a coûté 370 $ taxes et droits de douane inclus, et littéralement, après un apt install des bibliothèques Vulkan, elle a fonctionné avec le pilote xe par défaut de la 26.04 et le build Vulkan de llama.cpp
SR-IOV PF/VF fonctionne aussi sous qemu/kvm sans bidouille particulière, et fwupdmgr a déjà mis à jour le firmware deux fois depuis l’achat, donc Intel semble vraiment vouloir prendre en charge ces produits
À mon avis, le sweet spot actuel, c’est deux 3090 avec une carte mère PCIe 4 et 64 à 128 Go de RAM DDR4
On peut monter ça pour environ 3 000 $ aujourd’hui, et cela fait tourner Qwen 27B/35B en int4 à une vitesse énorme
Pour référence, je fais tourner gemma4 31B sur une 5090, et c’est assez excellent
J’utilise QAT, MTP et un contexte de 128k
Qwen 3.6 27B était bon aussi, mais Gemma4 me semble un peu sous-estimé
- Mon expérience est similaire
  Je fais tourner gemma4 31B sur une 4090 avec llm.cpp et des modèles unsloth
  J’utilise aussi Qwen 3.6, et Qwen est plus rapide, donc meilleur pour la réflexion et la planification, tandis que Gemma4 produit du code de bien meilleure qualité dès le premier essai
  Pour Rust, C++ et C#, il faut moins de corrections avant d’atteindre un niveau que je considère acceptable à merger
- Je n’arrive pas à faire en sorte que Gemma4 termine correctement ses tours
  Il s’interrompt toujours brusquement ou génère des appels d’outils incorrects ; c’est probablement moi qui ai mal configuré oMLX ou Opencode
- C’est bien
  Sur une 4080 Super, j’alterne entre Qwen 3.5 9B Q6_M et Gemma4 12B Q4_K_M
  Les deux ont une vitesse similaire et je peux leur faire relire les plans ou les changements de l’autre
  Ils sont assez compétents sur de petits projets, et pour des tâches un peu plus difficiles, je peux passer à une meilleure quantification
Avant d’acheter un ordinateur à mémoire unifiée, par exemple un DGX Spark, un Mac, ou une machine Ryzen AI Max 395 / Strix Halo, il faut savoir que les modèles denses y sont généralement lents
Les GPU dédiés font tourner les modèles denses bien mieux
Il vaut mieux chercher des benchmarks de la machine que vous envisagez d’acheter, et si vous voulez vraiment ce type d’équipement, il est préférable de faire tourner Qwen 3.6 35B ou d’autres modèles MoE clairsemés
J’ai fait tourner qwen 3.6 35b a3b avec opencode sur un MacBook Pro 16 pouces M3 Max avec 64 Go de RAM, et c’était excellent pour la planification et le codage en local
Honnêtement, en voyant à quel point 64 Go sont puissants, je me demande parfois si je n’aurais pas dû prendre 128 Go pour être tranquille à l’avenir
En revanche, je ne me suis pas encore heurté à une limite à cause de modèles légèrement plus gros que qwen
- Je fais aussi tourner Qwen 3.6 35B A3b sur un portable Windows, et avec 64 Go de RAM et 4 Go de GPU, c’est au moins supportable
  Ce n’est pas rapide, quelques tokens par seconde, plus lent que la vitesse de lecture, mais on peut lancer une tâche et revenir plus tard
  C’est un portable à 600 $ acheté sur eBay il y a quelques années, pas une machine à 6 000 $
  Je me demande si les Mac à mémoire unifiée ou les énormes GPU desktop de 24 Go sortent vraiment des dizaines à des centaines de tokens par seconde qui justifieraient un coût 10 à 20 fois supérieur
- Je suis curieux de connaître la vitesse de réponse, en tokens par seconde
  D’après mon expérience, rien qu’un modèle de 20 à 35 Go et le cache clé-valeur consomment déjà une bonne partie des 64 Go de base ; donc si l’on veut garder ouverts le navigateur, l’éditeur et le reste, les 128 Go complets sont clairement utiles

Qwen 3.6 27B est le point d’équilibre idéal pour le développement local

Pourquoi recommander Qwen 3.6 27B

Tests simples et résultats en conditions réelles

Exécution locale avec llama.cpp

Exemple de lancement du serveur

Configuration OpenCode

Lancement pour discuter dans le terminal

Mesures de performances sur Apple Silicon

Comparaison avec les anciens modèles de pointe

Prochaines étapes pour l’exploitation de modèles locaux

À lire aussi

1 commentaires

Avis sur Hacker News