- Qwen 3.6 27B apparaît comme une option pertinente pour les tâches généralistes, même pour les utilisateurs sceptiques vis-à-vis des modèles locaux ; il est recommandé comme modèle dense plus lent, mais plus puissant, que le 35B A3B
- Dans les tests de création et de code, le respect des contraintes s’est révélé être un point fort ; dans OpenCode, il a généré en une seule invite un démineur hexagonal basé sur
pnpmsous forme de package Node - En combinant
llama.cppet la quantification GGUF 8-bit de Hugging Face, l’exécution locale devient possible ; avec MTP, le chargement des couches sur GPU, flash attention et un contexte de 64k, on peut même configurer un environnement de codage agentique - Lors d’un test sur Macbook Max M5 128GB, Qwen3.6-27B 8-bit avec
llama.cpp + MTPa atteint 32 tok/s en utilisant environ 42GB de RAM ; malgré un 35B A3B plus rapide, le 27B est préféré pour la meilleure qualité de son code - D’après Artificial Analysis, Qwen3.6-27B obtient 37 points, soit un niveau mid 2025 comparable à GPT-5 / Claude Sonnet 4.5, et se montre pratique pour les données sensibles, le travail hors ligne et l’exploitation d’un modèle propriétaire impossible à retirer à distance
Pourquoi recommander Qwen 3.6 27B
- Qwen 3.6 est proposé en deux variantes
- Qwen 3.6 35B A3B : modèle mixture-of-experts
- Qwen 3.6 27B : modèle dense, plus lent mais plus puissant
- Qwen 3.6 27B a suscité de nombreuses réactions selon lesquelles il « joue dans une catégorie supérieure à sa taille », avec notamment l’exemple Will it Mythos?
- L’exécution locale peut faire chauffer l’ordinateur, mais les performances obtenues valent le compromis
Tests simples et résultats en conditions réelles
- Comme test rapide, au lieu du « penguins on a bicycle » de Simon Willison, l’auteur utilise de l’écriture sous contrainte
- Lorsqu’on lui a demandé un poème de 8 vers sur la danse zouk et la physique quantique, son raisonnement sur les termes quantiques et les rimes s’est enchaîné naturellement
- La conversation correspondante se trouve dans ce transcript
- Dans OpenCode, lorsqu’on lui a demandé de créer un démineur hexagonal avec
pnpm, il a généré un véritable package Node avec une seule invite - Qwen 3.6 35B A3B était plus rapide, mais n’a pas suivi l’instruction de créer un package et a implémenté le tout dans un unique
index.html - Dans des tâches de travail courantes, il a aussi produit des résultats fonctionnels à partir de prompts courts, avec une réactivité et des valeurs par défaut plutôt correctes
- Ce n’est pas remarquable au regard des modèles frontier, mais c’est déjà un niveau pratique pour un modèle local
Exécution locale avec llama.cpp
-
L’exécution d’un modèle local est possible avec quelques lignes de CLI, et l’outil recommandé est llama.cpp
-
On télécharge depuis Hugging Face un modèle quantifié de taille réduite pour l’exécuter
- Parmi les fournisseurs populaires de modèles quantifiés figurent unsloth et bartowski
- Le modèle de base est généralement en précision
BF16 - La quantification 8-bit réduit l’espace de moitié avec une perte de qualité quasi inexistante
- Les quantifications à plus faible nombre de bits rendent le modèle plus petit et potentiellement plus rapide, mais au prix de la qualité
- La comparaison du 27B se trouve dans ce benchmark Reddit, et celle du 35B A3B dans cette discussion Hugging Face
-
Exemple de lancement du serveur
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: récupère le modèle depuis Hugging Face, puis le réutilise lors des exécutions suivantes-m ~/models/Qwen3.6-27B-Q8_0.gguf: peut être utilisé à la place si le fichier du modèle est déjà présentdraft-mtp: accélère la génération avec la multi-token prediction, qui prédit les prochains tokens à l’aide d’un modèle rapide-ngl 999: place toutes les couches sur le GPU-fa on: active flash attention-c 65536: définit la taille du contexte à 64k tokens- Le contexte natif de Qwen 3.6 27B est de 256k
--port 8080: fixe le port à utiliser dans d’autres configurations- En ouvrant
http://127.0.0.1:8080, on peut discuter directement avec le modèle
-
Configuration OpenCode
- Le même serveur peut aussi servir au vibe coding
- Dans OpenCode, ajoutez la configuration suivante à
~/.config/opencode/opencode.jsonc
{ "$schema": "https://opencode.ai/config.json", "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" } -
Lancement pour discuter dans le terminal
- Pour simplement discuter dans le terminal, on peut utiliser
llama-cliau lieu dellama-server
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 - Pour simplement discuter dans le terminal, on peut utiliser
Mesures de performances sur Apple Silicon
- Les résultats de test sont compilés dans benching-local-llms-on-apple-silicon, avec une exécution sur Macbook Max M5 128GB
- Qwen3.6-35B-A3B · 8-bit
- MLX : 85 tok/s, 37GB de RAM
- llama.cpp : 93 tok/s, 44GB de RAM
- llama.cpp + MTP : 105 tok/s, 45GB de RAM
- Qwen3.6-27B · 8-bit
- MLX : 17 tok/s, 28GB de RAM
- llama.cpp : 18 tok/s, 41GB de RAM
- llama.cpp + MTP : 32 tok/s, 42GB de RAM
- DeepSeek-V4-Flash · Q2–Q4
- llama.cpp : 33 tok/s, 103GB de RAM
- 30 tok/s est une vitesse correcte, qui se situe dans la plage habituelle des API de modèles frontier
- mlx-lm vise Apple Silicon, mais dans ce test llama.cpp était plus rapide
- Pendant l’exécution, l’utilisation du GPU était de 95 %, ce qui semble exploiter efficacement les ressources disponibles
- Les deux variantes de Qwen 3.6 tiennent dans les 48GB de RAM partagée d’Apple Silicon
- Sur les cartes Nvidia RTX grand public, une quantification plus agressive est nécessaire, mais l’inférence s’exécute plus vite
- Sur Hacker News, gfosco indique avoir obtenu de manière stable 50 tok/s sur une 5090 avec une quantification Q6_K et du KV Q4_0 sur un contexte de 123k, en utilisant environ 28/32GB de VRAM avec LM Studio
- Le 35B A3B est 3 fois plus rapide, mais même si le code généré par le 27B représente un tiers du volume, sa qualité supérieure peut justifier de le choisir
Comparaison avec les anciens modèles de pointe
- Dans la comparaison des scores d’Artificial Analysis, Qwen3.6-27B obtient 37 points
- Les principaux éléments du tableau comparatif sont les suivants
- Gemma 4 31B : 29 points, niveau late 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B : 32 points, niveau early 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B : 37 points, niveau mid 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash : 40 points, niveau late 2025, GPT-5.2 / Claude Opus 4.5
- D’autres benchmarks figurent dans les notes, avec une tendance générale similaire
- Gemma 4 31B est inclus dans la comparaison car beaucoup l’utilisent comme valeur par défaut pour le codage local
- Les benchmarks comme les réactions en ligne préfèrent nettement Qwen 3.6 27B à Gemma 4 31B
- Il faut toutefois faire attention aux conditions de quantification
- La quantification 8-bit a de bonnes chances de ne pas beaucoup affecter les résultats
- DwarfStar4 utilise une quantification bien plus agressive de 2 à 4 bits pour DeepSeek V4 Flash, il est donc clairement moins bon que le modèle complet
- Dans ces conditions, Qwen 3.6 27B donne l’impression d’être équivalent ou légèrement supérieur à DwarfStar4
- Sur des projets à contexte plus long, DS4 pourrait aussi avoir l’avantage
Prochaines étapes pour l’exploitation de modèles locaux
- Exécuter soi-même un modèle devient une option de plus en plus réaliste
- L’état des modèles frontier propriétaires pourrait encore pousser cette tendance
- Claude Fable 5 a été retiré
- D’autres modèles frontier fonctionnent grâce à d’importantes subventions, avec une structure où 100 dollars par mois donnent accès à plusieurs milliers de dollars de tokens
- Un modèle installé localement peut être fine-tuné selon les besoins et ne peut pas être retiré à distance
- Les entreprises peuvent utiliser des modèles locaux pour leurs données propriétaires et sensibles
- Les particuliers peuvent les utiliser pour des projets hors ligne, ou lorsqu’ils ne veulent pas partager des secrets importants ou des données médicales avec les États-Unis ou la Chine
- La sortie de GLM 5.2 open-weight au niveau frontier accélère encore la dynamique des modèles locaux
- Qwen 3.6 était un tremplin, et GLM 5.2 peut aussi être exécuté localement
- GLM 5.2 ne tourne pas sur un Macbook ni sur une seule RTX 5090, mais reste abordable avec un budget d’entreprise
- Des modèles plus intelligents que l’état de l’art actuel, tout en pouvant tourner sur des appareils locaux, voire sur smartphone, pourraient apparaître
- Les modèles actuels combinent intelligence brute et connaissances factuelles dans les mêmes poids, mais les futurs modèles pourraient séparer les deux en déléguant la connaissance à des appels d’outils
1 commentaires
Avis sur Hacker News
Le MacBook Pro M5 avec 128 Go de RAM et qwen3.6 me plaisent, mais si vous envisagez sérieusement de coder avec un LLM local, mieux vaut ne pas acheter ce MacBook
La raison est simple : vos doigts chauffent et le bruit des ventilateurs donne l’impression que votre tête va exploser
Lancer des tâches complexes sur le portable que l’on utilise vraiment n’est pas réaliste ; en mode clamshell c’est possible, mais pendant du codage IA ou des tâches d’agent, il devient difficile à toucher
Si vous voulez faire tourner correctement Qwen3.6 27B/35B, il vaut mieux acheter un MacMini M4 64 Go, le mettre à la cave ou au moins à quelques mètres, et s’y connecter via le LAN ou Tailscale ; en plus, il coûte presque trois fois moins qu’un MacBook Pro
Je sais à quel point même des modèles relativement petits comme Qwen 27B ou Gemma 4 31B peuvent être bruyants et chauds sur un GPU de bureau
Le Strix Halo, avec son gros ventilateur unique, n’est pas bruyant, mais il chauffe ; et quand les petits ventilateurs d’un portable doivent évacuer cette chaleur, ils finissent forcément par hurler
L’idée d’un portable capable de faire tourner des modèles partout est séduisante, mais c’est plutôt le rôle des modèles cloud ; comme il n’y a pas beaucoup de données qui transitent, ce n’est pas un gros problème
Pour les tâches nécessitant de la confidentialité, il suffit d’auto-héberger un modèle sur une grosse machine à la maison et de s’y connecter via VPN
En revanche, les modèles qui tournent bien même sur des appareils 16 Go ou des tablettes, comme Gemma 4 12B QAT 4-bit, se sont révélés très utiles pour certaines tâches ; c’est le meilleur modèle de vision auto-hébergé que j’aie testé pour de la classification, de l’identification ou de l’étiquetage
Sa prose est correcte et son usage d’outils est plutôt bon, mais 7 Go ne suffisent pas à contenir beaucoup de connaissances du monde ; il faut donc faire des recherches pour l’investigation, et je ne l’utiliserais pas pour coder au-delà de choses très simples
--powerdans DwarfStar 4 : https://github.com/antirez/ds4#reducing-heat-power-usage-and...Ces six derniers mois environ, j’ai fait tourner un agent de codage en mode YOLO sur mon portable ; ce n’était pas local la plupart du temps, mais la façon de l’utiliser sans crainte a été de créer un utilisateur Linux
agentdédié à l’agentL’agent peut supprimer son répertoire personnel
/agent, mais il ne peut ni toucher ni même lire mon propre répertoire personnelJe devais à chaque fois passer sur cet utilisateur avec
sudo, donc j’ai créé un alias ; et quand des problèmes de permissions ou de propriété apparaissaient, je les réglais avec une fonction exécutée une fois par jourCela restait pénible, donc si j’avais eu une machine dédiée, je lui aurais probablement simplement donné root ; pour m’amuser, j’ai donné à Claude l’accès root à un VPS à 3 $, et ça fonctionne bien
Après plusieurs mois d’essais et d’erreurs, j’ai finalement réinventé depuis le début le conseil « achète juste un Mac mini »
Je sentais la chaleur rayonnée même à quelques centimètres, et il me paraissait encore plus chaud que les MacBook Intel que j’ai utilisés, donc j’ai arrêté
Avec les problèmes d’approvisionnement et les hausses de prix, je risque de devoir garder ce portable 10 ans, et je ne voulais pas l’abîmer
Mon ouïe n’est pas excellente, mais je pense que j’aurais entendu le ventilateur ; je ne l’ai jamais entendu, au point que j’ai dû chercher s’il y en avait vraiment un
L’article s’appuie sur une utilisation de Qwen 3.6 sur un MacBook Pro 128 Go
À titre de référence, le MBP 128 Go commence actuellement à 6 699 $ [0]
Certaines personnes seraient prêtes à payer ce surcoût pour la confidentialité, mais pour environ 10 fois le prix d’un MacBook Neo, on peut acheter pas mal de crédits OpenRouter ou d’API de labos à la pointe
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
Avoir une machine capable de faire tourner un LLM local raisonnable, comme Gemma 4 12B, a une vraie valeur
Je ne sais pas combien de codage agentique sérieux et autonome on finira par faire sur un seul MacBook, mais si je n’avais pas manipulé moi-même des modèles locaux, llama.cpp, LM Studio, etc., je ne comprendrais pas ce domaine de cette façon
Ce domaine est immense, épuisant, plein de jargon, et quand on a plus de 50 ans, il est facile de se sentir dépassé
C’est en configurant moi-même une machine d’occasion, en observant les appels API et en comprenant les termes que les choses ont commencé à devenir concrètes
Le Neo est trop limité pour rendre ce genre d’opportunité vraiment tangible et compréhensible
Avec une quantification plus agressive, je pense qu’on pourrait descendre encore plus bas
Économiquement, faire tourner le modèle sur un ordinateur portable n’a pas beaucoup de sens, et même en ne regardant que le coût de l’électricité, il peut être difficile de battre le prix des tokens générés à grande échelle
Malgré tout, c’est une percée qui change la donne
Avant, ce genre de vibe coding sur des appareils grand public n’était pas difficile ou coûteux : c’était tout simplement impossible
L’Asus Ascent GX10 est également à 3 999 $ chez plusieurs revendeurs
En théorie, on pourrait aussi obtenir 48 Go de VRAM avec deux 3090, mais par rapport à un MacBook Pro ou à un GB10, cela prend beaucoup de place et dégage beaucoup de chaleur
[1] https://x.com/MiaAI_lab/status/2070859135399182444
[2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
Les 128 Go ne sont donc pas indispensables ici
On peut aussi faire tourner d’autres modèles sur le même MacBook
Quand on voit l’argent que les gens brûlent chaque mois en SaaS, il y a des cas où ce montant amortit un MacBook en cinq mois
Et ce n’est pas qu’une simple question de « confidentialité des données »
Utiliser Claude revient à envoyer tout à Anthropic, ce qui est assez dingue
Il est difficile de dire que les exemples reflètent un « vrai travail »
En tout cas, ce n’est pas ce que je considère comme du vrai travail
Réussir un nouveau projet en zéro-shot est relativement facile même pour de petits modèles
Parce qu’il n’y a pas beaucoup de contexte à accumuler, et qu’ils peuvent facilement revenir à des exemples similaires dans les données d’entraînement
Tant qu’on ne leur demande pas d’inventer quelque chose de totalement nouveau, ils ont de bonnes chances de s’en sortir correctement
Le vrai test, c’est de savoir s’ils peuvent travailler dans une base de code existante
Dans les expériences limitées que j’ai faites, Qwen 3.5 était correct sur une appli Rust+React, et moins bon sur un monolithe C#
Pas au point d’être inutilisable, mais assez médiocre pour que je revienne à Claude au bout de 20 minutes ; et si je perdais l’accès aux modèles cloud et devais n’utiliser que Qwen, je pense que je serais assez triste
Qwen3.6 a donné des résultats étonnants pour un petit modèle sur des applis simples qu’on voit partout
Si on lui demande de créer une petite appli boilerplate avec des outils populaires comme une appli TODO en React ou shadcn, le résultat est assez convaincant
Mais dès que je suis sorti des tâches courantes pour entrer dans mes besoins plus de niche, il a tourné en rond pendant des heures avant de produire au final un résultat inutilisable à faire gémir
Pour de simples refactorings ou de petites tâches avec des instructions très claires, où il s’agit surtout de taper à ma place, il s’en sort plutôt bien
Mais dès qu’on entre dans de longues sessions de contexte ou des sujets moins grand public, ses faiblesses deviennent très nettes
La quantification souvent utilisée pour tenir sur du petit matériel aggrave aussi le problème
En ligne, l’ambiance est à dire que la quantification 4-bit est presque sans perte et que la quantification du cache clé-valeur
q8_0/q8_0n’entraîne pratiquement aucune perte, mais sur de vrais projets ces quantifications ont nettement dégradé les performances en contexte longCe n’est pas parfait, mais c’est suffisant pour accélérer mon flux de développement habituel, principalement en Go et en C#
Par exemple concevoir de grands projets composés de petites bibliothèques afin que chacune puisse être codée et testée indépendamment, remettre de l’ordre dans de vieux projets de code, ajouter un README, commenter du code, montrer des exemples d’utilisation d’une nouvelle API et mettre à jour les endroits où l’API est utilisée
Ce sont toutes des tâches de petite taille
Pour les gros projets d’intégration, l’API commerciale DeepSeek v4 Pro est très bon marché et aide à obtenir de bons résultats
Il y a trop de décisions à prendre, et ils ne le font pas bien
Modifier du code existant est beaucoup plus facile, tant qu’on n’attend pas d’eux qu’ils soient intelligents
Plutôt que de dire « ajoute la fonctionnalité X » et de les laisser explorer la base de code, il vaut mieux indiquer les fichiers concernés puis dire : « l’objectif est d’ajouter la fonctionnalité X à ce code, en suivant les consignes Y »
Si l’humain prend en charge les décisions les plus difficiles, le modèle n’a plus qu’à suivre les instructions et colorier à l’intérieur des lignes
Faire tourner ce modèle hors ligne sur un MacBook Pro avec 48 Go de mémoire permet d’accomplir le travail, mais c’est évidemment plus lent que Claude ou Codex
Voir quelqu’un acheter un MBP 128 Go à plusieurs milliers de dollars pour faire tourner un modèle objectivement très inférieur à l’état de l’art me donne l’impression de perdre la tête
Avec l’argent d’un M5 MAX 128 Go, on peut acheter une voiture neuve ici
Je ne sais pas ce qui m’échappe, et je me demande si les développeurs d’autres pays vivent vraiment dans un monde aussi différent
Je sais que là où je vis, les prix absolus sont même plus élevés qu’aux États-Unis, et c’est aussi pour ça que je le ressens encore plus
Si une personne saine d’esprit avait acheté ce genre de chose dans un autre pays, j’ai l’impression qu’elle le revendrait dès son arrivée ici pour économiser de l’argent
L’automne dernier, j’ai monté une station de travail avec deux 3090 d’occasion ; je les ai payées 850 dollars canadiens chacune, même si le prix plancher est maintenant autour de 1200
Avec 48 Go de VRAM, c’est assez raisonnable, et j’utilise Qwen 3.6 27B pour plusieurs tâches de création de graphes de connaissances à partir de corpus textuels et de raisonnement
J’ai comparé avec ce qui est disponible sur OpenRouter, et à un coût de jetons de 0 $, le Qwen 27B local est difficile à battre
C’est plus lent et mon bureau gagne quelques degrés, mais personne ne peut débrancher la prise, personne ne regarde par-dessus mon épaule, et les résultats sont d’un niveau comparable à ceux des modèles de pointe
J’attends avec impatience Qwen 3.7 de taille similaire
D’après ce que j’ai vu jusqu’ici, c’est un grand bond par rapport à la version précédente
À croire qu’ils veulent montrer qu’il est transportable
Avec les mensualités Apple, les 5 k$ reviennent à 416 $ par mois pendant un an, sans intérêts
Je peux faire tourner des modèles de niveau DS4 et d’autres modèles ouverts sans quantification, parfois plusieurs en même temps
Imaginez sa valeur si des scénarios sombres se réalisaient autour d’une guerre entre Taïwan et le monde chinois, de la connectivité mondiale ou de la fiabilité des modèles commerciaux
C’est un équipement très difficile à fabriquer à d’autres moments de l’histoire, et j’aurais aimé en acheter davantage
J’ai vu en temps réel les signaux, les tendances de prix et les ruptures de stock, et d’autres personnes qui en ont les moyens sont sûrement en train d’en stocker aussi
Les gens de chez vous ont des revenus inférieurs de plus d’un ordre de grandeur à ceux des Américains
On parle souvent du coût élevé du matériel nécessaire pour faire tourner des modèles en local, mais si l’on ne s’intéresse pas aux machines Apple, les Intel Arc Pro B50/B60/B70, qui semblent offrir un rapport qualité-prix plutôt correct, sont assez peu mentionnées
J’ai récemment acheté un modèle B70 avec 32 Go de RAM pour environ 1 200 $ en incluant taxe de vente et droits de douane, depuis mon lieu de résidence hors des États-Unis, et cela peut être moins cher dans d’autres régions
La bande passante mémoire est de 608 Go/s
Le GPU 32 cœurs du M5 Max est à 460 Go/s, le GPU 40 cœurs à 614 Go/s, et la 3090 reste plus rapide avec environ 900 Go/s, mais on obtient 32 Go de VRAM pour bien moins cher qu’une carte Nvidia équivalente
En gros, on obtient environ un tiers de la bande passante d’une 5090 pour un tiers du prix, avec les mêmes 32 Go de VRAM ; c’est donc un compromis séduisant si l’on veut faire tourner de plus gros modèles quantifiés avec un peu de contexte, à budget réduit
J’explore encore les modèles locaux, donc je n’ai pas envie de dépenser 5 000 à 10 000 $ juste pour tester, et si je peux expérimenter à moindre coût, des performances un peu plus lentes me conviennent
Au départ, j’ai acheté une B50 16 Go à 70 W de TDP pour tester une carte Intel dans ma stack, et elle a fonctionné facilement sous Ubuntu et Vulkan
J’ai vu beaucoup de messages disant que c’était pénible et inutilisable, mais cela semble surtout concerner SYCL ; et comme SYCL n’a pas l’air d’être plus performant que Vulkan, je ne vois pas trop pourquoi s’embêter avec
La B50 m’a coûté 370 $ taxes et droits de douane inclus, et littéralement, après un
apt installdes bibliothèques Vulkan, elle a fonctionné avec le pilote xe par défaut de la 26.04 et le build Vulkan de llama.cppSR-IOV PF/VF fonctionne aussi sous qemu/kvm sans bidouille particulière, et fwupdmgr a déjà mis à jour le firmware deux fois depuis l’achat, donc Intel semble vraiment vouloir prendre en charge ces produits
À mon avis, le sweet spot actuel, c’est deux 3090 avec une carte mère PCIe 4 et 64 à 128 Go de RAM DDR4
On peut monter ça pour environ 3 000 $ aujourd’hui, et cela fait tourner Qwen 27B/35B en int4 à une vitesse énorme
Pour référence, je fais tourner gemma4 31B sur une 5090, et c’est assez excellent
J’utilise QAT, MTP et un contexte de 128k
Qwen 3.6 27B était bon aussi, mais Gemma4 me semble un peu sous-estimé
Je fais tourner gemma4 31B sur une 4090 avec llm.cpp et des modèles unsloth
J’utilise aussi Qwen 3.6, et Qwen est plus rapide, donc meilleur pour la réflexion et la planification, tandis que Gemma4 produit du code de bien meilleure qualité dès le premier essai
Pour Rust, C++ et C#, il faut moins de corrections avant d’atteindre un niveau que je considère acceptable à merger
Il s’interrompt toujours brusquement ou génère des appels d’outils incorrects ; c’est probablement moi qui ai mal configuré oMLX ou Opencode
Sur une 4080 Super, j’alterne entre Qwen 3.5 9B Q6_M et Gemma4 12B Q4_K_M
Les deux ont une vitesse similaire et je peux leur faire relire les plans ou les changements de l’autre
Ils sont assez compétents sur de petits projets, et pour des tâches un peu plus difficiles, je peux passer à une meilleure quantification
Avant d’acheter un ordinateur à mémoire unifiée, par exemple un DGX Spark, un Mac, ou une machine Ryzen AI Max 395 / Strix Halo, il faut savoir que les modèles denses y sont généralement lents
Les GPU dédiés font tourner les modèles denses bien mieux
Il vaut mieux chercher des benchmarks de la machine que vous envisagez d’acheter, et si vous voulez vraiment ce type d’équipement, il est préférable de faire tourner Qwen 3.6 35B ou d’autres modèles MoE clairsemés
J’ai fait tourner qwen 3.6 35b a3b avec opencode sur un MacBook Pro 16 pouces M3 Max avec 64 Go de RAM, et c’était excellent pour la planification et le codage en local
Honnêtement, en voyant à quel point 64 Go sont puissants, je me demande parfois si je n’aurais pas dû prendre 128 Go pour être tranquille à l’avenir
En revanche, je ne me suis pas encore heurté à une limite à cause de modèles légèrement plus gros que qwen
Ce n’est pas rapide, quelques tokens par seconde, plus lent que la vitesse de lecture, mais on peut lancer une tâche et revenir plus tard
C’est un portable à 600 $ acheté sur eBay il y a quelques années, pas une machine à 6 000 $
Je me demande si les Mac à mémoire unifiée ou les énormes GPU desktop de 24 Go sortent vraiment des dizaines à des centaines de tokens par seconde qui justifieraient un coût 10 à 20 fois supérieur
D’après mon expérience, rien qu’un modèle de 20 à 35 Go et le cache clé-valeur consomment déjà une bonne partie des 64 Go de base ; donc si l’on veut garder ouverts le navigateur, l’éditeur et le reste, les 128 Go complets sont clairement utiles