- Modèle open source reposant sur une architecture Mixture-of-Experts (MoE) clairsemée, où seulement 3 milliards de paramètres sont activés sur un total de 35 milliards, conciliant ainsi efficacité et performances
- Par rapport à la génération précédente, les capacités de codage agentique ont nettement progressé, atteignant un niveau capable de rivaliser avec de grands modèles denses comme Qwen3.5-27B ou Gemma4-31B
- Il obtient des scores élevés sur les principaux benchmarks de codage comme SWE-bench, Terminal-Bench et Claw-Eval, et atteint aussi des performances de niveau Claude Sonnet 4.5 sur des tâches multimodales
- Les poids ouverts et l’accès API sont disponibles via Alibaba Cloud Model Studio API, Hugging Face et ModelScope, avec prise en charge de l’intégration à divers outils de codage comme OpenClaw et Claude Code
- Avec 3 milliards de paramètres actifs, il établit un nouveau standard pour les modèles ouverts efficaces capables de rivaliser avec de grands modèles
Présentation de Qwen3.6-35B-A3B
- Qwen3.6-35B-A3B est un modèle Mixture-of-Experts (MoE) clairsemé dans lequel seuls 3 milliards de paramètres sont activés sur un total de 35 milliards, ce qui en fait un modèle open source alliant efficacité et performances
- Par rapport à la version précédente, Qwen3.5-35B-A3B, ses performances en codage agentique (agentic coding) se sont fortement améliorées, au point de rivaliser avec de grands modèles denses comme Qwen3.5-27B ou Gemma4-31B
- Il prend en charge à la fois les modes de raisonnement et de non-raisonnement multimodaux, et il est publié via Qwen Studio, API, Hugging Face et ModelScope
- Le modèle peut être utilisé de manière interactive dans Qwen Studio, appelé via l’API Alibaba Cloud Model Studio (
qwen3.6-flash) ou hébergé directement
Évaluation des performances
-
Performances en langage et en codage
- Qwen3.6-35B-A3B dépasse Qwen3.5-27B (modèle dense de 27 milliards de paramètres) sur plusieurs benchmarks majeurs de codage, avec seulement 3 milliards de paramètres actifs
- Il enregistre des scores élevés comme 73.4 sur SWE-bench Verified, 51.5 sur Terminal-Bench et une moyenne de 68.7 sur Claw-Eval
- Sur QwenWebBench (benchmark de génération de code web), il obtient 1397 points, un niveau parmi les meilleurs de sa catégorie
- Il affiche aussi de meilleurs résultats que les modèles concurrents sur des benchmarks agentiques généraux (MCPMark, MCP-Atlas, WideSearch, etc.)
- Il conserve également une haute précision sur des évaluations de connaissance et de raisonnement comme MMLU-Pro, GPQA et AIME26
-
Environnement d’évaluation
- La série SWE-Bench a été évaluée avec un scaffold agentique interne (outils bash + édition de fichiers) dans une fenêtre de contexte de 200K
- Terminal-Bench 2.0 a été mesuré sur la moyenne de 5 essais, avec une limite de 3 heures, dans un environnement 32 CPU / 48 Go de RAM
- SkillsBench a été évalué sur 78 tâches, hors travaux dépendant d’API
- QwenClawBench et QwenWebBench sont des benchmarks internes fondés sur la distribution d’usage réelle, afin de refléter les environnements utilisateurs réels
-
Performances vision-langage
- Qwen3.6-35B-A3B est un modèle multimodal natif qui atteint un niveau de performance proche de Claude Sonnet 4.5 avec seulement 3 milliards de paramètres actifs
- Il montre une force particulière en intelligence spatiale, avec 92.0 sur RefCOCO (perception spatiale) et 50.8 sur ODInW13
- Il obtient aussi des scores élevés sur diverses tâches vision-langage, dont 85.3 sur RealWorldQA, 92.8 sur MMBench EN-DEV et 89.9 sur OmniDocBench1.5
- Sur les benchmarks de compréhension vidéo (VideoMME, VideoMMMU, MLVU, etc.), il maintient de façon stable des scores dans la fourchette 80–86
Utilisation de Qwen3.6-35B-A3B
-
Déploiement et accès
- Disponible via l’API Alibaba Cloud Model Studio (
qwen3.6-flash), avec téléchargement des poids ouverts possible sur Hugging Face et ModelScope - Test immédiat possible dans Qwen Studio, avec prise en charge de l’intégration à des assistants de codage tiers comme OpenClaw, Claude Code et Qwen Code
- Disponible via l’API Alibaba Cloud Model Studio (
-
Utilisation de l’API
- La fonctionnalité
preserve_thinkingpermet de conserver le contenu de réflexion (thinking) des conversations précédentes, ce qui convient aux tâches agentiques - Alibaba Cloud Model Studio fournit une API de chat completions compatible avec les spécifications API d’OpenAI et d’Anthropic
- Dans le code d’exemple, l’option
enable_thinkingpermet d’afficher séparément la trace de raisonnement (reasoning trace) et la réponse finale
- La fonctionnalité
-
Intégration OpenClaw
- Qwen3.6-35B-A3B est compatible avec OpenClaw (anciennement Moltbot/Clawdbot) et, relié à Model Studio, fournit un environnement de codage agentique en terminal
- Il s’utilise en fusionnant les informations de l’API Model Studio dans le fichier de configuration (
~/.openclaw/openclaw.json) - Installation et exécution possibles dans un environnement Node.js 22 ou supérieur
-
Intégration Qwen Code
- Compatibilité complète avec Qwen Code (agent IA open source pour terminal) optimisé pour la série Qwen
- Après installation sous Node.js 20 ou supérieur, la procédure d’authentification s’effectue avec la commande
/auth
-
Intégration Claude Code
- Grâce à la prise en charge du protocole API Anthropic, il peut aussi être utilisé directement dans Claude Code
- Exécution du CLI après avoir défini la variable d’environnement
ANTHROPIC_MODEL="qwen3.6-flash"
Résumé et perspectives
- Qwen3.6-35B-A3B démontre que son architecture MoE clairsemée peut offrir des capacités de codage agentique et de raisonnement comparables à celles de grands modèles denses
- Avec 3 milliards de paramètres actifs, il combine efficacité et performances tout en affichant d’excellents résultats sur les benchmarks multimodaux
- Publié sous la forme d’un checkpoint entièrement open source, il propose un nouveau standard pour les modèles ouverts efficaces
- L’équipe Qwen prévoit de continuer à étendre la famille open source Qwen3.6 et attend les retours ainsi que les usages de la communauté
Informations de citation
@misc{qwen36_35b_a3b, title = {Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All}, url = {https://qwen.ai/blog?id=qwen3.6-35b-a3b}, author = {Qwen Team}, month = {April}, year = {2026}}
1 commentaires
Réactions sur Hacker News
J’ai fait tourner la version Unsloth 20.9GB GGUF sur mon laptop avec LM Studio
Lien du modèle
Étonnamment, il a mieux dessiné un pélican à vélo qu’Opus 4.7
Voir aussi le post comparatif de Simon Willison
Mon rendu avait le soleil et des nuages dans le ciel, de l’herbe sous forme de fines lignes vertes, et un effet de soleil avec halo
Il y avait aussi une représentation similaire du « flux d’air » comme chez Simon, mais au final l’important, c’est le pélican et le vélo
Je l’ai utilisé dans le projet Shoggoth.db pour du parcours de wiki + construction automatique de base de données
J’ai vraiment senti une amélioration par rapport à Qwen3.5 dans l’exploration de nouveaux organismes
La vitesse a aussi augmenté jusqu’à environ 140 token/s, et ça tournait de façon stable sur une RTX 4090 sans offload mémoire
En revanche, il fallait utiliser l’option
--no-mmproj-offloadpour éviter les conflits multimodauxÀ l’origine, l’idée était d’évaluer la créativité d’un modèle avec des prompts bizarres auxquels personne n’avait pensé, mais maintenant on a l’impression que c’est devenu une sorte de benchmark interne
Il est assis sur le pneu, la position du bec est bizarre, et les proportions entre les rayons et les pattes sont maladroites
Les lunettes de soleil sont semi-transparentes, donc on ne voit qu’un seul œil
C’est mignon, mais les nœuds papillon et accessoires non demandés sont plutôt un point négatif à mes yeux
Le résultat d’Opus était moins tape-à-l’œil, mais plus précis
Au fond, j’ai l’impression que les modèles actuels ne sont rien de plus que des générateurs probabilistes de phrases
C’est rassurant de voir l’équipe Qwen continuer à publier des open weights
Actu liée 1, actu 2
C’est impressionnant de voir le projet continuer même après le départ de personnes clés comme Junyang Lin
Les modèles de petite taille ont de fortes chances d’être publiés bientôt, mais le modèle phare 397A17B semble exclu
Il existe déjà une version qu’Unsloth a quantifiée et convertie
Lien Hugging Face
Mieux vaut revérifier une semaine plus tard pour récupérer une version stable
À cause de bugs initiaux, il arrive que de bons modèles soient sous-évalués
Le processus de quantification est complexe et comporte un risque de dégradation de qualité, donc je pense qu’il vaut mieux que ce soit fait par le développeur d’origine
Une mauvaise version quantifiée pourrait aussi ruiner la réputation du modèle
et quels sont les avantages d’un bon format
Ce serait bien d’expliquer aussi le concept même de quantification
ollama run claudeRavi de cette sortie de l’équipe Qwen
Les petits modèles de code à poids ouverts sont utiles pour créer des agents sur mesure dans certains secteurs (par ex. finance, santé)
pour des équipes de développement dont l’accès au cloud est limité
En Occident, presque personne ne s’adresse à ce marché, à part peut-être Mistral
Les autres boîtes d’IA donnent plutôt l’impression de ne viser que les revenus à court terme
Pour du travail sérieux, il faut investir dans du matériel capable de faire tourner de plus gros modèles soi-même
Même avec du matériel autour de 100 000 dollars, on peut faire tourner des modèles plus gros on-premise
Les caractéristiques d’embedding linguistique de Qwen sont intéressantes
Tweet d’analyse associé
Contrairement aux autres modèles, Qwen se situerait dans un bassin de distribution orienté examen
Un cadre de Qwen a publié sur Twitter un sondage demandant quel modèle les gens voulaient voir en open source,
et même si la version 27B était la plus populaire, elle n’a pas été publiée
L’architecture A3B se distille rapidement, donc ça pourrait arriver bientôt
Ce dernier paraît plus rapide et plus « intelligent »
À VRAM égale, un modèle dense 27B pourrait gérer un contexte plus large et offrir une meilleure qualité
J’ai beaucoup utilisé Qwen3.5-35B-A3B en test local,
et c’était le modèle le plus puissant qui tournait sur mon matériel
J’ai été particulièrement impressionné par les versions quantifiées Mudler APEX-I-Quality et Byteshape Q3_K_S-3.40bpw
Sur une RTX 3060 12GB, j’avais plus de marge mémoire et la vitesse dépassait 40 t/s
Il arrive même à améliorer tout seul des projets sur lesquels il bloquait auparavant
C’est ce genre de sortie logicielle IA que j’attends le plus
Pas de marketing alarmiste sur les risques, pas d’abonnement, juste un modèle qu’on a envie d’essayer
pour devenir pratiques dans la plupart des cas d’usage
Je me demande comment les gens utilisent réellement ce genre de modèles locaux
J’aimerais savoir quelle valeur ils apportent par rapport au fait de louer des tokens chez Anthropic ou OpenAI
Comme les formats de documents varient énormément, j’utilisais avant un pipeline complexe à base de règles,
mais maintenant ses capacités multimodales permettent une extraction combinant langage + vision
C’est tout à fait suffisant pour l’analyse vidéo, et je confie les résumés de texte ou la traduction à des modèles plus gros
Quand ce n’est pas en temps réel, la qualité compte plus que la vitesse, donc c’est bien adapté au traitement par lots
Je veux un modèle entièrement privé et auto-hébergé
J’en ai assez des interruptions des services SaaS, donc je pense que les LLM finiront eux aussi par passer à l’auto-hébergement
Ça permettait d’utiliser le GPU à 100 % sans limite de tokens ni limite de débit
Par exemple, j’utilise Gemma 4 sur iPhone comme traducteur hors ligne,
et c’est plus rapide et plus précis qu’Apple Translate
Pour de petites modifications JSON, un modèle local est bien plus efficace