Il s’agit d’un grand modèle de langage publié en open source par l’équipe Qwen d’Alibaba en avril 2026. Il utilise une architecture MoE (Mixture-of-Experts). Le MoE consiste à intégrer plusieurs « réseaux experts » au sein du modèle, puis à n’en activer qu’une partie à chaque entrée. Le modèle compte 35 milliards de paramètres au total, mais n’en utilise que 3 milliards en inférence, ce qui signifie qu’il fonctionne avec seulement environ 8,6 % de sa capacité totale. C’est aussi un modèle multimodal capable de comprendre non seulement le texte, mais aussi les images et la vidéo, et il prend en charge à la fois un mode Thinking qui montre le processus de raisonnement et un mode Non-thinking qui répond directement.
Points clés
- Les performances en codage agentique (une forme de programmation autonome où l’IA explore elle-même les fichiers, exécute le terminal, diagnostique et corrige les bugs) progressent fortement par rapport au précédent Qwen3.5-35B-A3B
- Avec 73,4 sur SWE-bench Verified (évaluation de correction de vrais bugs logiciels) et 51,5 sur Terminal-Bench 2.0, il dépasse sur de nombreux points Qwen3.5-27B, un modèle Dense beaucoup plus grand en paramètres (architecture traditionnelle qui mobilise tous les paramètres)
- Il atteint 92,7 à la compétition de mathématiques AIME 2026 et 80,4 en codage en temps réel sur LiveCodeBench v6, soit un niveau comparable au modèle Dense 27B
- En multimodal, il obtient 81,7 sur MMMU et 85,3 sur RealWorldQA, devant Claude Sonnet 4.5 (modèle commercial payant), et se montre particulièrement solide en intelligence spatiale, notamment pour la localisation d’objets dans les images (RefCOCO 92,0)
- Il peut être intégré immédiatement à des outils de code tiers comme OpenClaw, Claude Code et Qwen Code, et il est également compatible avec le protocole d’API Anthropic
Avantages
- Avec 3B de paramètres actifs, il délivre des performances comparables à celles de modèles Dense 27~31B, ce qui réduit la mémoire GPU et la consommation électrique, et permet un déploiement dans des environnements modestes
- Il se situe parmi les meilleurs de sa catégorie sur l’ensemble des benchmarks de codage agentique
- Il traite texte, images, vidéo et documents dans un seul modèle
- Entièrement open source, il peut être téléchargé, affiné et personnalisé par tous
Inconvénients
- Sur les tâches d’agent généraliste (VITA-Bench 35,6), il reste en dessous du précédent modèle Dense 27B (41,8), ce qui laisse encore une marge de progression
- Il est aussi derrière les grands modèles Dense sur le raisonnement académique de plus haut niveau (HLE 21,4 contre 24,3)
- Léger retard sur le benchmark de connaissances MMLU-Pro
- L’API est encore indiquée comme « coming soon », ce qui complique son adoption immédiate à grande échelle
Différenciation
- Il devance largement sur presque tous les benchmarks Google Gemma4-26B-A4B, qui repose sur une structure MoE similaire
- Sa fonction
preserve_thinking, qui conserve le contenu de raisonnement des tours de conversation précédents lors des tâches agentiques, favorise le maintien du contexte sur la durée - Sa compatibilité avec le protocole d’API Anthropic lui permet aussi d’entrer directement dans l’écosystème Claude Code
Implications
- Des résultats comparables à ceux d’un modèle 27B avec seulement 3B de paramètres actifs montrent que l’architecture MoE est en train de devenir un nouveau standard d’efficacité pour l’IA
- Le fait qu’un modèle open source dépasse un modèle payant comme Claude Sonnet 4.5 sur de nombreux critères renforce l’intérêt des entreprises pour l’auto-hébergement à la place d’API coûteuses
- La forte place du codage agentique dans la composition des benchmarks suggère que le secteur considère désormais les capacités de développement logiciel autonome de l’IA comme le critère d’évaluation le plus important
Aucun commentaire pour le moment.