Qwen3.6-27B : des performances de codage dignes d’un flagship avec un modèle dense de 27 milliards
(qwen.ai)- Publication d’un modèle multimodal dense de 27 milliards de paramètres, avec prise en charge conjointe des modes thinking et non-thinking ainsi que du traitement d’images et de vidéos dans un point de contrôle unifié
- Les performances en agentic coding dépassent celles de l’ancien flagship open source Qwen3.5-397B-A17B sur les principaux benchmarks de code, et surpassent même des modèles comptant jusqu’à 15 fois plus de paramètres au total
- Scores annoncés : SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2 ; ainsi que 87.8 sur GPQA Diamond et 94.1 sur AIME26 pour le raisonnement textuel et les évaluations STEM
- L’adoption d’une architecture dense élimine la complexité de routage des MoE, simplifie le déploiement, et s’accompagne d’open weights, d’une API, d’un accès immédiat via Qwen Studio, ainsi que de l’intégration avec OpenClaw, Qwen Code et Claude Code
- Le modèle montre qu’un modèle dense bien entraîné peut dépasser une génération précédente bien plus grande sur les tâches clés des développeurs, et étend aussi l’orientation agentic coding de la gamme Qwen3.6
Vue d’ensemble
- Qwen3.6-27B est publié comme un modèle multimodal dense de 27 milliards de paramètres, avec prise en charge conjointe des modes multimodaux thinking et non-thinking
- En agentic coding, il dépasse l’ancien flagship open source Qwen3.5-397B-A17B sur les principaux benchmarks de code
- Grâce à une architecture dense sans complexité de routage MoE, son déploiement est plus simple, tout en offrant des performances de codage de premier plan à une échelle pratique et largement diffusable
- Il est disponible immédiatement dans Qwen Studio, avec des open weights pour la communauté et un accès via API
- Ses caractéristiques clés incluent un agentic coding de niveau flagship, un raisonnement textuel solide et des capacités de raisonnement multimodal
Performances
- Qwen3.6-27B a été évalué face à des modèles de référence dense et MoE, avec de fortes améliorations sur les benchmarks d’agentic coding
- Il est indiqué qu’il dépasse même des modèles jusqu’à 15 fois plus grands en nombre total de paramètres
- Les évaluations couvrent le langage, les connaissances, le STEM et le raisonnement, la vision-langage, la compréhension de documents, la compréhension vidéo et les visual agents
-
Langage
- Avec seulement 27 milliards de paramètres, il dépasse Qwen3.5-397B-A17B sur tous les principaux benchmarks de code
- SWE-bench Verified 77.2 contre 76.2
- SWE-bench Pro 53.5 contre 50.9
- Terminal-Bench 2.0 59.3 contre 52.5
- SkillsBench 48.2 contre 30.0
- Il devance aussi largement d’autres modèles denses de taille comparable
- Sur les tâches de raisonnement, il obtient 87.8 sur GPQA Diamond, un niveau compétitif face à des modèles plusieurs fois plus grands
- Le tableau détaillé compare Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B et Qwen3.6-27B
- Principaux scores de la catégorie Coding Agent
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Principaux scores de la catégorie Knowledge
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- Principaux scores de la catégorie STEM et raisonnement
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- Avec seulement 27 milliards de paramètres, il dépasse Qwen3.5-397B-A17B sur tous les principaux benchmarks de code
-
Configuration des évaluations de langage
- La SWE-Bench Series utilise un scaffold agent interne ainsi que les outils bash et d’édition de fichiers, avec temp 1.0, top_p 0.95 et une fenêtre de contexte de 200K
- Tous les modèles de référence ont été évalués sur un benchmark affiné corrigeant certaines tâches problématiques du jeu public SWE-bench Pro
- Terminal-Bench 2.0 utilise le harness Harbor ou Terminus-2
- timeout de 3 heures, 32 CPU, 48 Go de RAM
- temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
- moyenne sur 5 exécutions
- SkillsBench évalue 78 tâches avec OpenCode
- sous-ensemble autonome excluant les tâches dépendantes d’API
- moyenne sur 5 exécutions
- Pour NL2Repo, les autres modèles ont été évalués avec Claude Code
- temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench est un benchmark d’agent Claw fondé sur une distribution réelle d’utilisateurs
- temp 0.6, ctx 256K
- QwenWebBench est un benchmark interne de génération de code front-end
- configuration bilingue EN et CN
- 7 catégories : Web Design, Web Apps, Games, SVG, Data Visualization, Animation et 3D
- évaluation du code et de la cohérence visuelle via auto-render et juge multimodal
- utilisation du système de notation BT ou Elo
- AIME 26 utilise l’intégralité de AIME 2026 I et II
- Il est précisé que les scores peuvent différer de ceux des notes Qwen 3.5
- La SWE-Bench Series utilise un scaffold agent interne ainsi que les outils bash et d’édition de fichiers, avec temp 1.0, top_p 0.95 et une fenêtre de contexte de 200K
-
Vision-langage
- Qwen3.6-27B prend en charge à la fois les modes vision-langage thinking et non-thinking dans un point de contrôle unifié
- Il peut traiter des images et des vidéos en plus du texte
- Il prend en charge le raisonnement multimodal, la compréhension de documents et les tâches de question-réponse visuelle
- Le tableau comparatif présente Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B et Qwen3.6-27B
-
STEM et puzzles
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
VQA généraliste
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
Compréhension de documents
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
Intelligence spatiale
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
Compréhension vidéo
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
Remarque
- Les cases vides (
--) dans le tableau signifient qu’aucun score n’est encore disponible ou que cela ne s’applique pas
- Les cases vides (
Utilisation de Qwen3.6-27B
- La prise en charge d’Alibaba Cloud Model Studio est annoncée comme imminente
- Des open weights sont disponibles sur Hugging Face et ModelScope, avec possibilité d’auto-hébergement
- Des voies d’accès via l’API Alibaba Cloud Model Studio et via Qwen Studio pour un essai immédiat sont proposées
- L’intégration avec des assistants de code tiers comme OpenClaw, Claude Code et Qwen Code est prise en charge
- Le texte mentionne une simplification du workflow de développement et une context-aware coding experience
-
Utilisation de l’API
- Cette publication prend en charge la fonctionnalité
preserve_thinking - Elle permet de conserver le contenu de thinking généré à tous les tours précédents d’un message, et il est précisé qu’elle est recommandée pour les agentic tasks
- Cette publication prend en charge la fonctionnalité
-
Alibaba Cloud Model Studio
- Prise en charge des API chat completions et responses compatibles avec le format OpenAI
- Prise en charge également d’une interface API compatible Anthropic
- Des exemples de variables d’environnement sont fournis dans la documentation officielle
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- Des exemples de Base URL par région sont aussi indiqués
- Le code d’exemple utilise
qwen3.6-27bcomme nom de modèle par défaut extra_bodyinclutenable_thinking: Truepreserve_thinking: Trueapparaît sous forme de commentaire
- Un exemple de réponse en streaming montre comment collecter séparément le reasoning_content et le answer content
- Pour plus d’informations, il est indiqué de consulter le lien API doc
-
Coding & Agents
- Qwen3.6-27B dispose de capacités d’agentic coding et peut s’intégrer de manière fluide avec OpenClaw, Claude Code et Qwen Code
-
OpenClaw
- OpenClaw est un agent de code IA open source auto-hébergé, anciennement appelé Moltbot ou Clawdbot
- Connecté à Model Studio, il offre une expérience complète d’agentic coding dans le terminal
- Le script de démarrage inclut Node.js 22+, l’exécution du script d’installation, la configuration de
DASHSCOPE_API_KEY, puis l’exécution deopenclaw dashboardouopenclaw tui - Lors de la première utilisation, il faut modifier
~/.openclaw/openclaw.json- Il est précisé de ne pas écraser l’intégralité du fichier
- Ne fusionner que les champs nécessaires afin de préserver la configuration existante
- L’exemple de configuration inclut l’enregistrement du provider
modelstudioet du modèleqwen3.6-27bapiestopenai-completions- la valeur de
reasoningest true - les types d’entrée sont
text,image contextWindowvaut 131072maxTokensvaut 16384- le modèle primary par défaut est
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Code est un agent IA open source pour terminal, profondément optimisé pour la série Qwen
- Le script de démarrage inclut Node.js 20+, l’installation de
@qwen-code/qwen-code@latest, puis l’exécution deqwen - Des exemples d’utilisation des commandes
/helpet/authdans une session sont fournis - Lors de la première utilisation, une invite de connexion s’affiche, et
/authpermet de changer de méthode d’authentification
-
Claude Code
- Les API Qwen prennent aussi en charge le protocole API Anthropic
- Il est précisé qu’elles peuvent être utilisées avec des outils comme Claude Code
- L’exemple de configuration comprend les variables d’environnement suivantes
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- La commande d’exécution est
claude
Conclusion
- Qwen3.6-27B démontre qu’un modèle dense bien entraîné peut dépasser une génération précédente bien plus grande sur des tâches importantes pour les développeurs
- Avec 27 milliards de paramètres, il surpasse Qwen3.5-397B-A17B sur tous les principaux benchmarks d’agentic coding
- Son architecture simplifie le déploiement et l’exploitation, et la gamme open source Qwen3.6 couvre désormais un éventail plus large de configurations avec l’ajout de Qwen3.6-27B
Aucun commentaire pour le moment.