Qwen3.6-27B : des performances de codage dignes d’un flagship avec un modèle dense de 27 milliards

(qwen.ai)

7 points par GN⁺ 7 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Publication d’un modèle multimodal dense de 27 milliards de paramètres, avec prise en charge conjointe des modes thinking et non-thinking ainsi que du traitement d’images et de vidéos dans un point de contrôle unifié
Les performances en agentic coding dépassent celles de l’ancien flagship open source Qwen3.5-397B-A17B sur les principaux benchmarks de code, et surpassent même des modèles comptant jusqu’à 15 fois plus de paramètres au total
Scores annoncés : SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2 ; ainsi que 87.8 sur GPQA Diamond et 94.1 sur AIME26 pour le raisonnement textuel et les évaluations STEM
L’adoption d’une architecture dense élimine la complexité de routage des MoE, simplifie le déploiement, et s’accompagne d’open weights, d’une API, d’un accès immédiat via Qwen Studio, ainsi que de l’intégration avec OpenClaw, Qwen Code et Claude Code
Le modèle montre qu’un modèle dense bien entraîné peut dépasser une génération précédente bien plus grande sur les tâches clés des développeurs, et étend aussi l’orientation agentic coding de la gamme Qwen3.6

Vue d’ensemble

Qwen3.6-27B est publié comme un modèle multimodal dense de 27 milliards de paramètres, avec prise en charge conjointe des modes multimodaux thinking et non-thinking
En agentic coding, il dépasse l’ancien flagship open source Qwen3.5-397B-A17B sur les principaux benchmarks de code
Grâce à une architecture dense sans complexité de routage MoE, son déploiement est plus simple, tout en offrant des performances de codage de premier plan à une échelle pratique et largement diffusable
Il est disponible immédiatement dans Qwen Studio, avec des open weights pour la communauté et un accès via API
Ses caractéristiques clés incluent un agentic coding de niveau flagship, un raisonnement textuel solide et des capacités de raisonnement multimodal

Performances

Qwen3.6-27B a été évalué face à des modèles de référence dense et MoE, avec de fortes améliorations sur les benchmarks d’agentic coding
Il est indiqué qu’il dépasse même des modèles jusqu’à 15 fois plus grands en nombre total de paramètres
Les évaluations couvrent le langage, les connaissances, le STEM et le raisonnement, la vision-langage, la compréhension de documents, la compréhension vidéo et les visual agents
Langage
- Avec seulement 27 milliards de paramètres, il dépasse Qwen3.5-397B-A17B sur tous les principaux benchmarks de code
  - SWE-bench Verified 77.2 contre 76.2
  - SWE-bench Pro 53.5 contre 50.9
  - Terminal-Bench 2.0 59.3 contre 52.5
  - SkillsBench 48.2 contre 30.0
- Il devance aussi largement d’autres modèles denses de taille comparable
- Sur les tâches de raisonnement, il obtient 87.8 sur GPQA Diamond, un niveau compétitif face à des modèles plusieurs fois plus grands
- Le tableau détaillé compare Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B et Qwen3.6-27B
- Principaux scores de la catégorie Coding Agent
  - SWE-bench Multilingual 71.3
  - QwenWebBench 1487
  - NL2Repo 36.2
  - Claw-Eval Avg 72.4
  - Claw-Eval Pass^3 60.6
  - QwenClawBench 53.4
- Principaux scores de la catégorie Knowledge
  - MMLU-Pro 86.2
  - MMLU-Redux 93.5
  - SuperGPQA 66.0
  - C-Eval 91.4
- Principaux scores de la catégorie STEM et raisonnement
  - HLE 24.0
  - LiveCodeBench v6 83.9
  - HMMT Feb 25 93.8
  - HMMT Nov 25 90.7
  - HMMT Feb 26 84.3
  - IMOAnswerBench 80.8
  - AIME26 94.1
Configuration des évaluations de langage
- La SWE-Bench Series utilise un scaffold agent interne ainsi que les outils bash et d’édition de fichiers, avec temp 1.0, top_p 0.95 et une fenêtre de contexte de 200K
  - Tous les modèles de référence ont été évalués sur un benchmark affiné corrigeant certaines tâches problématiques du jeu public SWE-bench Pro
- Terminal-Bench 2.0 utilise le harness Harbor ou Terminus-2
  - timeout de 3 heures, 32 CPU, 48 Go de RAM
  - temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
  - moyenne sur 5 exécutions
- SkillsBench évalue 78 tâches avec OpenCode
  - sous-ensemble autonome excluant les tâches dépendantes d’API
  - moyenne sur 5 exécutions
- Pour NL2Repo, les autres modèles ont été évalués avec Claude Code
  - temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench est un benchmark d’agent Claw fondé sur une distribution réelle d’utilisateurs
  - temp 0.6, ctx 256K
- QwenWebBench est un benchmark interne de génération de code front-end
  - configuration bilingue EN et CN
  - 7 catégories : Web Design, Web Apps, Games, SVG, Data Visualization, Animation et 3D
  - évaluation du code et de la cohérence visuelle via auto-render et juge multimodal
  - utilisation du système de notation BT ou Elo
- AIME 26 utilise l’intégralité de AIME 2026 I et II
  - Il est précisé que les scores peuvent différer de ceux des notes Qwen 3.5
Vision-langage
- Qwen3.6-27B prend en charge à la fois les modes vision-langage thinking et non-thinking dans un point de contrôle unifié
- Il peut traiter des images et des vidéos en plus du texte
- Il prend en charge le raisonnement multimodal, la compréhension de documents et les tâches de question-réponse visuelle
- Le tableau comparatif présente Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B et Qwen3.6-27B
- STEM et puzzles
  - MMMU 82.9
  - MMMU-Pro 75.8
  - MathVista mini 87.4
  - DynaMath 85.6
  - VlmsAreBlind 97.0
- VQA généraliste
  - RealWorldQA 84.1
  - MMStar 81.4
  - MMBench EN-DEV-v1.1 92.3
  - SimpleVQA 56.1
- Compréhension de documents
  - CharXiv RQ 78.4
  - CC-OCR 81.2
  - OCRBench 89.4
- Intelligence spatiale
  - ERQA 62.5
  - CountBench 97.8
  - RefCOCO avg 92.5
  - EmbSpatialBench 84.6
  - RefSpatialBench 70.0
- Compréhension vidéo
  - VideoMME(w sub.) 87.7
  - VideoMMMU 84.4
  - MLVU 86.6
  - MVBench 75.5
- Visual Agent
  - V* 94.7
  - AndroidWorld 70.3
- Remarque
  - Les cases vides (--) dans le tableau signifient qu’aucun score n’est encore disponible ou que cela ne s’applique pas

Utilisation de Qwen3.6-27B

La prise en charge d’Alibaba Cloud Model Studio est annoncée comme imminente
Des open weights sont disponibles sur Hugging Face et ModelScope, avec possibilité d’auto-hébergement
Des voies d’accès via l’API Alibaba Cloud Model Studio et via Qwen Studio pour un essai immédiat sont proposées
L’intégration avec des assistants de code tiers comme OpenClaw, Claude Code et Qwen Code est prise en charge
Le texte mentionne une simplification du workflow de développement et une context-aware coding experience
Utilisation de l’API
- Cette publication prend en charge la fonctionnalité preserve_thinking
- Elle permet de conserver le contenu de thinking généré à tous les tours précédents d’un message, et il est précisé qu’elle est recommandée pour les agentic tasks
Alibaba Cloud Model Studio
- Prise en charge des API chat completions et responses compatibles avec le format OpenAI
- Prise en charge également d’une interface API compatible Anthropic
- Des exemples de variables d’environnement sont fournis dans la documentation officielle
  - DASHSCOPE_API_KEY
  - DASHSCOPE_BASE_URL
  - DASHSCOPE_MODEL
- Des exemples de Base URL par région sont aussi indiqués
  - Beijing https://dashscope.aliyuncs.com/compatible-mode/v1
  - Singapore https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  - US Virginia https://dashscope-us.aliyuncs.com/compatible-mode/v1
- Le code d’exemple utilise qwen3.6-27b comme nom de modèle par défaut
- extra_body inclut enable_thinking: True
  - preserve_thinking: True apparaît sous forme de commentaire
- Un exemple de réponse en streaming montre comment collecter séparément le reasoning_content et le answer content
- Pour plus d’informations, il est indiqué de consulter le lien API doc
Coding & Agents
- Qwen3.6-27B dispose de capacités d’agentic coding et peut s’intégrer de manière fluide avec OpenClaw, Claude Code et Qwen Code
- OpenClaw
  - OpenClaw est un agent de code IA open source auto-hébergé, anciennement appelé Moltbot ou Clawdbot
  - Connecté à Model Studio, il offre une expérience complète d’agentic coding dans le terminal
  - Le script de démarrage inclut Node.js 22+, l’exécution du script d’installation, la configuration de DASHSCOPE_API_KEY, puis l’exécution de openclaw dashboard ou openclaw tui
  - Lors de la première utilisation, il faut modifier ~/.openclaw/openclaw.json
    - Il est précisé de ne pas écraser l’intégralité du fichier
    - Ne fusionner que les champs nécessaires afin de préserver la configuration existante
  - L’exemple de configuration inclut l’enregistrement du provider modelstudio et du modèle qwen3.6-27b
    - api est openai-completions
    - la valeur de reasoning est true
    - les types d’entrée sont text, image
    - contextWindow vaut 131072
    - maxTokens vaut 16384
    - le modèle primary par défaut est modelstudio/qwen3.6-27b
- Qwen Code
  - Qwen Code est un agent IA open source pour terminal, profondément optimisé pour la série Qwen
  - Le script de démarrage inclut Node.js 20+, l’installation de @qwen-code/qwen-code@latest, puis l’exécution de qwen
  - Des exemples d’utilisation des commandes /help et /auth dans une session sont fournis
  - Lors de la première utilisation, une invite de connexion s’affiche, et /auth permet de changer de méthode d’authentification
- Claude Code
  - Les API Qwen prennent aussi en charge le protocole API Anthropic
  - Il est précisé qu’elles peuvent être utilisées avec des outils comme Claude Code
  - L’exemple de configuration comprend les variables d’environnement suivantes
    - ANTHROPIC_MODEL="qwen3.6-27b"
    - ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"
    - ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
    - ANTHROPIC_AUTH_TOKEN=<your_api_key>
  - La commande d’exécution est claude

Conclusion

Qwen3.6-27B démontre qu’un modèle dense bien entraîné peut dépasser une génération précédente bien plus grande sur des tâches importantes pour les développeurs
Avec 27 milliards de paramètres, il surpasse Qwen3.5-397B-A17B sur tous les principaux benchmarks d’agentic coding
Son architecture simplifie le déploiement et l’exploitation, et la gamme open source Qwen3.6 couvre désormais un éventail plus large de configurations avec l’ajout de Qwen3.6-27B

Qwen3.6-27B : des performances de codage dignes d’un flagship avec un modèle dense de 27 milliards

Vue d’ensemble

Performances

Langage

Configuration des évaluations de langage

Vision-langage

STEM et puzzles

VQA généraliste

Compréhension de documents

Intelligence spatiale

Compréhension vidéo

Visual Agent

Remarque

Utilisation de Qwen3.6-27B

Utilisation de l’API

Alibaba Cloud Model Studio

Coding & Agents

OpenClaw

Qwen Code

Claude Code

Conclusion

À lire aussi

Aucun commentaire pour le moment.