4 points par GN⁺ 13 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Modèle open source reposant sur une architecture Mixture-of-Experts (MoE) clairsemée, où seulement 3 milliards de paramètres sont activés sur un total de 35 milliards, conciliant ainsi efficacité et performances
  • Par rapport à la génération précédente, les capacités de codage agentique ont nettement progressé, atteignant un niveau capable de rivaliser avec de grands modèles denses comme Qwen3.5-27B ou Gemma4-31B
  • Il obtient des scores élevés sur les principaux benchmarks de codage comme SWE-bench, Terminal-Bench et Claw-Eval, et atteint aussi des performances de niveau Claude Sonnet 4.5 sur des tâches multimodales
  • Les poids ouverts et l’accès API sont disponibles via Alibaba Cloud Model Studio API, Hugging Face et ModelScope, avec prise en charge de l’intégration à divers outils de codage comme OpenClaw et Claude Code
  • Avec 3 milliards de paramètres actifs, il établit un nouveau standard pour les modèles ouverts efficaces capables de rivaliser avec de grands modèles

Présentation de Qwen3.6-35B-A3B

  • Qwen3.6-35B-A3B est un modèle Mixture-of-Experts (MoE) clairsemé dans lequel seuls 3 milliards de paramètres sont activés sur un total de 35 milliards, ce qui en fait un modèle open source alliant efficacité et performances
  • Par rapport à la version précédente, Qwen3.5-35B-A3B, ses performances en codage agentique (agentic coding) se sont fortement améliorées, au point de rivaliser avec de grands modèles denses comme Qwen3.5-27B ou Gemma4-31B
  • Il prend en charge à la fois les modes de raisonnement et de non-raisonnement multimodaux, et il est publié via Qwen Studio, API, Hugging Face et ModelScope
  • Le modèle peut être utilisé de manière interactive dans Qwen Studio, appelé via l’API Alibaba Cloud Model Studio (qwen3.6-flash) ou hébergé directement

Évaluation des performances

  • Performances en langage et en codage

    • Qwen3.6-35B-A3B dépasse Qwen3.5-27B (modèle dense de 27 milliards de paramètres) sur plusieurs benchmarks majeurs de codage, avec seulement 3 milliards de paramètres actifs
    • Il enregistre des scores élevés comme 73.4 sur SWE-bench Verified, 51.5 sur Terminal-Bench et une moyenne de 68.7 sur Claw-Eval
    • Sur QwenWebBench (benchmark de génération de code web), il obtient 1397 points, un niveau parmi les meilleurs de sa catégorie
    • Il affiche aussi de meilleurs résultats que les modèles concurrents sur des benchmarks agentiques généraux (MCPMark, MCP-Atlas, WideSearch, etc.)
    • Il conserve également une haute précision sur des évaluations de connaissance et de raisonnement comme MMLU-Pro, GPQA et AIME26
  • Environnement d’évaluation

    • La série SWE-Bench a été évaluée avec un scaffold agentique interne (outils bash + édition de fichiers) dans une fenêtre de contexte de 200K
    • Terminal-Bench 2.0 a été mesuré sur la moyenne de 5 essais, avec une limite de 3 heures, dans un environnement 32 CPU / 48 Go de RAM
    • SkillsBench a été évalué sur 78 tâches, hors travaux dépendant d’API
    • QwenClawBench et QwenWebBench sont des benchmarks internes fondés sur la distribution d’usage réelle, afin de refléter les environnements utilisateurs réels
  • Performances vision-langage

    • Qwen3.6-35B-A3B est un modèle multimodal natif qui atteint un niveau de performance proche de Claude Sonnet 4.5 avec seulement 3 milliards de paramètres actifs
    • Il montre une force particulière en intelligence spatiale, avec 92.0 sur RefCOCO (perception spatiale) et 50.8 sur ODInW13
    • Il obtient aussi des scores élevés sur diverses tâches vision-langage, dont 85.3 sur RealWorldQA, 92.8 sur MMBench EN-DEV et 89.9 sur OmniDocBench1.5
    • Sur les benchmarks de compréhension vidéo (VideoMME, VideoMMMU, MLVU, etc.), il maintient de façon stable des scores dans la fourchette 80–86

Utilisation de Qwen3.6-35B-A3B

  • Déploiement et accès

    • Disponible via l’API Alibaba Cloud Model Studio (qwen3.6-flash), avec téléchargement des poids ouverts possible sur Hugging Face et ModelScope
    • Test immédiat possible dans Qwen Studio, avec prise en charge de l’intégration à des assistants de codage tiers comme OpenClaw, Claude Code et Qwen Code
  • Utilisation de l’API

    • La fonctionnalité preserve_thinking permet de conserver le contenu de réflexion (thinking) des conversations précédentes, ce qui convient aux tâches agentiques
    • Alibaba Cloud Model Studio fournit une API de chat completions compatible avec les spécifications API d’OpenAI et d’Anthropic
    • Dans le code d’exemple, l’option enable_thinking permet d’afficher séparément la trace de raisonnement (reasoning trace) et la réponse finale
  • Intégration OpenClaw

    • Qwen3.6-35B-A3B est compatible avec OpenClaw (anciennement Moltbot/Clawdbot) et, relié à Model Studio, fournit un environnement de codage agentique en terminal
    • Il s’utilise en fusionnant les informations de l’API Model Studio dans le fichier de configuration (~/.openclaw/openclaw.json)
    • Installation et exécution possibles dans un environnement Node.js 22 ou supérieur
  • Intégration Qwen Code

    • Compatibilité complète avec Qwen Code (agent IA open source pour terminal) optimisé pour la série Qwen
    • Après installation sous Node.js 20 ou supérieur, la procédure d’authentification s’effectue avec la commande /auth
  • Intégration Claude Code

    • Grâce à la prise en charge du protocole API Anthropic, il peut aussi être utilisé directement dans Claude Code
    • Exécution du CLI après avoir défini la variable d’environnement ANTHROPIC_MODEL="qwen3.6-flash"

Résumé et perspectives

  • Qwen3.6-35B-A3B démontre que son architecture MoE clairsemée peut offrir des capacités de codage agentique et de raisonnement comparables à celles de grands modèles denses
  • Avec 3 milliards de paramètres actifs, il combine efficacité et performances tout en affichant d’excellents résultats sur les benchmarks multimodaux
  • Publié sous la forme d’un checkpoint entièrement open source, il propose un nouveau standard pour les modèles ouverts efficaces
  • L’équipe Qwen prévoit de continuer à étendre la famille open source Qwen3.6 et attend les retours ainsi que les usages de la communauté

Informations de citation

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.