4 points par GN⁺ 14 일 전 | 1 commentaires | Partager sur WhatsApp
  • Modèle open source reposant sur une architecture Mixture-of-Experts (MoE) clairsemée, où seulement 3 milliards de paramètres sont activés sur un total de 35 milliards, conciliant ainsi efficacité et performances
  • Par rapport à la génération précédente, les capacités de codage agentique ont nettement progressé, atteignant un niveau capable de rivaliser avec de grands modèles denses comme Qwen3.5-27B ou Gemma4-31B
  • Il obtient des scores élevés sur les principaux benchmarks de codage comme SWE-bench, Terminal-Bench et Claw-Eval, et atteint aussi des performances de niveau Claude Sonnet 4.5 sur des tâches multimodales
  • Les poids ouverts et l’accès API sont disponibles via Alibaba Cloud Model Studio API, Hugging Face et ModelScope, avec prise en charge de l’intégration à divers outils de codage comme OpenClaw et Claude Code
  • Avec 3 milliards de paramètres actifs, il établit un nouveau standard pour les modèles ouverts efficaces capables de rivaliser avec de grands modèles

Présentation de Qwen3.6-35B-A3B

  • Qwen3.6-35B-A3B est un modèle Mixture-of-Experts (MoE) clairsemé dans lequel seuls 3 milliards de paramètres sont activés sur un total de 35 milliards, ce qui en fait un modèle open source alliant efficacité et performances
  • Par rapport à la version précédente, Qwen3.5-35B-A3B, ses performances en codage agentique (agentic coding) se sont fortement améliorées, au point de rivaliser avec de grands modèles denses comme Qwen3.5-27B ou Gemma4-31B
  • Il prend en charge à la fois les modes de raisonnement et de non-raisonnement multimodaux, et il est publié via Qwen Studio, API, Hugging Face et ModelScope
  • Le modèle peut être utilisé de manière interactive dans Qwen Studio, appelé via l’API Alibaba Cloud Model Studio (qwen3.6-flash) ou hébergé directement

Évaluation des performances

  • Performances en langage et en codage

    • Qwen3.6-35B-A3B dépasse Qwen3.5-27B (modèle dense de 27 milliards de paramètres) sur plusieurs benchmarks majeurs de codage, avec seulement 3 milliards de paramètres actifs
    • Il enregistre des scores élevés comme 73.4 sur SWE-bench Verified, 51.5 sur Terminal-Bench et une moyenne de 68.7 sur Claw-Eval
    • Sur QwenWebBench (benchmark de génération de code web), il obtient 1397 points, un niveau parmi les meilleurs de sa catégorie
    • Il affiche aussi de meilleurs résultats que les modèles concurrents sur des benchmarks agentiques généraux (MCPMark, MCP-Atlas, WideSearch, etc.)
    • Il conserve également une haute précision sur des évaluations de connaissance et de raisonnement comme MMLU-Pro, GPQA et AIME26
  • Environnement d’évaluation

    • La série SWE-Bench a été évaluée avec un scaffold agentique interne (outils bash + édition de fichiers) dans une fenêtre de contexte de 200K
    • Terminal-Bench 2.0 a été mesuré sur la moyenne de 5 essais, avec une limite de 3 heures, dans un environnement 32 CPU / 48 Go de RAM
    • SkillsBench a été évalué sur 78 tâches, hors travaux dépendant d’API
    • QwenClawBench et QwenWebBench sont des benchmarks internes fondés sur la distribution d’usage réelle, afin de refléter les environnements utilisateurs réels
  • Performances vision-langage

    • Qwen3.6-35B-A3B est un modèle multimodal natif qui atteint un niveau de performance proche de Claude Sonnet 4.5 avec seulement 3 milliards de paramètres actifs
    • Il montre une force particulière en intelligence spatiale, avec 92.0 sur RefCOCO (perception spatiale) et 50.8 sur ODInW13
    • Il obtient aussi des scores élevés sur diverses tâches vision-langage, dont 85.3 sur RealWorldQA, 92.8 sur MMBench EN-DEV et 89.9 sur OmniDocBench1.5
    • Sur les benchmarks de compréhension vidéo (VideoMME, VideoMMMU, MLVU, etc.), il maintient de façon stable des scores dans la fourchette 80–86

Utilisation de Qwen3.6-35B-A3B

  • Déploiement et accès

    • Disponible via l’API Alibaba Cloud Model Studio (qwen3.6-flash), avec téléchargement des poids ouverts possible sur Hugging Face et ModelScope
    • Test immédiat possible dans Qwen Studio, avec prise en charge de l’intégration à des assistants de codage tiers comme OpenClaw, Claude Code et Qwen Code
  • Utilisation de l’API

    • La fonctionnalité preserve_thinking permet de conserver le contenu de réflexion (thinking) des conversations précédentes, ce qui convient aux tâches agentiques
    • Alibaba Cloud Model Studio fournit une API de chat completions compatible avec les spécifications API d’OpenAI et d’Anthropic
    • Dans le code d’exemple, l’option enable_thinking permet d’afficher séparément la trace de raisonnement (reasoning trace) et la réponse finale
  • Intégration OpenClaw

    • Qwen3.6-35B-A3B est compatible avec OpenClaw (anciennement Moltbot/Clawdbot) et, relié à Model Studio, fournit un environnement de codage agentique en terminal
    • Il s’utilise en fusionnant les informations de l’API Model Studio dans le fichier de configuration (~/.openclaw/openclaw.json)
    • Installation et exécution possibles dans un environnement Node.js 22 ou supérieur
  • Intégration Qwen Code

    • Compatibilité complète avec Qwen Code (agent IA open source pour terminal) optimisé pour la série Qwen
    • Après installation sous Node.js 20 ou supérieur, la procédure d’authentification s’effectue avec la commande /auth
  • Intégration Claude Code

    • Grâce à la prise en charge du protocole API Anthropic, il peut aussi être utilisé directement dans Claude Code
    • Exécution du CLI après avoir défini la variable d’environnement ANTHROPIC_MODEL="qwen3.6-flash"

Résumé et perspectives

  • Qwen3.6-35B-A3B démontre que son architecture MoE clairsemée peut offrir des capacités de codage agentique et de raisonnement comparables à celles de grands modèles denses
  • Avec 3 milliards de paramètres actifs, il combine efficacité et performances tout en affichant d’excellents résultats sur les benchmarks multimodaux
  • Publié sous la forme d’un checkpoint entièrement open source, il propose un nouveau standard pour les modèles ouverts efficaces
  • L’équipe Qwen prévoit de continuer à étendre la famille open source Qwen3.6 et attend les retours ainsi que les usages de la communauté

Informations de citation

1 commentaires

 
GN⁺ 14 일 전
Réactions sur Hacker News
  • J’ai fait tourner la version Unsloth 20.9GB GGUF sur mon laptop avec LM Studio
    Lien du modèle
    Étonnamment, il a mieux dessiné un pélican à vélo qu’Opus 4.7
    Voir aussi le post comparatif de Simon Willison

    • J’ai reproduit le test avec le même modèle (M1 Max 64GB, moins de 90 secondes) — image du résultat
      Mon rendu avait le soleil et des nuages dans le ciel, de l’herbe sous forme de fines lignes vertes, et un effet de soleil avec halo
      Il y avait aussi une représentation similaire du « flux d’air » comme chez Simon, mais au final l’important, c’est le pélican et le vélo
    • J’ai essayé grâce au lien GGUF
      Je l’ai utilisé dans le projet Shoggoth.db pour du parcours de wiki + construction automatique de base de données
      J’ai vraiment senti une amélioration par rapport à Qwen3.5 dans l’exploration de nouveaux organismes
      La vitesse a aussi augmenté jusqu’à environ 140 token/s, et ça tournait de façon stable sur une RTX 4090 sans offload mémoire
      En revanche, il fallait utiliser l’option --no-mmproj-offload pour éviter les conflits multimodaux
    • Je me demande à partir de quand des tests comme « un pélican à vélo » vont cesser d’être utiles
      À l’origine, l’idée était d’évaluer la créativité d’un modèle avec des prompts bizarres auxquels personne n’avait pensé, mais maintenant on a l’impression que c’est devenu une sorte de benchmark interne
    • Je ne comprends pas pourquoi le dessin de flamant rose de Qwen a gagné
      Il est assis sur le pneu, la position du bec est bizarre, et les proportions entre les rayons et les pattes sont maladroites
      Les lunettes de soleil sont semi-transparentes, donc on ne voit qu’un seul œil
      C’est mignon, mais les nœuds papillon et accessoires non demandés sont plutôt un point négatif à mes yeux
      Le résultat d’Opus était moins tape-à-l’œil, mais plus précis
    • Plus je regarde les images, plus j’ai l’impression qu’il manque toujours la pièce du puzzle qu’est le world model
      Au fond, j’ai l’impression que les modèles actuels ne sont rien de plus que des générateurs probabilistes de phrases
  • C’est rassurant de voir l’équipe Qwen continuer à publier des open weights
    Actu liée 1, actu 2
    C’est impressionnant de voir le projet continuer même après le départ de personnes clés comme Junyang Lin

    • Ce n’est qu’un des modèles de la série Qwen 3.6
      Les modèles de petite taille ont de fortes chances d’être publiés bientôt, mais le modèle phare 397A17B semble exclu
    • Personnellement, j’aimerais voir les open weights de qwen-image 2.0
  • Il existe déjà une version qu’Unsloth a quantifiée et convertie
    Lien Hugging Face

    • Unsloth met rapidement en ligne des quants expérimentaux, mais les versions publiées juste après la sortie sont souvent corrigées ensuite
      Mieux vaut revérifier une semaine plus tard pour récupérer une version stable
      À cause de bugs initiaux, il arrive que de bons modèles soient sous-évalués
    • Je me demande pourquoi Qwen ne publie pas directement ses modèles quantifiés
      Le processus de quantification est complexe et comporte un risque de dégradation de qualité, donc je pense qu’il vaut mieux que ce soit fait par le développeur d’origine
      Une mauvaise version quantifiée pourrait aussi ruiner la réputation du modèle
    • Je me demande quelle VRAM il faut. J’aimerais savoir si ça peut tourner sur un GPU de 16GB
    • Je me demande pourquoi la quantification par défaut de Qwen est mauvaise, qui est Unsloth,
      et quels sont les avantages d’un bon format
      Ce serait bien d’expliquer aussi le concept même de quantification
    • Je me demande si on peut utiliser ce modèle avec la commande ollama run claude
  • Ravi de cette sortie de l’équipe Qwen
    Les petits modèles de code à poids ouverts sont utiles pour créer des agents sur mesure dans certains secteurs (par ex. finance, santé)
    pour des équipes de développement dont l’accès au cloud est limité
    En Occident, presque personne ne s’adresse à ce marché, à part peut-être Mistral

    • Mistral semble être la seule entreprise à poursuivre un modèle économique durable
      Les autres boîtes d’IA donnent plutôt l’impression de ne viser que les revenus à court terme
    • Les petits modèles open sont amusants, mais ce n’est pas du tout la même catégorie que les grands modèles hébergés
      Pour du travail sérieux, il faut investir dans du matériel capable de faire tourner de plus gros modèles soi-même
    • Je suis d’accord, mais ces petits modèles restent insuffisants pour un vrai usage industriel
      Même avec du matériel autour de 100 000 dollars, on peut faire tourner des modèles plus gros on-premise
    • Créer un modèle open weights concurrent, c’est génial, mais ça coûte beaucoup trop cher
    • Dans les secteurs régulés, je me demande comment vérifier qu’un modèle n’a pas été entraîné sur des données malveillantes
  • Les caractéristiques d’embedding linguistique de Qwen sont intéressantes
    Tweet d’analyse associé
    Contrairement aux autres modèles, Qwen se situerait dans un bassin de distribution orienté examen

  • Un cadre de Qwen a publié sur Twitter un sondage demandant quel modèle les gens voulaient voir en open source,
    et même si la version 27B était la plus populaire, elle n’a pas été publiée

    • Comme pour la 3.5, elle pourrait être publiée progressivement via un processus de distillation
      L’architecture A3B se distille rapidement, donc ça pourrait arriver bientôt
    • Le 27B est un modèle dense, donc moins séduisant en marketing que le 35A3B
      Ce dernier paraît plus rapide et plus « intelligent »
    • Il sera probablement publié bientôt
    • Personnellement, je trouve que l’architecture MoE est inefficace
      À VRAM égale, un modèle dense 27B pourrait gérer un contexte plus large et offrir une meilleure qualité
  • J’ai beaucoup utilisé Qwen3.5-35B-A3B en test local,
    et c’était le modèle le plus puissant qui tournait sur mon matériel
    J’ai été particulièrement impressionné par les versions quantifiées Mudler APEX-I-Quality et Byteshape Q3_K_S-3.40bpw
    Sur une RTX 3060 12GB, j’avais plus de marge mémoire et la vitesse dépassait 40 t/s

    • Après plusieurs essais, Qwen3.6 représente un saut bien plus important que 3.5
      Il arrive même à améliorer tout seul des projets sur lesquels il bloquait auparavant
    • Je me demande quelle version quantifiée est la meilleure
  • C’est ce genre de sortie logicielle IA que j’attends le plus
    Pas de marketing alarmiste sur les risques, pas d’abonnement, juste un modèle qu’on a envie d’essayer

    • Je pense pareil. J’espère que dans un futur proche, les modèles locaux et les performances matérielles progresseront assez
      pour devenir pratiques dans la plupart des cas d’usage
  • Je me demande comment les gens utilisent réellement ce genre de modèles locaux
    J’aimerais savoir quelle valeur ils apportent par rapport au fait de louer des tokens chez Anthropic ou OpenAI

    • J’utilise Qwen3.5-9B pour de l’extraction locale de tableaux OCR
      Comme les formats de documents varient énormément, j’utilisais avant un pipeline complexe à base de règles,
      mais maintenant ses capacités multimodales permettent une extraction combinant langage + vision
    • Moi, j’utilise Qwen3.5-4B avec Frigate, un NVR FOSS
      C’est tout à fait suffisant pour l’analyse vidéo, et je confie les résumés de texte ou la traduction à des modèles plus gros
      Quand ce n’est pas en temps réel, la qualité compte plus que la vitesse, donc c’est bien adapté au traitement par lots
    • Je n’ai pas envie d’utiliser éternellement un modèle de location de tokens
      Je veux un modèle entièrement privé et auto-hébergé
      J’en ai assez des interruptions des services SaaS, donc je pense que les LLM finiront eux aussi par passer à l’auto-hébergement
    • J’ai traité par lots plusieurs millions de documents avec vLLM + qwen3-coder-next
      Ça permettait d’utiliser le GPU à 100 % sans limite de tokens ni limite de débit
    • Tous les travaux n’ont pas besoin d’un modèle SOTA
      Par exemple, j’utilise Gemma 4 sur iPhone comme traducteur hors ligne,
      et c’est plus rapide et plus précis qu’Apple Translate
      Pour de petites modifications JSON, un modèle local est bien plus efficace