Qwen3.6-Plus : vers des agents pour le monde réel

(qwen.ai)

7 points par GN⁺ 28 일 전 | 1 commentaires | Partager sur WhatsApp

Qwen3.6-Plus est un modèle ayant bénéficié d’une mise à niveau majeure après Qwen3.5, avec un fort renforcement des capacités de codage orientées agent et des performances de raisonnement multimodal
Il prend en charge une fenêtre de contexte de 1M de tokens et est disponible immédiatement via l’API Alibaba Cloud Model Studio
Il affiche des performances de premier plan sur les benchmarks de codage, de langage, multimodaux et d’agents, tout en améliorant sa capacité à gérer du code complexe et à exécuter des plans à long terme
Grâce à l’option preserve_thinking, il conserve le contexte de raisonnement et prend en charge l’intégration avec divers agents de codage comme OpenClaw, Claude Code et Qwen Code
Il évolue vers une IA multimodale orientée agent capable d’aller de la perception visuelle à la prise de décision d’action, avec pour objectif futur l’open source de petits modèles et l’extension vers des super-agents hautement autonomes

Résumé des principales fonctionnalités et performances de Qwen3.6-Plus

Qwen3.6-Plus est une version fortement mise à niveau publiée après la série Qwen3.5, un modèle qui renforce nettement les capacités de codage orientées agent et les performances de raisonnement multimodal
Il est utilisable immédiatement via l’API d’Alibaba Cloud Model Studio et fournit nativement une fenêtre de contexte de 1M de tokens
En intégrant les retours de la communauté, il améliore la stabilité et la fiabilité, et vise une expérience de « vibe coding » en environnement de développement réel

Évaluation des performances

Il enregistre des performances parmi les meilleures de sa catégorie sur divers benchmarks de langage, de codage, multimodaux et d’agents
Dans le domaine des agents de codage, il obtient sur des benchmarks majeurs comme SWE-bench, Terminal-Bench et Claw-Eval des résultats comparables ou supérieurs à ceux des modèles leaders du secteur
Dans les domaines des agents généraux et de l’usage d’outils, il progresse globalement sur TAU3-Bench, DeepPlanning et MCPMark
Il établit aussi de nouveaux meilleurs scores en raisonnement STEM, extraction d’informations dans des textes très longs et adaptation multilingue
Le modèle intègre de façon organique le raisonnement logique, la mémoire et l’exécution d’outils, renforçant ainsi ses capacités de résolution de problèmes du monde réel comme la gestion de code complexe ou la planification de long terme

Performances multimodales

Grâce à un raisonnement multimodal avancé, il réalise de grands progrès en compréhension de documents, analyse du monde physique, raisonnement vidéo et codage visuel
En matière d’applicabilité au monde réel, il offre des performances stables en environnement métier réel pour la reconnaissance de texte et d’objets ainsi que la perception visuelle de précision
Grâce à l’intégration vision-langage, il dépasse la performance sur tâches unitaires pour évoluer vers une IA orientée agent centrée sur les workflows
Sur divers benchmarks comme RealWorldQA, OmniDocBench, CountBench et VideoMME, il montre des résultats compétitifs face à GPT5.2, Claude 4.5 et Gemini-3 Pro

API et intégration au développement

L’API Alibaba Cloud Model Studio prend en charge des protocoles compatibles avec OpenAI et Anthropic
Nouvelle option d’API preserve_thinking
- Elle conserve le contenu de raisonnement des échanges précédents afin d’améliorer la cohérence des tâches orientées agent et l’efficacité en tokens
- La valeur par défaut est désactivée (false) et, une fois activée, elle conserve l’ensemble du contexte de raisonnement
L’API est accessible via l’endpoint compatible OpenAI chat.completions, avec du code d’exemple fourni

Intégration du codage et des agents

Qwen3.6-Plus peut s’intégrer à des assistants de codage tiers comme OpenClaw, Claude Code, Qwen Code, Kilo Code, Cline et OpenCode
En développement frontend, ses capacités de traitement de projets complexes comme les scènes 3D, les jeux et le web design sont renforcées
Intégration OpenClaw
- Il s’agit d’un agent de codage IA open source auto-hébergé qui, connecté à Model Studio, fournit un environnement de codage orienté agent basé sur le terminal
- Il peut être utilisé en ajoutant le modèle Qwen3.6-Plus au fichier de configuration (openclaw.json)
- Le modèle prend en charge le raisonnement activé, les entrées texte et image ainsi qu’une fenêtre de contexte de 1M
Intégration Qwen Code
- Agent de codage IA open source en terminal optimisé pour la série Qwen
- Il prend en charge la compréhension de bases de code complexes, l’automatisation de tâches répétitives et le déploiement rapide
- Après installation dans un environnement Node.js, l’authentification est possible via la commande /auth
Intégration Claude Code
- Grâce à la compatibilité avec le protocole d’API Anthropic, Qwen3.6-Plus peut aussi être utilisé dans Claude Code CLI
- Il s’exécute après configuration du nom du modèle (qwen3.6-plus) et de l’endpoint API via des variables d’environnement

Agents visuels et extension multimodale

Il continue de renforcer une trajectoire d’évolution allant de la perception visuelle → raisonnement multimodal → exécution agentique
Il ne se limite pas à la simple reconnaissance, mais peut aussi effectuer l’analyse des relations dans l’information visuelle et la prise de décision d’action
Il prend en charge des tâches visuelles pratiques telles que la compréhension de documents, l’analyse de graphiques, la reconnaissance d’interface utilisateur et le repérage précis
Dans le domaine de la compréhension vidéo, il peut traiter les informations temporelles et les relations entre images afin d’analyser du contenu dynamique
Dans des scénarios d’agents GUI, il reconnaît l’état de l’écran et exécute une planification et une exécution en plusieurs étapes

Feuille de route

Qwen3.6-Plus constitue une version marquant un progrès concret dans le codage orienté agent et l’IA multimodale, tout en renforçant les bases de l’écosystème développeur
La publication complète de la série Qwen3.6 et la mise en open source de petits modèles sont prévues prochainement
À long terme, l’objectif est d’évoluer vers des super-agents hautement autonomes capables d’exécuter des tâches complexes de long terme à l’échelle d’un dépôt

1 commentaires

GN⁺ 28 일 전

Réactions sur Hacker News

Ce modèle est uniquement hébergé, donc ce n’est pas un modèle à poids ouverts (open weight)
Avant, ils s’étaient construit une bonne réputation avec des modèles ouverts, mais il leur sera désormais difficile d’être perçus comme des concurrents de Claude ou ChatGPT
En réalité, le fait d’avoir publié gratuitement de petits modèles relevait moins de la générosité que d’une stratégie publicitaire
Et le fait d’avoir comparé au 4.5 plutôt qu’à Opus 4.6 semble aussi viser délibérément à induire en erreur
Cela dit, même si ce n’est pas du niveau SOTA, le marché des modèles bon marché reste assez vaste
En revanche, sur ce type de marché, la fidélité à la marque est faible, et les utilisateurs ont tendance à changer dès qu’un modèle un peu meilleur apparaît
- Ils ont dit qu’ils publieraient plus tard de « petites variantes de modèles », mais sans aucun détail concret
  On ne sait même pas s’il y aura une variante autour de 300B comme pour Qwen 3.5. Le blog officiel n’en parle pas non plus
- Ah, donc c’est pour ça qu’il y a eu récemment des départs dans l’équipe Qwen
- En ce moment, je me demande plutôt quelle est la rentabilité réelle de ces modèles
  Avec la multiplication des modèles ouverts, qui tournent même sur du matériel bon marché, je me demande comment les entreprises d’IA peuvent encore défendre leurs marges
- En pratique, j’ai l’impression qu’Opus 4.5 est meilleur que 4.6
  4.6 n’était qu’une mise à jour de réduction des coûts, avec des benchmarks ajustés pour donner l’impression qu’il était meilleur
- Quand on utilise plusieurs modèles en production, la « personnalité » du modèle compte beaucoup
  Par exemple, sa capacité à bien suivre les consignes, à ne pas gaspiller de tokens et à ne pas sortir du script
  Sur ces aspects, les modèles chinois sont très compétitifs, avec une qualité comparable pour des prix 70 à 90 % moins chers
Je comprends que Qwen se soit comparé à Opus 4.5 ou à Gemini Pro 3.0
Mais je trouve exagéré d’aller jusqu’à qualifier cela de trompeur
Les modèles d’IA sortent de nouvelles versions chaque trimestre, mais cela ne veut pas dire qu’on a oublié les performances des générations précédentes
J’ai essayé GLM-5 et Kimi K2.5, et c’était plutôt bon. Si ce nouveau modèle Qwen est de ce niveau, c’est impressionnant
Qwen 3.5-plus et 3-Max étaient déjà des modèles fermés, donc ce n’est pas une première
C’est dommage que ce soit un modèle fermé, mais la course au SOTA finit malgré tout par profiter aux consommateurs
- Le problème, ce n’est pas seulement l’objet de la comparaison, mais la sincérité de la manière de comparer
  Ça donne l’impression qu’Apple sortirait un nouvel iPhone et le comparerait à un ancien Android, ce qui fait baisser la confiance
- Opus 4.5 était déjà largement suffisant
  Et en plus, Opus 4.5 coûte 25 $ par token de sortie, alors que ce modèle est à environ 6 $, soit un quart du prix
J’ai obtenu des résultats Pelican plutôt bons
Je les ai générés via l’API Alibaba Cloud Model Studio, mais il fallait créer un compte et lier PayPal
Mais maintenant, on peut l’utiliser gratuitement sur OpenRouter
- Certains ont plaisanté en disant que Pelican était en train de rattraper le peloton d’aspiration
- Il y avait aussi une blague disant qu’on entraînerait bientôt un pélican à faire du vélo. Une histoire de « benchmark mondial », apparemment
À ceux qui pensent que les labos chinois vont cesser de faire de l’open source, j’ai envie de dire :
ça n’arrivera probablement pas
Essayez par exemple de vous inscrire au plan coding de Z.ai — c’est presque impossible
Ces acteurs ont de faibles capacités marketing, et publier des modèles ouverts est pratiquement leur seul moyen de rester visibles
Ils dépendent aussi de canaux de distribution comme OpenRouter ou OpenCode pour vendre
Au final, l’open source n’est pas une stratégie d’État, mais leur seul moyen de commercialisation
- Il y avait aussi la blague : « Pourquoi le modèle ne ferait-il pas son propre marketing ? »
  S’il n’est même pas capable d’assurer sa propre promotion, c’est peut-être le signe d’une limite de performance
Contrairement à la plupart des modèles Qwen, celui-ci a des poids non publics, et même le nombre de paramètres n’est pas communiqué
En plus, Opus 4.6 est sorti il y a deux mois, donc le fait de comparer avec 4.5 est étrange
- Le dernier paragraphe du blog indique qu’ils prévoient bientôt de publier en open source de petites variantes du modèle
  Source
- Si Opus 4.6 est sorti il y a deux mois, il est aussi possible que Qwen n’ait pas encore terminé les tests de comparaison
- En réalité, les modèles Qwen en -MAX ou -Omni ont toujours été fermés
Personnellement, je ne pense pas que la comparaison avec Opus 4.5 soit si problématique que ça
En pratique, il est plus utile pour moi de comparer avec des modèles que je connais bien
Si je veux les meilleures performances, j’utiliserai un autre modèle, mais si je cherche une option bon marché pour une qualité similaire, la comparaison a tout son sens
- Si on peut obtenir gratuitement des performances du niveau d’Opus 4.5, ça mérite clairement l’attention
  Même si je ne l’utiliserais pas pour la fonctionnalité principale d’une application, ce serait largement suffisant pour des parties moins critiques
- Honnêtement, avec Opus 4.6 ou GPT 5.4, la différence perçue par rapport à la génération précédente était minime
  Si je peux avoir un niveau 4.5 pour un dixième du prix, je choisirais ça
Les résultats sur les benchmarks d’agents sont intéressants, mais je me demande dans quelle mesure Qwen3.6-Plus sait récupérer après une erreur
La plupart des tests ne couvrent que le happy path,
alors qu’en réalité, le vrai sujet est de savoir s’il peut se tromper à l’étape 3 puis revenir dans le bon flux à l’étape 15
Je me demande si quelqu’un a déjà fait ce type de stress test sur un vrai workflow de développement
J’aimerais que les fournisseurs d’IA arrêtent ce marketing consistant à se comparer aux modèles de génération précédente des concurrents
Personne n’est dupe, et ça ne fait qu’éroder la confiance dans la marque
Les modèles Qwen sont excellents en eux-mêmes, et c’est dommage que leur réputation soit abîmée par ce genre de stratégie comparative
En réalité, Qwen exploitait déjà depuis longtemps ses versions Plus et Max comme des modèles fermés
Donc cette manière de publier n’a rien de nouveau
Qwen 3.6 Plus ressemble simplement à une version affinée de 3.5 Plus
Lien de comparaison

Qwen3.6-Plus : vers des agents pour le monde réel

Résumé des principales fonctionnalités et performances de Qwen3.6-Plus

Évaluation des performances

Performances multimodales

API et intégration au développement

Intégration du codage et des agents

Intégration OpenClaw

Intégration Qwen Code

Intégration Claude Code

Agents visuels et extension multimodale

Feuille de route

À lire aussi

1 commentaires

Réactions sur Hacker News