- Successeur de Qwen3.6-Plus, avec des améliorations par rapport à la version précédente en codage agentique, ainsi qu’en connaissance du monde et en suivi des instructions
- Le modèle obtient les meilleurs scores sur 6 benchmarks majeurs de codage, confirmant une forte progression des performances des agents de codage
- Prend en charge la fonctionnalité preserve_thinking, qui permet de conserver dans les messages le processus de réflexion des tours précédents lors des tâches agentiques
- Sur les benchmarks de connaissance du monde, amélioration de SuperGPQA de +2.3 et de QwenChineseBench de +5.3 ; pour le suivi des instructions, score de +2.8 sur ToolcallFormatIFBench
- Des tests interactifs sont possibles dans Qwen Studio, et l’appel via l’API Alibaba Cloud Model Studio sera effectué avec
qwen3.6-max-preview
Principales améliorations
- Capacités de codage agentique fortement améliorées par rapport à Qwen3.6-Plus : SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
- Renforcement de la connaissance du monde (world knowledge) : SuperGPQA +2.3, QwenChineseBench +5.3
- Amélioration du suivi des instructions (instruction following) : ToolcallFormatIFBench +2.8
- Meilleurs scores atteints sur 6 benchmarks majeurs de codage : SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode
Caractéristiques du modèle et approche
- Modèle propriétaire hébergé fourni via Alibaba Cloud Model Studio
- Amélioration des performances des agents réels (real-world agent) et de la fiabilité des connaissances (knowledge reliability)
- Test interactif immédiat possible dans Qwen Studio
- Le nom du modèle dans l’API est
qwen3.6-max-preview, et il sera bientôt disponible dans l’API Alibaba Cloud Model Studio
Utilisation de l’API et fonctionnalités
- Prise en charge des protocoles standard de l’industrie comme les API OpenAI-compatibles chat completions et responses, ainsi que les interfaces compatibles Anthropic
- La fonctionnalité
preserve_thinkingpermet de conserver le processus de raisonnement (reasoning content) des tours précédents, recommandé pour les tâches agentiques - Avec le paramètre
enable_thinking: True, il est possible de recevoir séparément, en streaming, le contenu de raisonnement et la réponse - URL de base de l’API disponibles par région : Pékin, Singapour, États-Unis (Virginie)
État du développement
- Actuellement au stade de preview release, avec des améliorations itératives en cours et d’autres optimisations prévues dans les versions suivantes
1 commentaires
Avis Hacker News
Je trouve un peu drôle que les gens soient obsédés uniquement par les comparaisons SOTA. J’ai vu des cas où glm 5.1 réussissait des choses qu’Opus n’arrivait pas à faire, et je l’ai aussi vu mieux coder. Je n’ai pas encore essayé qwen max, mais j’ai aussi vu un modèle local 122b mieux lire des documents et les traiter plus précisément. Au final, les benchmarks ne montrent qu’une partie de l’histoire, et en pratique chaque modèle a des points forts différents, donc je ne pense pas qu’on puisse en parler comme si on comparait simplement un marteau et une clé en disant lequel est objectivement supérieur
J’utilise Claude Code de manière continue au travail depuis plusieurs mois, et je l’ai aussi bien exploité récemment sur un petit projet de site web perso. Le week-end dernier, j’ai essayé pour la première fois l’auto-hébergement. Je me demande s’il y a des gens qui, après avoir suffisamment utilisé CC ou Codex, ont trouvé une configuration self-hosted assez satisfaisante. J’ai testé toutes sortes de combinaisons avec 32GB DDR5, AMD 7800X3D, RTX 4090, Windows et WSL, avec ollama, docker desktop model runner, pi-coding-agent, opencode, ainsi que Gemma 4, Qwen et GLM-5.1. Comme l’usage de RAM de base était déjà élevé, je ne pouvais pas faire tourner de bons modèles comme Gemma4-31B. En environnement Windows seul, la gestion des chemins de fichiers se cassait souvent la figure, tandis qu’en faisant tourner pi ou opencode sur WSL et les modèles via docker desktop, j’ai eu un certain succès. Mais au ressenti, les performances réelles étaient bien trop lentes par rapport à CC, et du point de vue de la finition des outils, le harness CC m’a semblé largement meilleur. J’ai passé tellement de temps sur le setup que je n’ai pas pu l’utiliser longtemps en pratique, mais c’était quand même une expérience intéressante
Je m’inquiète un peu de voir que ce secteur semble suivre une logique où l’on diffuse d’abord du gratuit pour se faire un nom, avant de tout basculer ensuite en proprietary. J’espère quand même qu’on continuera à avoir des open weights. Le jour où plus personne n’en publiera, ce sera vraiment amer. Dans un tel monde, j’ai l’impression qu’il deviendra plus difficile pour le commun des mortels de posséder directement sa propre compute
Comme Kimi K2.6 est aussi sorti aujourd’hui, il me semble assez naturel de comparer les deux. Rien qu’au niveau du prix, Qwen affiche 1,3 dollar en entrée et 7,8 dollars en sortie, alors que Kimi est à 0,95 dollar en entrée et 4 dollars en sortie, donc Qwen paraît plus cher. Et dans l’annonce, il n’y a que deux benchmarks en commun, mais sur SWE-Bench Pro comme sur Terminal-Bench 2.0, Kimi était légèrement au-dessus de Qwen. Bien sûr, chaque modèle a ses points forts et les benchmarks ne font pas tout, mais si on se base uniquement sur les chiffres, Kimi paraît plus attractif
L’ironie de cette annonce, à mon sens, est dans son nom même. Max-Preview est proprietary et cloud-only. Pour moi, le vrai Qwen important, c’est la série open weights que les gens font tourner sur leur propre matériel. Je fais tourner les 32B et 72B en local sur un dual A4000. Il y a encore un écart avec le Max hébergé, mais on voit cet écart se réduire à chaque sortie. Du coup, la vraie question intéressante n’est pas tant de savoir comment Max se compare à Opus, mais plutôt à partir de quand le palier open-weight rendra le palier cloud insignifiant pour la plupart des workloads
Pendant que tout le monde court après le SOTA, moi je fais tourner plusieurs sessions parallèles de MiniMax M2.5 et j’abats tout mon travail de code pour 10 dollars par mois, sans presque jamais me heurter aux limites
J’ai aussi consulté la documentation de Qwen sur le context caching et j’ai testé ensemble Opus, Codex et Qwen ; j’ai bien l’impression que Qwen est solide sur beaucoup de tâches de code. Mais ce qui m’importe le plus, c’est le comportement sur les sessions longues. Qwen met en avant une grande fenêtre de contexte, mais l’efficacité réelle sur les longs contextes semble fortement dépendre de sa manière de gérer le context caching. D’après la documentation officielle, il prend en charge à la fois le caching implicite et explicite, mais avec un TTL de seulement quelques minutes et des contraintes comme l’appariement basé sur les préfixes et un minimum de tokens. À cause de ces contraintes, dans des workflows de type agent de code où le contexte continue de grossir, la réutilisation du cache peut ne pas fonctionner aussi bien qu’on l’espère. Donc même si le prix par token paraît bas, sur les longues sessions le cache hit rate peut baisser, la recomputation augmenter, et le coût ressenti devenir plus élevé. Cela dit, sur des tâches liées à la sécurité, j’ai personnellement vu Qwen faire mieux qu’Opus dans certains cas. D’après mon expérience, Qwen est bien meilleur qu’Opus sur des tâches courtes au niveau d’une méthode ou d’une fonction isolée, mais dans l’expérience globale de code, il m’a davantage semblé être un générateur au niveau des fonctions qu’un assistant de code autonome end-to-end comme Claude
Quand je vois Qwen se comparer à Opus 4.5, j’ai un peu de mal à prendre ça de bonne foi. Je peux comprendre qu’Opus 4.7, tout récent, n’y figure pas, mais Opus 4.6 existe depuis un bon moment déjà
En regardant les fournisseurs chinois récemment, j’ai l’impression de voir un schéma. D’abord, ils évoluent vers des modèles closed source ; ensuite, ils augmentent assez fortement leurs prix. Dans certains cas, cela approche même les 100 %
Ce qui est amusant, c’est qu’on peut très bien connaître toute la famille des modèles Qwen exécutables en local tout en ne connaissant absolument pas leur côté cloud. Moi, je connaissais surtout les séries 3.5 et peut-être un 3.6, et je n’avais encore jamais entendu parler du nom Plus avant aujourd’hui