7 points par GN⁺ 28 일 전 | 1 commentaires | Partager sur WhatsApp
  • Qwen3.6-Plus est un modèle ayant bénéficié d’une mise à niveau majeure après Qwen3.5, avec un fort renforcement des capacités de codage orientées agent et des performances de raisonnement multimodal
  • Il prend en charge une fenêtre de contexte de 1M de tokens et est disponible immédiatement via l’API Alibaba Cloud Model Studio
  • Il affiche des performances de premier plan sur les benchmarks de codage, de langage, multimodaux et d’agents, tout en améliorant sa capacité à gérer du code complexe et à exécuter des plans à long terme
  • Grâce à l’option preserve_thinking, il conserve le contexte de raisonnement et prend en charge l’intégration avec divers agents de codage comme OpenClaw, Claude Code et Qwen Code
  • Il évolue vers une IA multimodale orientée agent capable d’aller de la perception visuelle à la prise de décision d’action, avec pour objectif futur l’open source de petits modèles et l’extension vers des super-agents hautement autonomes

Résumé des principales fonctionnalités et performances de Qwen3.6-Plus

  • Qwen3.6-Plus est une version fortement mise à niveau publiée après la série Qwen3.5, un modèle qui renforce nettement les capacités de codage orientées agent et les performances de raisonnement multimodal
  • Il est utilisable immédiatement via l’API d’Alibaba Cloud Model Studio et fournit nativement une fenêtre de contexte de 1M de tokens
  • En intégrant les retours de la communauté, il améliore la stabilité et la fiabilité, et vise une expérience de « vibe coding » en environnement de développement réel

Évaluation des performances

  • Il enregistre des performances parmi les meilleures de sa catégorie sur divers benchmarks de langage, de codage, multimodaux et d’agents
  • Dans le domaine des agents de codage, il obtient sur des benchmarks majeurs comme SWE-bench, Terminal-Bench et Claw-Eval des résultats comparables ou supérieurs à ceux des modèles leaders du secteur
  • Dans les domaines des agents généraux et de l’usage d’outils, il progresse globalement sur TAU3-Bench, DeepPlanning et MCPMark
  • Il établit aussi de nouveaux meilleurs scores en raisonnement STEM, extraction d’informations dans des textes très longs et adaptation multilingue
  • Le modèle intègre de façon organique le raisonnement logique, la mémoire et l’exécution d’outils, renforçant ainsi ses capacités de résolution de problèmes du monde réel comme la gestion de code complexe ou la planification de long terme

Performances multimodales

  • Grâce à un raisonnement multimodal avancé, il réalise de grands progrès en compréhension de documents, analyse du monde physique, raisonnement vidéo et codage visuel
  • En matière d’applicabilité au monde réel, il offre des performances stables en environnement métier réel pour la reconnaissance de texte et d’objets ainsi que la perception visuelle de précision
  • Grâce à l’intégration vision-langage, il dépasse la performance sur tâches unitaires pour évoluer vers une IA orientée agent centrée sur les workflows
  • Sur divers benchmarks comme RealWorldQA, OmniDocBench, CountBench et VideoMME, il montre des résultats compétitifs face à GPT5.2, Claude 4.5 et Gemini-3 Pro

API et intégration au développement

  • L’API Alibaba Cloud Model Studio prend en charge des protocoles compatibles avec OpenAI et Anthropic
  • Nouvelle option d’API preserve_thinking
    • Elle conserve le contenu de raisonnement des échanges précédents afin d’améliorer la cohérence des tâches orientées agent et l’efficacité en tokens
    • La valeur par défaut est désactivée (false) et, une fois activée, elle conserve l’ensemble du contexte de raisonnement
  • L’API est accessible via l’endpoint compatible OpenAI chat.completions, avec du code d’exemple fourni

Intégration du codage et des agents

  • Qwen3.6-Plus peut s’intégrer à des assistants de codage tiers comme OpenClaw, Claude Code, Qwen Code, Kilo Code, Cline et OpenCode
  • En développement frontend, ses capacités de traitement de projets complexes comme les scènes 3D, les jeux et le web design sont renforcées
  • Intégration OpenClaw

    • Il s’agit d’un agent de codage IA open source auto-hébergé qui, connecté à Model Studio, fournit un environnement de codage orienté agent basé sur le terminal
    • Il peut être utilisé en ajoutant le modèle Qwen3.6-Plus au fichier de configuration (openclaw.json)
    • Le modèle prend en charge le raisonnement activé, les entrées texte et image ainsi qu’une fenêtre de contexte de 1M
  • Intégration Qwen Code

    • Agent de codage IA open source en terminal optimisé pour la série Qwen
    • Il prend en charge la compréhension de bases de code complexes, l’automatisation de tâches répétitives et le déploiement rapide
    • Après installation dans un environnement Node.js, l’authentification est possible via la commande /auth
  • Intégration Claude Code

    • Grâce à la compatibilité avec le protocole d’API Anthropic, Qwen3.6-Plus peut aussi être utilisé dans Claude Code CLI
    • Il s’exécute après configuration du nom du modèle (qwen3.6-plus) et de l’endpoint API via des variables d’environnement

Agents visuels et extension multimodale

  • Il continue de renforcer une trajectoire d’évolution allant de la perception visuelle → raisonnement multimodal → exécution agentique
  • Il ne se limite pas à la simple reconnaissance, mais peut aussi effectuer l’analyse des relations dans l’information visuelle et la prise de décision d’action
  • Il prend en charge des tâches visuelles pratiques telles que la compréhension de documents, l’analyse de graphiques, la reconnaissance d’interface utilisateur et le repérage précis
  • Dans le domaine de la compréhension vidéo, il peut traiter les informations temporelles et les relations entre images afin d’analyser du contenu dynamique
  • Dans des scénarios d’agents GUI, il reconnaît l’état de l’écran et exécute une planification et une exécution en plusieurs étapes

Feuille de route

  • Qwen3.6-Plus constitue une version marquant un progrès concret dans le codage orienté agent et l’IA multimodale, tout en renforçant les bases de l’écosystème développeur
  • La publication complète de la série Qwen3.6 et la mise en open source de petits modèles sont prévues prochainement
  • À long terme, l’objectif est d’évoluer vers des super-agents hautement autonomes capables d’exécuter des tâches complexes de long terme à l’échelle d’un dépôt

1 commentaires

 
GN⁺ 28 일 전
Réactions sur Hacker News
  • Ce modèle est uniquement hébergé, donc ce n’est pas un modèle à poids ouverts (open weight)
    Avant, ils s’étaient construit une bonne réputation avec des modèles ouverts, mais il leur sera désormais difficile d’être perçus comme des concurrents de Claude ou ChatGPT
    En réalité, le fait d’avoir publié gratuitement de petits modèles relevait moins de la générosité que d’une stratégie publicitaire
    Et le fait d’avoir comparé au 4.5 plutôt qu’à Opus 4.6 semble aussi viser délibérément à induire en erreur
    Cela dit, même si ce n’est pas du niveau SOTA, le marché des modèles bon marché reste assez vaste
    En revanche, sur ce type de marché, la fidélité à la marque est faible, et les utilisateurs ont tendance à changer dès qu’un modèle un peu meilleur apparaît

    • Ils ont dit qu’ils publieraient plus tard de « petites variantes de modèles », mais sans aucun détail concret
      On ne sait même pas s’il y aura une variante autour de 300B comme pour Qwen 3.5. Le blog officiel n’en parle pas non plus
    • Ah, donc c’est pour ça qu’il y a eu récemment des départs dans l’équipe Qwen
    • En ce moment, je me demande plutôt quelle est la rentabilité réelle de ces modèles
      Avec la multiplication des modèles ouverts, qui tournent même sur du matériel bon marché, je me demande comment les entreprises d’IA peuvent encore défendre leurs marges
    • En pratique, j’ai l’impression qu’Opus 4.5 est meilleur que 4.6
      4.6 n’était qu’une mise à jour de réduction des coûts, avec des benchmarks ajustés pour donner l’impression qu’il était meilleur
    • Quand on utilise plusieurs modèles en production, la « personnalité » du modèle compte beaucoup
      Par exemple, sa capacité à bien suivre les consignes, à ne pas gaspiller de tokens et à ne pas sortir du script
      Sur ces aspects, les modèles chinois sont très compétitifs, avec une qualité comparable pour des prix 70 à 90 % moins chers
  • Je comprends que Qwen se soit comparé à Opus 4.5 ou à Gemini Pro 3.0
    Mais je trouve exagéré d’aller jusqu’à qualifier cela de trompeur
    Les modèles d’IA sortent de nouvelles versions chaque trimestre, mais cela ne veut pas dire qu’on a oublié les performances des générations précédentes
    J’ai essayé GLM-5 et Kimi K2.5, et c’était plutôt bon. Si ce nouveau modèle Qwen est de ce niveau, c’est impressionnant
    Qwen 3.5-plus et 3-Max étaient déjà des modèles fermés, donc ce n’est pas une première
    C’est dommage que ce soit un modèle fermé, mais la course au SOTA finit malgré tout par profiter aux consommateurs

    • Le problème, ce n’est pas seulement l’objet de la comparaison, mais la sincérité de la manière de comparer
      Ça donne l’impression qu’Apple sortirait un nouvel iPhone et le comparerait à un ancien Android, ce qui fait baisser la confiance
    • Opus 4.5 était déjà largement suffisant
      Et en plus, Opus 4.5 coûte 25 $ par token de sortie, alors que ce modèle est à environ 6 $, soit un quart du prix
  • J’ai obtenu des résultats Pelican plutôt bons
    Je les ai générés via l’API Alibaba Cloud Model Studio, mais il fallait créer un compte et lier PayPal
    Mais maintenant, on peut l’utiliser gratuitement sur OpenRouter

    • Certains ont plaisanté en disant que Pelican était en train de rattraper le peloton d’aspiration
    • Il y avait aussi une blague disant qu’on entraînerait bientôt un pélican à faire du vélo. Une histoire de « benchmark mondial », apparemment
  • À ceux qui pensent que les labos chinois vont cesser de faire de l’open source, j’ai envie de dire :
    ça n’arrivera probablement pas
    Essayez par exemple de vous inscrire au plan coding de Z.ai — c’est presque impossible
    Ces acteurs ont de faibles capacités marketing, et publier des modèles ouverts est pratiquement leur seul moyen de rester visibles
    Ils dépendent aussi de canaux de distribution comme OpenRouter ou OpenCode pour vendre
    Au final, l’open source n’est pas une stratégie d’État, mais leur seul moyen de commercialisation

    • Il y avait aussi la blague : « Pourquoi le modèle ne ferait-il pas son propre marketing ? »
      S’il n’est même pas capable d’assurer sa propre promotion, c’est peut-être le signe d’une limite de performance
  • Contrairement à la plupart des modèles Qwen, celui-ci a des poids non publics, et même le nombre de paramètres n’est pas communiqué
    En plus, Opus 4.6 est sorti il y a deux mois, donc le fait de comparer avec 4.5 est étrange

    • Le dernier paragraphe du blog indique qu’ils prévoient bientôt de publier en open source de petites variantes du modèle
      Source
    • Si Opus 4.6 est sorti il y a deux mois, il est aussi possible que Qwen n’ait pas encore terminé les tests de comparaison
    • En réalité, les modèles Qwen en -MAX ou -Omni ont toujours été fermés
  • Personnellement, je ne pense pas que la comparaison avec Opus 4.5 soit si problématique que ça
    En pratique, il est plus utile pour moi de comparer avec des modèles que je connais bien
    Si je veux les meilleures performances, j’utiliserai un autre modèle, mais si je cherche une option bon marché pour une qualité similaire, la comparaison a tout son sens

    • Si on peut obtenir gratuitement des performances du niveau d’Opus 4.5, ça mérite clairement l’attention
      Même si je ne l’utiliserais pas pour la fonctionnalité principale d’une application, ce serait largement suffisant pour des parties moins critiques
    • Honnêtement, avec Opus 4.6 ou GPT 5.4, la différence perçue par rapport à la génération précédente était minime
      Si je peux avoir un niveau 4.5 pour un dixième du prix, je choisirais ça
  • Les résultats sur les benchmarks d’agents sont intéressants, mais je me demande dans quelle mesure Qwen3.6-Plus sait récupérer après une erreur
    La plupart des tests ne couvrent que le happy path,
    alors qu’en réalité, le vrai sujet est de savoir s’il peut se tromper à l’étape 3 puis revenir dans le bon flux à l’étape 15
    Je me demande si quelqu’un a déjà fait ce type de stress test sur un vrai workflow de développement

  • J’aimerais que les fournisseurs d’IA arrêtent ce marketing consistant à se comparer aux modèles de génération précédente des concurrents
    Personne n’est dupe, et ça ne fait qu’éroder la confiance dans la marque
    Les modèles Qwen sont excellents en eux-mêmes, et c’est dommage que leur réputation soit abîmée par ce genre de stratégie comparative

  • En réalité, Qwen exploitait déjà depuis longtemps ses versions Plus et Max comme des modèles fermés
    Donc cette manière de publier n’a rien de nouveau

  • Qwen 3.6 Plus ressemble simplement à une version affinée de 3.5 Plus
    Lien de comparaison