- Qwen3.5-397B-A17B est un modèle unifié langage-vision qui affiche d’excellentes performances en raisonnement, code, agents et compréhension multimodale
- Une architecture hybride combinant attention linéaire basée sur GDN et MoE sparse permet de n’activer que 17 milliards de paramètres sur 397 milliards, atteignant à la fois efficacité d’inférence et réduction des coûts
- La prise en charge des langues et dialectes passe de 119 à 201, renforçant l’accessibilité mondiale et les performances multilingues
- Proposé via Alibaba Cloud Model Studio, Qwen3.5-Plus prend en charge nativement une fenêtre de contexte d’un million de tokens et des fonctions d’utilisation adaptative d’outils
- Grâce à l’extension de l’environnement d’apprentissage par renforcement et à une conception d’infrastructure efficace, le modèle assure stabilité et scalabilité pour l’entraînement et l’inférence d’agents multimodaux à grande échelle
Aperçu de Qwen3.5
- Qwen3.5 est un modèle unifié vision-langage qui obtient d’excellents résultats sur divers benchmarks de raisonnement, de code, d’agents et de compréhension multimodale
- Nom du modèle : Qwen3.5-397B-A17B, avec 17 milliards de paramètres activés sur un total de 397 milliards
- Combinaison d’une attention linéaire fondée sur Gated Delta Networks et d’une architecture sparse Mixture-of-Experts pour optimiser vitesse et coût
- La prise en charge linguistique passe de 119 à 201 langues, améliorant l’accessibilité multilingue
- Qwen3.5-Plus est disponible dans Alibaba Cloud Model Studio, avec
- une fenêtre de contexte de 1M, des outils officiels intégrés et une utilisation adaptative des outils
Évaluation des performances
- Comparé à des modèles récents comme GPT5.2, Claude 4.5 Opus, Gemini-3 Pro, Qwen3.5
- enregistre des scores compétitifs en langage, raisonnement, code, agents et multimodal
- En évaluation linguistique, il atteint des performances de premier plan avec 94.9 sur MMLU-Pro, 70.4 sur SuperGPQA et 76.5 sur IFBench
- En évaluation vision-langage, il obtient de très bons scores comme 88.6 sur MathVision, 93.9 sur AI2D_TEST et 93.1 sur OCRBench
- Il surpasse Qwen3-VL en compréhension multimodale et en résolution de problèmes STEM
- L’extension de l’environnement d’apprentissage par renforcement améliore les performances d’agent généraliste, avec une progression du classement moyen sur BFCL-V4 et VITA-Bench
Préentraînement (Pretraining)
- Power : par rapport à Qwen3, apprentissage à grande échelle sur des tokens vision-texte, avec renforcement des données multilingues, STEM et de raisonnement
- Qwen3.5-397B-A17B atteint des performances équivalentes à celles d’un modèle de classe 1T paramètres (Qwen3-Max-Base)
- Efficiency : sur la base de l’architecture Qwen3-Next, application de la sparsification MoE, de Gated DeltaNet et de la prédiction multi-token
- à contexte 32k/256k, le débit de décodage est 8.6x/19x supérieur à Qwen3-Max
- Versatility : grâce à une fusion précoce texte-vision, le modèle assure un traitement multimodal naturel,
- avec un vocabulaire de 250 000 entrées (contre 150 000 auparavant), améliorant l’efficacité d’encodage et de décodage de 10 à 60 %
Infrastructure et framework d’entraînement
- Une infrastructure hétérogène séparant les stratégies parallèles vision et langage prend en charge un apprentissage multimodal efficace
- en exploitant l’activation sparse, elle atteint une efficacité de traitement proche de 100 % même sur des données mixtes texte-image-vidéo
- Un pipeline FP8 optimise la précision des activations, du routage MoE et des opérations GEMM
- avec une réduction de 50 % de l’usage mémoire et une hausse de vitesse de plus de 10 %
- Un framework d’apprentissage par renforcement asynchrone a été mis en place pour entraîner des modèles texte, multimodaux et multi-turn
- grâce à l’entraînement FP8 end-to-end, au speculative decoding et au multi-turn rollout locking,
il offre une vitesse de traitement 3 à 5 fois supérieure et une scalabilité stable
Usages et intégration
- Qwen Chat propose les modes Auto, Thinking et Fast
- Auto : utilisation automatique des outils et raisonnement adaptatif
- Thinking : raisonnement approfondi
- Fast : réponse immédiate
- Via la ModelStudio API, il est possible d’activer les fonctions reasoning, web search et Code Interpreter
- contrôle via les paramètres
enable_thinking et enable_search
- Intégration avec Qwen Code, OpenClaw et d’autres outils pour le code en langage naturel et la création multimodale
Démos et applications
- Développement Web : génération de pages web et de code UI à partir d’instructions en langage naturel
- Visual Agent : automatisation d’actions sur smartphone et PC à partir d’instructions en langage naturel
- Visual Coding : avec une entrée d’un million de tokens, traitement de jusqu’à 2 heures de vidéo,
- avec prise en charge de la conversion d’une interface dessinée à la main en code, du résumé vidéo, etc.
- Spatial Intelligence : amélioration de la précision pour le comptage d’objets, les relations de position et la description spatiale
- ce qui ouvre des perspectives pour la conduite autonome et la robotique
- Visual Reasoning : progrès par rapport à Qwen3-VL dans la résolution de problèmes scientifiques et le raisonnement logique visuel
Résumé et orientations futures
- Qwen3.5 pose les bases de l’agent numérique généraliste grâce à une architecture hybride efficace et un raisonnement multimodal natif
- L’objectif futur est de passer de l’extension du modèle à l’intégration système
- avec le développement de systèmes d’agents autonomes et persistants dotés de mémoire continue, d’interfaces avec le monde réel, d’auto-amélioration et de capacités de décision économique
1 commentaires
Avis Hacker News
Il est intéressant qu’ils aient choisi « drive the car to the wash » comme problème ardu du jour pour les LLM
Comme les LLM ont déjà ingéré quasiment tous les corpus, il devient difficile de distinguer une vraie amélioration d’apprentissage d’un simple « post-it » collé par-dessus
Il faut un moyen de formuler des problèmes en langage naturel tout en leur donnant l’apparence de problèmes « chiffrés » pour les LLM
Par exemple, on pourrait imaginer un simple générateur de programmes LUA qui produit du code aléatoire, le traduit en anglais, demande au LLM de prédire le résultat, puis compare avec l’exécution réelle
Cette approche donne presque l’impression d’un scénario de guerre de l’information
Pour les personnes intéressées, j’ai mis en ligne les MXFP4 GGUFs sur Hugging Face, et le guide d’exécution est résumé dans la documentation unsloth.ai
Pelican est correct, mais ce n’est pas un bon vélo — voir cet exemple lié
Si Qwen 3.5 sort en taille 80~110B, cela pourrait convenir parfaitement à un appareil de 128 Go. Qwen3-Next est en 80B, mais il n’a pas de vision encoder
C’est dommage qu’ils n’aient publié que le modèle flagship, sans petite version distillée. Les anciens Qwen étaient appréciables justement parce qu’ils sortaient en plusieurs tailles
Lors du Nouvel An lunaire de l’an dernier, je n’aurais jamais imaginé qu’un modèle du niveau de Sonnet 4.5 tournerait rapidement en local, mais cela pourrait devenir possible sur un MacBook Pro M5 Max de 2026
Qwen est un modèle open très puissant, et sa série visuelle est particulièrement impressionnante
Dans un rapport IA, il était mentionné que Fennec (Sonnet 5) sortirait le 4 février, mais c’était en réalité un mélange de rumeurs et d’hallucinations d’un outil d’actualités IA. C’était un cas intéressant
Il y a un problème de chargement du blog Qwen. Même en désactivant le bloqueur de pub, je ne vois toujours qu’un placeholder
Je me demande à quoi correspondent précisément les 15 000 environnements RL qu’ils mentionnent. J’en conçois quelques centaines, mais au-delà, j’ai du mal à imaginer
En ce moment, tout le monde se focalise sur les scores de benchmark, mais le vrai sujet est de savoir si le modèle peut conserver le contexte pendant un usage d’outils en plusieurs étapes
La plupart des modèles open s’effondrent encore à ce niveau