Qwen3.5 : vers un agent multimodal natif

(qwen.ai)

6 points par GN⁺ 2026-02-17 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Qwen3.5-397B-A17B est un modèle unifié langage-vision qui affiche d’excellentes performances en raisonnement, code, agents et compréhension multimodale
Une architecture hybride combinant attention linéaire basée sur GDN et MoE sparse permet de n’activer que 17 milliards de paramètres sur 397 milliards, atteignant à la fois efficacité d’inférence et réduction des coûts
La prise en charge des langues et dialectes passe de 119 à 201, renforçant l’accessibilité mondiale et les performances multilingues
Proposé via Alibaba Cloud Model Studio, Qwen3.5-Plus prend en charge nativement une fenêtre de contexte d’un million de tokens et des fonctions d’utilisation adaptative d’outils
Grâce à l’extension de l’environnement d’apprentissage par renforcement et à une conception d’infrastructure efficace, le modèle assure stabilité et scalabilité pour l’entraînement et l’inférence d’agents multimodaux à grande échelle

Aperçu de Qwen3.5

Qwen3.5 est un modèle unifié vision-langage qui obtient d’excellents résultats sur divers benchmarks de raisonnement, de code, d’agents et de compréhension multimodale
- Nom du modèle : Qwen3.5-397B-A17B, avec 17 milliards de paramètres activés sur un total de 397 milliards
- Combinaison d’une attention linéaire fondée sur Gated Delta Networks et d’une architecture sparse Mixture-of-Experts pour optimiser vitesse et coût
La prise en charge linguistique passe de 119 à 201 langues, améliorant l’accessibilité multilingue
Qwen3.5-Plus est disponible dans Alibaba Cloud Model Studio, avec
- une fenêtre de contexte de 1M, des outils officiels intégrés et une utilisation adaptative des outils

Comparé à des modèles récents comme GPT5.2, Claude 4.5 Opus, Gemini-3 Pro, Qwen3.5
- enregistre des scores compétitifs en langage, raisonnement, code, agents et multimodal
En évaluation linguistique, il atteint des performances de premier plan avec 94.9 sur MMLU-Pro, 70.4 sur SuperGPQA et 76.5 sur IFBench
En évaluation vision-langage, il obtient de très bons scores comme 88.6 sur MathVision, 93.9 sur AI2D_TEST et 93.1 sur OCRBench
Il surpasse Qwen3-VL en compréhension multimodale et en résolution de problèmes STEM
L’extension de l’environnement d’apprentissage par renforcement améliore les performances d’agent généraliste, avec une progression du classement moyen sur BFCL-V4 et VITA-Bench

Power : par rapport à Qwen3, apprentissage à grande échelle sur des tokens vision-texte, avec renforcement des données multilingues, STEM et de raisonnement
- Qwen3.5-397B-A17B atteint des performances équivalentes à celles d’un modèle de classe 1T paramètres (Qwen3-Max-Base)
Efficiency : sur la base de l’architecture Qwen3-Next, application de la sparsification MoE, de Gated DeltaNet et de la prédiction multi-token
- à contexte 32k/256k, le débit de décodage est 8.6x/19x supérieur à Qwen3-Max
Versatility : grâce à une fusion précoce texte-vision, le modèle assure un traitement multimodal naturel,
- avec un vocabulaire de 250 000 entrées (contre 150 000 auparavant), améliorant l’efficacité d’encodage et de décodage de 10 à 60 %

Une infrastructure hétérogène séparant les stratégies parallèles vision et langage prend en charge un apprentissage multimodal efficace
- en exploitant l’activation sparse, elle atteint une efficacité de traitement proche de 100 % même sur des données mixtes texte-image-vidéo
Un pipeline FP8 optimise la précision des activations, du routage MoE et des opérations GEMM
- avec une réduction de 50 % de l’usage mémoire et une hausse de vitesse de plus de 10 %
Un framework d’apprentissage par renforcement asynchrone a été mis en place pour entraîner des modèles texte, multimodaux et multi-turn
- grâce à l’entraînement FP8 end-to-end, au speculative decoding et au multi-turn rollout locking,
  il offre une vitesse de traitement 3 à 5 fois supérieure et une scalabilité stable

Qwen Chat propose les modes Auto, Thinking et Fast
- Auto : utilisation automatique des outils et raisonnement adaptatif
- Thinking : raisonnement approfondi
- Fast : réponse immédiate
Via la ModelStudio API, il est possible d’activer les fonctions reasoning, web search et Code Interpreter
- contrôle via les paramètres enable_thinking et enable_search
Intégration avec Qwen Code, OpenClaw et d’autres outils pour le code en langage naturel et la création multimodale

Développement Web : génération de pages web et de code UI à partir d’instructions en langage naturel
Visual Agent : automatisation d’actions sur smartphone et PC à partir d’instructions en langage naturel
Visual Coding : avec une entrée d’un million de tokens, traitement de jusqu’à 2 heures de vidéo,
- avec prise en charge de la conversion d’une interface dessinée à la main en code, du résumé vidéo, etc.
Spatial Intelligence : amélioration de la précision pour le comptage d’objets, les relations de position et la description spatiale
- ce qui ouvre des perspectives pour la conduite autonome et la robotique
Visual Reasoning : progrès par rapport à Qwen3-VL dans la résolution de problèmes scientifiques et le raisonnement logique visuel

Qwen3.5 pose les bases de l’agent numérique généraliste grâce à une architecture hybride efficace et un raisonnement multimodal natif
L’objectif futur est de passer de l’extension du modèle à l’intégration système
- avec le développement de systèmes d’agents autonomes et persistants dotés de mémoire continue, d’interfaces avec le monde réel, d’auto-amélioration et de capacités de décision économique