- Qwen3.5-397B-A17B est un modèle unifié langage-vision qui affiche d’excellentes performances en raisonnement, code, agents et compréhension multimodale
- Une architecture hybride combinant attention linéaire basée sur GDN et MoE sparse permet de n’activer que 17 milliards de paramètres sur 397 milliards, atteignant à la fois efficacité d’inférence et réduction des coûts
- La prise en charge des langues et dialectes passe de 119 à 201, renforçant l’accessibilité mondiale et les performances multilingues
- Proposé via Alibaba Cloud Model Studio, Qwen3.5-Plus prend en charge nativement une fenêtre de contexte d’un million de tokens et des fonctions d’utilisation adaptative d’outils
- Grâce à l’extension de l’environnement d’apprentissage par renforcement et à une conception d’infrastructure efficace, le modèle assure stabilité et scalabilité pour l’entraînement et l’inférence d’agents multimodaux à grande échelle
Aperçu de Qwen3.5
- Qwen3.5 est un modèle unifié vision-langage qui obtient d’excellents résultats sur divers benchmarks de raisonnement, de code, d’agents et de compréhension multimodale
- Nom du modèle : Qwen3.5-397B-A17B, avec 17 milliards de paramètres activés sur un total de 397 milliards
- Combinaison d’une attention linéaire fondée sur Gated Delta Networks et d’une architecture sparse Mixture-of-Experts pour optimiser vitesse et coût
- La prise en charge linguistique passe de 119 à 201 langues, améliorant l’accessibilité multilingue
- Qwen3.5-Plus est disponible dans Alibaba Cloud Model Studio, avec
- une fenêtre de contexte de 1M, des outils officiels intégrés et une utilisation adaptative des outils
Évaluation des performances
- Comparé à des modèles récents comme GPT5.2, Claude 4.5 Opus, Gemini-3 Pro, Qwen3.5
- enregistre des scores compétitifs en langage, raisonnement, code, agents et multimodal
- En évaluation linguistique, il atteint des performances de premier plan avec 94.9 sur MMLU-Pro, 70.4 sur SuperGPQA et 76.5 sur IFBench
- En évaluation vision-langage, il obtient de très bons scores comme 88.6 sur MathVision, 93.9 sur AI2D_TEST et 93.1 sur OCRBench
- Il surpasse Qwen3-VL en compréhension multimodale et en résolution de problèmes STEM
- L’extension de l’environnement d’apprentissage par renforcement améliore les performances d’agent généraliste, avec une progression du classement moyen sur BFCL-V4 et VITA-Bench
Préentraînement (Pretraining)
- Power : par rapport à Qwen3, apprentissage à grande échelle sur des tokens vision-texte, avec renforcement des données multilingues, STEM et de raisonnement
- Qwen3.5-397B-A17B atteint des performances équivalentes à celles d’un modèle de classe 1T paramètres (Qwen3-Max-Base)
- Efficiency : sur la base de l’architecture Qwen3-Next, application de la sparsification MoE, de Gated DeltaNet et de la prédiction multi-token
- à contexte 32k/256k, le débit de décodage est 8.6x/19x supérieur à Qwen3-Max
- Versatility : grâce à une fusion précoce texte-vision, le modèle assure un traitement multimodal naturel,
- avec un vocabulaire de 250 000 entrées (contre 150 000 auparavant), améliorant l’efficacité d’encodage et de décodage de 10 à 60 %
Infrastructure et framework d’entraînement
- Une infrastructure hétérogène séparant les stratégies parallèles vision et langage prend en charge un apprentissage multimodal efficace
- en exploitant l’activation sparse, elle atteint une efficacité de traitement proche de 100 % même sur des données mixtes texte-image-vidéo
- Un pipeline FP8 optimise la précision des activations, du routage MoE et des opérations GEMM
- avec une réduction de 50 % de l’usage mémoire et une hausse de vitesse de plus de 10 %
- Un framework d’apprentissage par renforcement asynchrone a été mis en place pour entraîner des modèles texte, multimodaux et multi-turn
- grâce à l’entraînement FP8 end-to-end, au speculative decoding et au multi-turn rollout locking,
il offre une vitesse de traitement 3 à 5 fois supérieure et une scalabilité stable
Usages et intégration
- Qwen Chat propose les modes Auto, Thinking et Fast
- Auto : utilisation automatique des outils et raisonnement adaptatif
- Thinking : raisonnement approfondi
- Fast : réponse immédiate
- Via la ModelStudio API, il est possible d’activer les fonctions reasoning, web search et Code Interpreter
- contrôle via les paramètres
enable_thinking et enable_search
- Intégration avec Qwen Code, OpenClaw et d’autres outils pour le code en langage naturel et la création multimodale
Démos et applications
- Développement Web : génération de pages web et de code UI à partir d’instructions en langage naturel
- Visual Agent : automatisation d’actions sur smartphone et PC à partir d’instructions en langage naturel
- Visual Coding : avec une entrée d’un million de tokens, traitement de jusqu’à 2 heures de vidéo,
- avec prise en charge de la conversion d’une interface dessinée à la main en code, du résumé vidéo, etc.
- Spatial Intelligence : amélioration de la précision pour le comptage d’objets, les relations de position et la description spatiale
- ce qui ouvre des perspectives pour la conduite autonome et la robotique
- Visual Reasoning : progrès par rapport à Qwen3-VL dans la résolution de problèmes scientifiques et le raisonnement logique visuel
Résumé et orientations futures
- Qwen3.5 pose les bases de l’agent numérique généraliste grâce à une architecture hybride efficace et un raisonnement multimodal natif
- L’objectif futur est de passer de l’extension du modèle à l’intégration système
- avec le développement de systèmes d’agents autonomes et persistants dotés de mémoire continue, d’interfaces avec le monde réel, d’auto-amélioration et de capacités de décision économique
Aucun commentaire pour le moment.