6 points par GN⁺ 2026-02-17 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Qwen3.5-397B-A17B est un modèle unifié langage-vision qui affiche d’excellentes performances en raisonnement, code, agents et compréhension multimodale
  • Une architecture hybride combinant attention linéaire basée sur GDN et MoE sparse permet de n’activer que 17 milliards de paramètres sur 397 milliards, atteignant à la fois efficacité d’inférence et réduction des coûts
  • La prise en charge des langues et dialectes passe de 119 à 201, renforçant l’accessibilité mondiale et les performances multilingues
  • Proposé via Alibaba Cloud Model Studio, Qwen3.5-Plus prend en charge nativement une fenêtre de contexte d’un million de tokens et des fonctions d’utilisation adaptative d’outils
  • Grâce à l’extension de l’environnement d’apprentissage par renforcement et à une conception d’infrastructure efficace, le modèle assure stabilité et scalabilité pour l’entraînement et l’inférence d’agents multimodaux à grande échelle

Aperçu de Qwen3.5

  • Qwen3.5 est un modèle unifié vision-langage qui obtient d’excellents résultats sur divers benchmarks de raisonnement, de code, d’agents et de compréhension multimodale
    • Nom du modèle : Qwen3.5-397B-A17B, avec 17 milliards de paramètres activés sur un total de 397 milliards
    • Combinaison d’une attention linéaire fondée sur Gated Delta Networks et d’une architecture sparse Mixture-of-Experts pour optimiser vitesse et coût
  • La prise en charge linguistique passe de 119 à 201 langues, améliorant l’accessibilité multilingue
  • Qwen3.5-Plus est disponible dans Alibaba Cloud Model Studio, avec
    • une fenêtre de contexte de 1M, des outils officiels intégrés et une utilisation adaptative des outils

Évaluation des performances

  • Comparé à des modèles récents comme GPT5.2, Claude 4.5 Opus, Gemini-3 Pro, Qwen3.5
    • enregistre des scores compétitifs en langage, raisonnement, code, agents et multimodal
  • En évaluation linguistique, il atteint des performances de premier plan avec 94.9 sur MMLU-Pro, 70.4 sur SuperGPQA et 76.5 sur IFBench
  • En évaluation vision-langage, il obtient de très bons scores comme 88.6 sur MathVision, 93.9 sur AI2D_TEST et 93.1 sur OCRBench
  • Il surpasse Qwen3-VL en compréhension multimodale et en résolution de problèmes STEM
  • L’extension de l’environnement d’apprentissage par renforcement améliore les performances d’agent généraliste, avec une progression du classement moyen sur BFCL-V4 et VITA-Bench

Préentraînement (Pretraining)

  • Power : par rapport à Qwen3, apprentissage à grande échelle sur des tokens vision-texte, avec renforcement des données multilingues, STEM et de raisonnement
    • Qwen3.5-397B-A17B atteint des performances équivalentes à celles d’un modèle de classe 1T paramètres (Qwen3-Max-Base)
  • Efficiency : sur la base de l’architecture Qwen3-Next, application de la sparsification MoE, de Gated DeltaNet et de la prédiction multi-token
    • à contexte 32k/256k, le débit de décodage est 8.6x/19x supérieur à Qwen3-Max
  • Versatility : grâce à une fusion précoce texte-vision, le modèle assure un traitement multimodal naturel,
    • avec un vocabulaire de 250 000 entrées (contre 150 000 auparavant), améliorant l’efficacité d’encodage et de décodage de 10 à 60 %

Infrastructure et framework d’entraînement

  • Une infrastructure hétérogène séparant les stratégies parallèles vision et langage prend en charge un apprentissage multimodal efficace
    • en exploitant l’activation sparse, elle atteint une efficacité de traitement proche de 100 % même sur des données mixtes texte-image-vidéo
  • Un pipeline FP8 optimise la précision des activations, du routage MoE et des opérations GEMM
    • avec une réduction de 50 % de l’usage mémoire et une hausse de vitesse de plus de 10 %
  • Un framework d’apprentissage par renforcement asynchrone a été mis en place pour entraîner des modèles texte, multimodaux et multi-turn
    • grâce à l’entraînement FP8 end-to-end, au speculative decoding et au multi-turn rollout locking,
      il offre une vitesse de traitement 3 à 5 fois supérieure et une scalabilité stable

Usages et intégration

  • Qwen Chat propose les modes Auto, Thinking et Fast
    • Auto : utilisation automatique des outils et raisonnement adaptatif
    • Thinking : raisonnement approfondi
    • Fast : réponse immédiate
  • Via la ModelStudio API, il est possible d’activer les fonctions reasoning, web search et Code Interpreter
    • contrôle via les paramètres enable_thinking et enable_search
  • Intégration avec Qwen Code, OpenClaw et d’autres outils pour le code en langage naturel et la création multimodale

Démos et applications

  • Développement Web : génération de pages web et de code UI à partir d’instructions en langage naturel
  • Visual Agent : automatisation d’actions sur smartphone et PC à partir d’instructions en langage naturel
  • Visual Coding : avec une entrée d’un million de tokens, traitement de jusqu’à 2 heures de vidéo,
    • avec prise en charge de la conversion d’une interface dessinée à la main en code, du résumé vidéo, etc.
  • Spatial Intelligence : amélioration de la précision pour le comptage d’objets, les relations de position et la description spatiale
    • ce qui ouvre des perspectives pour la conduite autonome et la robotique
  • Visual Reasoning : progrès par rapport à Qwen3-VL dans la résolution de problèmes scientifiques et le raisonnement logique visuel

Résumé et orientations futures

  • Qwen3.5 pose les bases de l’agent numérique généraliste grâce à une architecture hybride efficace et un raisonnement multimodal natif
  • L’objectif futur est de passer de l’extension du modèle à l’intégration système
    • avec le développement de systèmes d’agents autonomes et persistants dotés de mémoire continue, d’interfaces avec le monde réel, d’auto-amélioration et de capacités de décision économique

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.