Qwen3.5 : vers un agent multimodal natif

(qwen.ai)

6 points par GN⁺ 2026-02-17 | 1 commentaires | Partager sur WhatsApp

Qwen3.5-397B-A17B est un modèle unifié langage-vision qui affiche d’excellentes performances en raisonnement, code, agents et compréhension multimodale
Une architecture hybride combinant attention linéaire basée sur GDN et MoE sparse permet de n’activer que 17 milliards de paramètres sur 397 milliards, atteignant à la fois efficacité d’inférence et réduction des coûts
La prise en charge des langues et dialectes passe de 119 à 201, renforçant l’accessibilité mondiale et les performances multilingues
Proposé via Alibaba Cloud Model Studio, Qwen3.5-Plus prend en charge nativement une fenêtre de contexte d’un million de tokens et des fonctions d’utilisation adaptative d’outils
Grâce à l’extension de l’environnement d’apprentissage par renforcement et à une conception d’infrastructure efficace, le modèle assure stabilité et scalabilité pour l’entraînement et l’inférence d’agents multimodaux à grande échelle

Aperçu de Qwen3.5

Qwen3.5 est un modèle unifié vision-langage qui obtient d’excellents résultats sur divers benchmarks de raisonnement, de code, d’agents et de compréhension multimodale
- Nom du modèle : Qwen3.5-397B-A17B, avec 17 milliards de paramètres activés sur un total de 397 milliards
- Combinaison d’une attention linéaire fondée sur Gated Delta Networks et d’une architecture sparse Mixture-of-Experts pour optimiser vitesse et coût
La prise en charge linguistique passe de 119 à 201 langues, améliorant l’accessibilité multilingue
Qwen3.5-Plus est disponible dans Alibaba Cloud Model Studio, avec
- une fenêtre de contexte de 1M, des outils officiels intégrés et une utilisation adaptative des outils

Évaluation des performances

Comparé à des modèles récents comme GPT5.2, Claude 4.5 Opus, Gemini-3 Pro, Qwen3.5
- enregistre des scores compétitifs en langage, raisonnement, code, agents et multimodal
En évaluation linguistique, il atteint des performances de premier plan avec 94.9 sur MMLU-Pro, 70.4 sur SuperGPQA et 76.5 sur IFBench
En évaluation vision-langage, il obtient de très bons scores comme 88.6 sur MathVision, 93.9 sur AI2D_TEST et 93.1 sur OCRBench
Il surpasse Qwen3-VL en compréhension multimodale et en résolution de problèmes STEM
L’extension de l’environnement d’apprentissage par renforcement améliore les performances d’agent généraliste, avec une progression du classement moyen sur BFCL-V4 et VITA-Bench

Préentraînement (Pretraining)

Power : par rapport à Qwen3, apprentissage à grande échelle sur des tokens vision-texte, avec renforcement des données multilingues, STEM et de raisonnement
- Qwen3.5-397B-A17B atteint des performances équivalentes à celles d’un modèle de classe 1T paramètres (Qwen3-Max-Base)
Efficiency : sur la base de l’architecture Qwen3-Next, application de la sparsification MoE, de Gated DeltaNet et de la prédiction multi-token
- à contexte 32k/256k, le débit de décodage est 8.6x/19x supérieur à Qwen3-Max
Versatility : grâce à une fusion précoce texte-vision, le modèle assure un traitement multimodal naturel,
- avec un vocabulaire de 250 000 entrées (contre 150 000 auparavant), améliorant l’efficacité d’encodage et de décodage de 10 à 60 %

Infrastructure et framework d’entraînement

Une infrastructure hétérogène séparant les stratégies parallèles vision et langage prend en charge un apprentissage multimodal efficace
- en exploitant l’activation sparse, elle atteint une efficacité de traitement proche de 100 % même sur des données mixtes texte-image-vidéo
Un pipeline FP8 optimise la précision des activations, du routage MoE et des opérations GEMM
- avec une réduction de 50 % de l’usage mémoire et une hausse de vitesse de plus de 10 %
Un framework d’apprentissage par renforcement asynchrone a été mis en place pour entraîner des modèles texte, multimodaux et multi-turn
- grâce à l’entraînement FP8 end-to-end, au speculative decoding et au multi-turn rollout locking,
  il offre une vitesse de traitement 3 à 5 fois supérieure et une scalabilité stable

Usages et intégration

Qwen Chat propose les modes Auto, Thinking et Fast
- Auto : utilisation automatique des outils et raisonnement adaptatif
- Thinking : raisonnement approfondi
- Fast : réponse immédiate
Via la ModelStudio API, il est possible d’activer les fonctions reasoning, web search et Code Interpreter
- contrôle via les paramètres enable_thinking et enable_search
Intégration avec Qwen Code, OpenClaw et d’autres outils pour le code en langage naturel et la création multimodale

Démos et applications

Développement Web : génération de pages web et de code UI à partir d’instructions en langage naturel
Visual Agent : automatisation d’actions sur smartphone et PC à partir d’instructions en langage naturel
Visual Coding : avec une entrée d’un million de tokens, traitement de jusqu’à 2 heures de vidéo,
- avec prise en charge de la conversion d’une interface dessinée à la main en code, du résumé vidéo, etc.
Spatial Intelligence : amélioration de la précision pour le comptage d’objets, les relations de position et la description spatiale
- ce qui ouvre des perspectives pour la conduite autonome et la robotique
Visual Reasoning : progrès par rapport à Qwen3-VL dans la résolution de problèmes scientifiques et le raisonnement logique visuel

Résumé et orientations futures

Qwen3.5 pose les bases de l’agent numérique généraliste grâce à une architecture hybride efficace et un raisonnement multimodal natif
L’objectif futur est de passer de l’extension du modèle à l’intégration système
- avec le développement de systèmes d’agents autonomes et persistants dotés de mémoire continue, d’interfaces avec le monde réel, d’auto-amélioration et de capacités de décision économique

1 commentaires

GN⁺ 2026-02-17

Avis Hacker News

Il est intéressant qu’ils aient choisi « drive the car to the wash » comme problème ardu du jour pour les LLM
- Plus que les performances, ce qui m’intéresse, c’est de trouver une façon de repérer systématiquement ce type de « questions embarrassantes » et d’en faire un échantillonnage statistique pour mesurer à quelle fréquence elles apparaissent selon les LLM
  Comme les LLM ont déjà ingéré quasiment tous les corpus, il devient difficile de distinguer une vraie amélioration d’apprentissage d’un simple « post-it » collé par-dessus
  Il faut un moyen de formuler des problèmes en langage naturel tout en leur donnant l’apparence de problèmes « chiffrés » pour les LLM
  Par exemple, on pourrait imaginer un simple générateur de programmes LUA qui produit du code aléatoire, le traduit en anglais, demande au LLM de prédire le résultat, puis compare avec l’exécution réelle
  Cette approche donne presque l’impression d’un scénario de guerre de l’information
- Mon agent IA OpenClaw a réagi sur le ton de la plaisanterie en disant que « avoir un cerveau de la taille d’une planète pour se voir poser ce genre de question par des humains n’est pas très satisfaisant »
- Je me demande à quel point le résultat changerait en modifiant légèrement la question ou en remplaçant la voiture par un vélo, un camion, un bateau ou un avion
- C’est la réponse de Gemini assistant. Je n’arrive pas à la reproduire sur les autres modèles
- C’est comme une petite erreur issue de la réaction System 1 chez l’humain. Le continual learning pourrait être une solution
Pour les personnes intéressées, j’ai mis en ligne les MXFP4 GGUFs sur Hugging Face, et le guide d’exécution est résumé dans la documentation unsloth.ai
- Je me demande s’il est plus efficace de faire tourner des modèles quantifiés en basse précision à 2~3 bits plutôt que des modèles à 8~16 bits. Je manque de VRAM, donc c’est difficile à tester
Pelican est correct, mais ce n’est pas un bon vélo — voir cet exemple lié
- Je me demande à quel point on en a appris davantage sur le pélican depuis le début
- Il est possible que cet exemple Pelican fasse désormais partie de la plupart des jeux de données d’entraînement. Ce serait bien de créer un nouveau défi SVG qui ferait aussi échouer Gemini 3 Deep Think
- J’ai bien aimé les touches de couleur au sol dans l’image générée
- Je me demande selon quels critères l’exemple final est publié après plusieurs tentatives de génération
- J’aimerais savoir quel mode de quantification a été utilisé, ou s’il s’agissait de la version API officielle
Si Qwen 3.5 sort en taille 80~110B, cela pourrait convenir parfaitement à un appareil de 128 Go. Qwen3-Next est en 80B, mais il n’a pas de vision encoder
- Les modèles open weights devenant de plus en plus gros, cela vaut peut-être la peine d’envisager l’achat d’un deuxième appareil de 128 Go
- Pourquoi 128 Go ? Un modèle 80B ne pourrait-il pas tourner avec deux A6000 ? J’aimerais savoir de quel appareil il s’agit
C’est dommage qu’ils n’aient publié que le modèle flagship, sans petite version distillée. Les anciens Qwen étaient appréciables justement parce qu’ils sortaient en plusieurs tailles
- En regardant le code HF Transformers, il semble probable que de petites versions denses arrivent bientôt
- D’après le GitHub officiel de Qwen, davantage de tailles devraient sortir prochainement, avec en prime un message de vœux pour la nouvelle année
- L’ajout des capacités multimodales a peut-être aussi rendu le travail de distillation plus difficile
Lors du Nouvel An lunaire de l’an dernier, je n’aurais jamais imaginé qu’un modèle du niveau de Sonnet 4.5 tournerait rapidement en local, mais cela pourrait devenir possible sur un MacBook Pro M5 Max de 2026
- Je ne m’emballerais pas trop. D’après les rumeurs, ils semblent avoir aligné les benchmarks en s’appuyant sur des modèles Frontier
- En usage réel, il y a un grand écart entre les benchmarks et les performances ressenties. La quantification dégrade encore les performances. Difficile d’y croire avant de l’avoir essayé soi-même
- J’espère que la Chine continuera à publier de grands modèles open weights. Je préférerais utiliser des modèles hébergés sur des GPU serveur plutôt qu’en local. On pourra toujours faire la distillation ensuite
- Je me demande aussi si les MacBook M5 de 2026 embarqueront plus de 390 Go de RAM
- Le mot « rapide » me semble exagéré. On pourra peut-être faire des calculs simples, mais pas des tâches complexes. NVIDIA est numéro un pour une raison
Qwen est un modèle open très puissant, et sa série visuelle est particulièrement impressionnante
Dans un rapport IA, il était mentionné que Fennec (Sonnet 5) sortirait le 4 février, mais c’était en réalité un mélange de rumeurs et d’hallucinations d’un outil d’actualités IA. C’était un cas intéressant
- J’ai été surpris qu’un PDF se télécharge automatiquement dès l’ouverture de la page. Comme il y était question de Sonnet 5, j’ai été dérouté et j’ai cru à un document de test interne
Il y a un problème de chargement du blog Qwen. Même en désactivant le bloqueur de pub, je ne vois toujours qu’un placeholder
- Sur iOS Safari, il faut régler l’option « réduire les autres protections de confidentialité » pour que la page se charge
Je me demande à quoi correspondent précisément les 15 000 environnements RL qu’ils mentionnent. J’en conçois quelques centaines, mais au-delà, j’ai du mal à imaginer
- D’après certaines rumeurs, ils téléchargeraient tous les dépôts GitHub, les classeraient en environnements, puis évalueraient automatiquement la capacité à compiler, la complexité, l’atteinte d’objectifs, etc. Par exemple, ils construiraient des environnements RL orientés objectifs où le LLM insère un bug, provoque l’échec des tests, puis le corrige
- En pratique, presque tous les systèmes interactifs peuvent devenir un environnement RL. Si l’on peut agir automatiquement via CLI, GUI, API, etc., et mesurer la qualité du résultat, alors on peut créer une boucle d’apprentissage
En ce moment, tout le monde se focalise sur les scores de benchmark, mais le vrai sujet est de savoir si le modèle peut conserver le contexte pendant un usage d’outils en plusieurs étapes
La plupart des modèles open s’effondrent encore à ce niveau

Qwen3.5 : vers un agent multimodal natif

Aperçu de Qwen3.5

Évaluation des performances

Préentraînement (Pretraining)

Infrastructure et framework d’entraînement

Usages et intégration

Démos et applications

Résumé et orientations futures

À lire aussi

1 commentaires

Avis Hacker News