- Qwen3-VL est la dernière génération de modèles multimodaux vision-langage, offrant de meilleures performances sur l’ensemble des domaines, notamment la compréhension et la génération de texte, la reconnaissance vidéo, le raisonnement spatial et la compréhension de contextes longs
- Le modèle phare Qwen3-VL-235B-A22B est publié en versions Instruct et Thinking, qui établissent respectivement des résultats de pointe en perception visuelle et en raisonnement multimodal
- Le modèle renforce diverses capacités d’usage concret, comme les fonctions d’agent, le visual coding, le raisonnement spatial 2D/3D, ainsi que la compréhension de longs textes et de longues vidéos
- Il étend aussi sa couverture avec la prise en charge de l’OCR en 32 langues, de la compréhension de documents complexes et du traitement multi-images et vidéo, ce qui le rend adapté aussi bien à des usages quotidiens que professionnels
- Il devrait fournir à la communauté open source une base multimodale de tout premier plan et accélérer à l’avenir la résolution de problèmes du monde réel ainsi que le développement des agents IA
Présentation de Qwen3-VL
- Qwen3-VL est le dernier modèle d’IA multimodal développé par QwenTeam, conçu pour traiter et comprendre de manière globale diverses formes de données, notamment les images, le texte, les tableaux, les documents, les formules et les graphiques
Principales caractéristiques
- Fonctions d’agent visuel : reconnaissance d’interfaces GUI, clic sur des boutons, appel d’outils, permettant des tâches d’automatisation sur ordinateur et mobile
- Performances textuelles renforcées : grâce à un apprentissage conjoint texte-visuel dès les premières phases, le modèle atteint une forte capacité de traitement du texte au niveau des modèles de langage seuls
- Visual coding : conversion d’images de design en code HTML, CSS et JavaScript, pour concrétiser le principe du « coder ce que l’on voit »
- Compréhension spatiale : extension des coordonnées absolues 2D vers des coordonnées relatives, avec prise en charge du grounding 3D, posant les bases pour la robotique et la conduite autonome
- Traitement de contextes longs et de vidéos longues : prise en charge native de 256K tokens, extensible jusqu’à 1 million de tokens, avec mémorisation et recherche précises même sur des vidéos de 2 heures
- Optimisation du raisonnement (version Thinking) : particulièrement performant sur la résolution de problèmes en mathématiques et STEM, avec les meilleurs résultats sur des benchmarks comme MathVision, MMMU et MathVista
Évaluation des performances
- Version Instruct : performances de perception visuelle supérieures à celles de grands modèles fermés comme Gemini 2.5 Pro et GPT-5
- Version Thinking : résultats de niveau mondial en raisonnement multimodal en mathématiques et sciences, dépassant notamment Gemini 2.5 Pro sur MathVision
- Tâches centrées sur le texte : performances comparables à Qwen3-235B-A22B-2507
- Test de vidéos longues : stabilité élevée démontrée avec une précision de 99,5 % même avec une entrée de 1 million de tokens
- OCR multilingue : plus de 70 % de précision atteints dans 32 langues sur 39
Améliorations de l’architecture
- Interleaved-MRoPE : meilleure compréhension des vidéos longues grâce à une répartition entrelacée des dimensions temps, hauteur et largeur
- DeepStack : amélioration de l’alignement précis texte-image via la fusion de caractéristiques de plusieurs couches du ViT
- Alignement texte-horodatage : appariement précis entre les informations temporelles au niveau des frames et le contenu visuel, améliorant la détection d’événements et d’actions
Fonctionnalités du modèle
- Agent de contrôle smartphone et PC : automatisation du lancement d’applications, du clic sur des boutons et du remplissage de formulaires
- Raisonnement basé sur l’image : analyses complexes possibles en combinaison avec des appels d’outils
- Support au développement frontend : conversion croquis → page web, débogage d’UI
- Détection d’objets 2D/3D : génération de centaines de boîtes de détection et estimation de profondeur
- Reconnaissance générale : reconnaissance de célébrités, marques, plantes, animaux et personnages d’animation
- Support à la création : storytelling à partir d’images, copywriting, génération de scripts vidéo
- Résolution de problèmes STEM : raisonnement étape par étape, analyse causale et résolution de problèmes scientifiques
- Suivi d’instructions complexes : prise en charge de conditions à plusieurs étapes et de requêtes structurées
- Compréhension documentaire : interprétation de longs PDF, de mises en page web et prise en charge du format QwenVL Markdown
- Conversation multi-images : comparaison et mise en relation de plusieurs images tout en conservant le contexte
- Compréhension vidéo : prise en charge de la détection d’événements dans de longues vidéos jusqu’à la génération de code
Conclusion
- Qwen3-VL est un modèle multimodal open source qui surpasse les modèles fermés et progresse de manière globale, de la perception au raisonnement puis à l’exécution
- Au-delà de la simple perception visuelle, il s’impose comme un modèle étendu à la compréhension du monde, au raisonnement et à l’action, fournissant une base pour l’usage d’agents en environnement réel
2 commentaires
Je trouvais déjà impressionnant, il y a moins de six mois, que la vidéo promotionnelle de Gemini puisse montrer qui avait gagné la course d’athlétisme et qui avait été dépassé, rien qu’en le sachant.
> Il peut aussi mémoriser et rechercher avec précision une vidéo de 2 heures
Je me demande vraiment ce que cela signifie exactement, « mémoriser ».
Avis Hacker News
Comme je l’ai mentionné hier, j’ai récemment dû traiter des centaines d’images de factures en basse qualité pour un projet de construction. Au départ, j’utilisais un script avec PIL/opencv, pytesseract et OpenAI, mais il échouait beaucoup trop souvent. Aujourd’hui, j’ai testé quelques factures d’une qualité vraiment catastrophique avec Qwen, et il a extrait sans difficulté toutes les informations nécessaires. Plus surprenant encore, il fournit même des informations de
bounding boxqui peuvent servir à améliorer tesseractbounding boxde limites foncières sur des images de cartes satellites avec un modèle VLLM, mais sans résultat. Je serais curieux d’avoir des conseils pour obtenir de meilleurs résultatsLa Chine semble faire dans les technologies clés ce qu’elle a fait dans l’industrie manufacturière : reprendre l’essentiel puis itérer jusqu’à obtenir une optimisation x10 en coût/efficacité. C’est vraiment impressionnant. C’est déjà un modèle connu dans les benchmarks, mais aujourd’hui j’ai vraiment l’impression qu’il peut prétendre au statut de SOTA open source. Ils ont même présenté aujourd’hui un modèle fermé d’un trillion de paramètres qui est monté à la 3e place de lm arena, tandis que le modèle 80GB est 17e et gpt-oss 120b 52e
Lien connexe
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507
Article DeepStack
Et plutôt que de tout résumer à « les Chinois », je pense qu’il vaut mieux attribuer le mérite à l’équipe Qwen elle-même. Il y a d’excellents laboratoires comme des laboratoires moyens dans tous les pays du monde
Si vous êtes à San Francisco, ne manquez pas l’occasion d’assister au premier événement officiel de l’équipe Qwen aux États-Unis. La vice-présidente de Qwen Lab doit intervenir en personne pendant la SF teach week
Lien vers l’événement
C’est une rare occasion d’échanger directement avec des membres de l’équipe Qwen
Le point essentiel de cette annonce Qwen, c’est qu’ils ont publié les poids d’un modèle atteignant des performances multimodales SOTA, supérieures à celles de modèles propriétaires fermés. D’après mes premiers tests, cela semble effectivement vrai, et je vais continuer à l’évaluer. Impressionnant
En pratique, le modèle Qwen3-VL 235B paramètres (FP16) semble demander au minimum 512GB de RAM. J’imagine qu’il en faut même davantage pour couvrir une fenêtre de contexte raisonnable. En supposant qu’on ne le fasse pas tourner sur CPU, j’aimerais savoir quelle est la meilleure façon de le faire tourner chez soi avec un budget inférieur à 10 000 dollars. Si le CPU est la seule option réaliste, est-ce que la meilleure solution est vLLM + plusieurs machines reliées en réseau (10/25/100Gbit), ou existe-t-il une meilleure approche
Il n’est pas nécessaire de l’exécuter en FP16. La plupart du temps, une quantification jusqu’à q8 n’entraîne presque aucune perte de qualité, et même en q4 ou moins on peut souvent garder de bonnes performances. Rien qu’en q8, il faut déjà 235GB de RAM, donc avec des RTX 5090 (32GB de VRAM), il en faudrait 8, ce qui coûte déjà très cher. Il faut aussi prendre en compte la carte mère, le CPU et la répartition sur 8 GPU. On peut éventuellement viser un serveur de minage d’occasion avec de vieilles RTX 3090 ou des P40, mais avec des GPU grand public, rester sous les 10 000 dollars n’est pas réaliste.
Répartir le modèle sur plusieurs ordinateurs sans NVLink entraîne une chute de vitesse énorme, donc en pratique je recommande une seule machine. Les performances CPU ne sont pas mauvaises. La bande passante mémoire est essentielle, donc un CPU serveur ou workstation avec beaucoup de canaux DDR5 convient bien (par exemple l’AMD Ryzen Threadripper 7965WX, 8 canaux DDR5, prise en charge de 5200 MT/s, autour de 2 500 dollars).
Enfin, je vous recommande de vous redemander si vous avez vraiment besoin de le faire tourner chez vous. Cela dépend de votre objectif, bien sûr, mais 10 000 dollars investis dans du matériel peuvent perdre énormément de valeur en quelques années. Avec 10 000 dollars de crédits cloud, on peut aller très loin
Grâce à Qwen, qui publie des poids ouverts pour une SOTA multimodale, le cœur des développeurs penche de plus en plus vers Qwen. En tout cas, le mien a déjà basculé
Merci pour la générosité de l’équipe Qwen. J’utilise déjà leur modèle « Thinking » pour automatiser plusieurs tâches internes ennuyeuses avec des workflows assez sympas
Modèle Qwen thinking
Avec cette nouvelle release, je vais maintenant aussi mettre en place de nouveaux workflows pour classer et légender des photos de repas, des photos d’utilisateurs, etc. Très cool
Références vers des modèles liés à l’équipe Qwen
Je suis convaincu que c’est l’annonce dans laquelle j’ai vu le plus grand nombre de chiffres de benchmarks jusqu’ici. J’ai envie de les féliciter de ne pas avoir seulement sélectionné quelques métriques faciles à mettre en avant
Malheureusement, Qwen3-VL échoue encore au test des « membres supplémentaires ». J’ai injecté via Photoshop des images d’animaux avec des membres en plus (par exemple un chien avec des pattes au niveau du ventre, ou un chat avec deux paires de pattes avant), et comme tous les autres modèles, il insiste sur le fait que le nombre de membres est normal. Même si je lui dis qu’on dirait qu’il y a des pattes sur le ventre, il soutient jusqu’au bout que c’est moi qui me trompe. Qwen répond même qu’il y en a bien 4 alors qu’on lui signale explicitement que l’image a été modifiée
Dataset horloges
Exemple de dé D20
En clair, sans créer un million d’exemples pour des cas comme les membres supplémentaires, il ne trouvera pas la bonne réponse, et il faudra sans cesse recréer de nouveaux datasets pour d’autres problèmes du même genre