Présentation du modèle Qwen3-VL - une vision plus fine, une réflexion plus profonde, une exécution plus large

(qwen.ai)

6 points par GN⁺ 2025-09-26 | 2 commentaires | Partager sur WhatsApp

Qwen3-VL est la dernière génération de modèles multimodaux vision-langage, offrant de meilleures performances sur l’ensemble des domaines, notamment la compréhension et la génération de texte, la reconnaissance vidéo, le raisonnement spatial et la compréhension de contextes longs
Le modèle phare Qwen3-VL-235B-A22B est publié en versions Instruct et Thinking, qui établissent respectivement des résultats de pointe en perception visuelle et en raisonnement multimodal
Le modèle renforce diverses capacités d’usage concret, comme les fonctions d’agent, le visual coding, le raisonnement spatial 2D/3D, ainsi que la compréhension de longs textes et de longues vidéos
Il étend aussi sa couverture avec la prise en charge de l’OCR en 32 langues, de la compréhension de documents complexes et du traitement multi-images et vidéo, ce qui le rend adapté aussi bien à des usages quotidiens que professionnels
Il devrait fournir à la communauté open source une base multimodale de tout premier plan et accélérer à l’avenir la résolution de problèmes du monde réel ainsi que le développement des agents IA

Présentation de Qwen3-VL

Qwen3-VL est le dernier modèle d’IA multimodal développé par QwenTeam, conçu pour traiter et comprendre de manière globale diverses formes de données, notamment les images, le texte, les tableaux, les documents, les formules et les graphiques

Principales caractéristiques

Fonctions d’agent visuel : reconnaissance d’interfaces GUI, clic sur des boutons, appel d’outils, permettant des tâches d’automatisation sur ordinateur et mobile
Performances textuelles renforcées : grâce à un apprentissage conjoint texte-visuel dès les premières phases, le modèle atteint une forte capacité de traitement du texte au niveau des modèles de langage seuls
Visual coding : conversion d’images de design en code HTML, CSS et JavaScript, pour concrétiser le principe du « coder ce que l’on voit »
Compréhension spatiale : extension des coordonnées absolues 2D vers des coordonnées relatives, avec prise en charge du grounding 3D, posant les bases pour la robotique et la conduite autonome
Traitement de contextes longs et de vidéos longues : prise en charge native de 256K tokens, extensible jusqu’à 1 million de tokens, avec mémorisation et recherche précises même sur des vidéos de 2 heures
Optimisation du raisonnement (version Thinking) : particulièrement performant sur la résolution de problèmes en mathématiques et STEM, avec les meilleurs résultats sur des benchmarks comme MathVision, MMMU et MathVista

Évaluation des performances

Version Instruct : performances de perception visuelle supérieures à celles de grands modèles fermés comme Gemini 2.5 Pro et GPT-5
Version Thinking : résultats de niveau mondial en raisonnement multimodal en mathématiques et sciences, dépassant notamment Gemini 2.5 Pro sur MathVision
Tâches centrées sur le texte : performances comparables à Qwen3-235B-A22B-2507
Test de vidéos longues : stabilité élevée démontrée avec une précision de 99,5 % même avec une entrée de 1 million de tokens
OCR multilingue : plus de 70 % de précision atteints dans 32 langues sur 39

Améliorations de l’architecture

Interleaved-MRoPE : meilleure compréhension des vidéos longues grâce à une répartition entrelacée des dimensions temps, hauteur et largeur
DeepStack : amélioration de l’alignement précis texte-image via la fusion de caractéristiques de plusieurs couches du ViT
Alignement texte-horodatage : appariement précis entre les informations temporelles au niveau des frames et le contenu visuel, améliorant la détection d’événements et d’actions

Fonctionnalités du modèle

Agent de contrôle smartphone et PC : automatisation du lancement d’applications, du clic sur des boutons et du remplissage de formulaires
Raisonnement basé sur l’image : analyses complexes possibles en combinaison avec des appels d’outils
Support au développement frontend : conversion croquis → page web, débogage d’UI
Détection d’objets 2D/3D : génération de centaines de boîtes de détection et estimation de profondeur
Reconnaissance générale : reconnaissance de célébrités, marques, plantes, animaux et personnages d’animation
Support à la création : storytelling à partir d’images, copywriting, génération de scripts vidéo
Résolution de problèmes STEM : raisonnement étape par étape, analyse causale et résolution de problèmes scientifiques
Suivi d’instructions complexes : prise en charge de conditions à plusieurs étapes et de requêtes structurées
Compréhension documentaire : interprétation de longs PDF, de mises en page web et prise en charge du format QwenVL Markdown
Conversation multi-images : comparaison et mise en relation de plusieurs images tout en conservant le contexte
Compréhension vidéo : prise en charge de la détection d’événements dans de longues vidéos jusqu’à la génération de code

Conclusion

Qwen3-VL est un modèle multimodal open source qui surpasse les modèles fermés et progresse de manière globale, de la perception au raisonnement puis à l’exécution
Au-delà de la simple perception visuelle, il s’impose comme un modèle étendu à la compréhension du monde, au raisonnement et à l’action, fournissant une base pour l’usage d’agents en environnement réel

2 commentaires

crawler 2025-09-26

Je trouvais déjà impressionnant, il y a moins de six mois, que la vidéo promotionnelle de Gemini puisse montrer qui avait gagné la course d’athlétisme et qui avait été dépassé, rien qu’en le sachant.

> Il peut aussi mémoriser et rechercher avec précision une vidéo de 2 heures

Je me demande vraiment ce que cela signifie exactement, « mémoriser ».

GN⁺ 2025-09-26

Avis Hacker News

Comme je l’ai mentionné hier, j’ai récemment dû traiter des centaines d’images de factures en basse qualité pour un projet de construction. Au départ, j’utilisais un script avec PIL/opencv, pytesseract et OpenAI, mais il échouait beaucoup trop souvent. Aujourd’hui, j’ai testé quelques factures d’une qualité vraiment catastrophique avec Qwen, et il a extrait sans difficulté toutes les informations nécessaires. Plus surprenant encore, il fournit même des informations de bounding box qui peuvent servir à améliorer tesseract
- Si vous avez un besoin similaire, je recommande aussi l’API Printed Text Recognition de Microsoft
- Je me demande pourquoi Qwen a été choisi. Mistral a un modèle spécialisé distinct, présenté spécifiquement pour l’OCR, et dans mes tests il fonctionnait plutôt bien sur de vieux livres anglais (années 80 et 90)
- J’aime bien tester ce genre de modèles sur la lecture de captures d’écran de jeux Apple ][ des années 80. C’est un domaine très difficile pour la plupart des modèles open source à cause de la très basse résolution et de la forte densité visuelle
- J’ai déjà essayé d’estimer des bounding box de limites foncières sur des images de cartes satellites avec un modèle VLLM, mais sans résultat. Je serais curieux d’avoir des conseils pour obtenir de meilleurs résultats
- J’ai moi aussi essayé de détecter la mise en page des scans pour améliorer l’OCR, mais au final un Qwen 2.5 VLM 7B fine-tuné s’est révélé meilleur. Je pense que le fine-tuning est la vraie réponse
La Chine semble faire dans les technologies clés ce qu’elle a fait dans l’industrie manufacturière : reprendre l’essentiel puis itérer jusqu’à obtenir une optimisation x10 en coût/efficacité. C’est vraiment impressionnant. C’est déjà un modèle connu dans les benchmarks, mais aujourd’hui j’ai vraiment l’impression qu’il peut prétendre au statut de SOTA open source. Ils ont même présenté aujourd’hui un modèle fermé d’un trillion de paramètres qui est monté à la 3e place de lm arena, tandis que le modèle 80GB est 17e et gpt-oss 120b 52e
Lien connexe
- Les descriptions, noms de produits et distinctions de versions restent très flous. Je sais que Qwen3-VL Plus (nouveau modèle) et Qwen3-VL 235B (autre modèle) sont complètement différents malgré des noms proches, mais les informations sont suffisamment ambiguës pour qu’on ne sache pas lequel est supérieur. Rien qu’avec les noms, on ne comprend pas non plus la différence entre Qwen-Plus-2025-09-11 et qwen3-235b-a22b-instruct-2507. Ils communiquent encore moins clairement qu’OpenAI sur le naming
  Qwen3-VL Plus
  Qwen3-VL-235B
  qwen-plus-2025-09-11
  qwen3-235b-a22b-instruct-2507
- Dire qu’ils « ne font qu’optimiser » n’est pas exact. L’équipe Qwen propose aussi de nouvelles idées comme DeepStack
  Article DeepStack
  Et plutôt que de tout résumer à « les Chinois », je pense qu’il vaut mieux attribuer le mérite à l’équipe Qwen elle-même. Il y a d’excellents laboratoires comme des laboratoires moyens dans tous les pays du monde
- Fait intéressant, des modèles comme Kimi K2 donnent l’impression de générer un texte bien plus naturel que les modèles américains. Ils ne sont pas au niveau SOTA dans les benchmarks, mais l’expérience d’usage réelle est différente
- Les États-Unis se concentraient aussi autrefois sur ce type d’optimisation, mais depuis 10 à 15 ans on a de plus en plus l’impression qu’ils injectent simplement plus de ressources tout en négligeant l’optimisation. Par exemple, on ajoute de la RAM pour les progressive web apps, on remplace le CPU par un modèle plus puissant, ou on augmente l’alimentation électrique. Au fond, j’ai l’impression que le problème vient du fait qu’on n’applique pas en pratique ce qu’on apprend en cours d’algorithmique à l’université. La Chine, elle, le met réellement en œuvre, et cela rend les États-Unis assez ridicules en comparaison
Si vous êtes à San Francisco, ne manquez pas l’occasion d’assister au premier événement officiel de l’équipe Qwen aux États-Unis. La vice-présidente de Qwen Lab doit intervenir en personne pendant la SF teach week
Lien vers l’événement
C’est une rare occasion d’échanger directement avec des membres de l’équipe Qwen
- C’est déjà complet ;-(
- Avec les problèmes de visas en ce moment, entrer aux États-Unis est peut-être déjà du 50:50, donc j’espère qu’ils pourront venir sans encombre
Le point essentiel de cette annonce Qwen, c’est qu’ils ont publié les poids d’un modèle atteignant des performances multimodales SOTA, supérieures à celles de modèles propriétaires fermés. D’après mes premiers tests, cela semble effectivement vrai, et je vais continuer à l’évaluer. Impressionnant
- La plupart des implémentations d’entrée multimodale ont des performances assez faibles. Je ne dirais pas que Qwen est énormément en avance sur les solutions commerciales déjà connues, mais je suis déjà content de voir une tentative qui publie ouvertement ce genre de résultats. Construire un modèle où l’entrée multimodale fonctionne aussi bien n’a absolument rien de facile
- J’ai quand même l’impression que les modèles open source ont toujours tendance à prétendre qu’ils sont « au niveau de la SOTA commerciale », quelle que soit leur taille
En pratique, le modèle Qwen3-VL 235B paramètres (FP16) semble demander au minimum 512GB de RAM. J’imagine qu’il en faut même davantage pour couvrir une fenêtre de contexte raisonnable. En supposant qu’on ne le fasse pas tourner sur CPU, j’aimerais savoir quelle est la meilleure façon de le faire tourner chez soi avec un budget inférieur à 10 000 dollars. Si le CPU est la seule option réaliste, est-ce que la meilleure solution est vLLM + plusieurs machines reliées en réseau (10/25/100Gbit), ou existe-t-il une meilleure approche
- Un Apple Mac Studio avec 512GB de mémoire unifiée coûte environ 10 000 dollars. Si vous avez besoin de cette puissance chez vous et que vous avez les moyens, c’est de loin l’option la plus simple.
  Il n’est pas nécessaire de l’exécuter en FP16. La plupart du temps, une quantification jusqu’à q8 n’entraîne presque aucune perte de qualité, et même en q4 ou moins on peut souvent garder de bonnes performances. Rien qu’en q8, il faut déjà 235GB de RAM, donc avec des RTX 5090 (32GB de VRAM), il en faudrait 8, ce qui coûte déjà très cher. Il faut aussi prendre en compte la carte mère, le CPU et la répartition sur 8 GPU. On peut éventuellement viser un serveur de minage d’occasion avec de vieilles RTX 3090 ou des P40, mais avec des GPU grand public, rester sous les 10 000 dollars n’est pas réaliste.
  Répartir le modèle sur plusieurs ordinateurs sans NVLink entraîne une chute de vitesse énorme, donc en pratique je recommande une seule machine. Les performances CPU ne sont pas mauvaises. La bande passante mémoire est essentielle, donc un CPU serveur ou workstation avec beaucoup de canaux DDR5 convient bien (par exemple l’AMD Ryzen Threadripper 7965WX, 8 canaux DDR5, prise en charge de 5200 MT/s, autour de 2 500 dollars).
  Enfin, je vous recommande de vous redemander si vous avez vraiment besoin de le faire tourner chez vous. Cela dépend de votre objectif, bien sûr, mais 10 000 dollars investis dans du matériel peuvent perdre énormément de valeur en quelques années. Avec 10 000 dollars de crédits cloud, on peut aller très loin
- Toute solution autre que le CPU nécessite généralement d’augmenter l’alimentation électrique, et faire tourner plusieurs machines consommant chacune 2 à 3kW, parfois sur des circuits électriques distincts, entraîne des coûts supplémentaires énormes
Grâce à Qwen, qui publie des poids ouverts pour une SOTA multimodale, le cœur des développeurs penche de plus en plus vers Qwen. En tout cas, le mien a déjà basculé
- À ce stade, on peut presque considérer que la partie est terminée. Quand on regarde aujourd’hui les noms des principaux auteurs des grands papiers américains, il y a énormément de noms d’origine chinoise
- Il y a aussi le fait qu’ils ne visent pas forcément la rentabilité, donc ils ne jouent pas selon les mêmes règles
- Je me demande moi-même pourquoi ils essaient autant de gagner l’adhésion des gens
Merci pour la générosité de l’équipe Qwen. J’utilise déjà leur modèle « Thinking » pour automatiser plusieurs tâches internes ennuyeuses avec des workflows assez sympas
Modèle Qwen thinking
Avec cette nouvelle release, je vais maintenant aussi mettre en place de nouveaux workflows pour classer et légender des photos de repas, des photos d’utilisateurs, etc. Très cool
Références vers des modèles liés à l’équipe Qwen
- Qwen3-VL-235B-A22B-Thinking
- Qwen3-VL-235B-A22B-Instruct
Je suis convaincu que c’est l’annonce dans laquelle j’ai vu le plus grand nombre de chiffres de benchmarks jusqu’ici. J’ai envie de les féliciter de ne pas avoir seulement sélectionné quelques métriques faciles à mettre en avant
- Dans les domaines où les benchmarks sont déjà saturés, j’ai l’impression qu’afficher encore plus de chiffres n’a plus vraiment de sens
Malheureusement, Qwen3-VL échoue encore au test des « membres supplémentaires ». J’ai injecté via Photoshop des images d’animaux avec des membres en plus (par exemple un chien avec des pattes au niveau du ventre, ou un chat avec deux paires de pattes avant), et comme tous les autres modèles, il insiste sur le fait que le nombre de membres est normal. Même si je lui dis qu’on dirait qu’il y a des pattes sur le ventre, il soutient jusqu’au bout que c’est moi qui me trompe. Qwen répond même qu’il y en a bien 4 alors qu’on lui signale explicitement que l’image a été modifiée
- Comme tous les VLM, il reste fragile sur les cas exceptionnels. La lecture d’horloges analogiques n’a été correctement résolue dans le passé qu’après spécialisation avec un million d’images synthétiques modifiées
  Dataset horloges
  Exemple de dé D20
  En clair, sans créer un million d’exemples pour des cas comme les membres supplémentaires, il ne trouvera pas la bonne réponse, et il faudra sans cesse recréer de nouveaux datasets pour d’autres problèmes du même genre
- C’est clairement un modèle inadapté pour compter les membres d’espèces bizarres. En revanche, il peut être tout à fait suffisant sur des sujets abondamment présents dans les données d’entraînement
- Je me demande si, en utilisant la fonction d’édition d’image des modèles Qwen et en demandant de modifier autre chose sans toucher au nombre de membres, le modèle finirait malgré tout par « corriger » le nombre de membres pour le ramener à la normale