Qwen VLo - de la « compréhension » du monde à sa « description »

(qwenlm.github.io)

1 points par GN⁺ 2025-06-29 | 1 commentaires | Partager sur WhatsApp

Qwen VLo est un modèle unifié multimodal de compréhension et de génération, qui offre non seulement la compréhension d’images mais aussi la génération d’images de haute qualité
Les utilisateurs peuvent donner des instructions créatives en langage naturel et générer ou éditer directement divers types d’images, comme des transformations de style ou des changements d’arrière-plan
La prise en charge de plusieurs langues permet aux utilisateurs du monde entier de l’utiliser facilement, sans barrière linguistique
Il adopte une méthode de génération progressive qui améliore et optimise continuellement les images, offrant une meilleure qualité visuelle et un niveau de contrôle élevé
Il est encore en phase de prévisualisation, et certaines fonctionnalités peuvent être instables, mais des améliorations sont en cours

Introduction

Les progrès des grands modèles multimodaux continuent de repousser les limites de la technologie
De QwenVL à Qwen2.5 VL, la compréhension du contenu visuel a été renforcée, et Qwen VLo apparaît désormais comme un nouveau modèle multimodal qui couvre à la fois la compréhension et la génération
Qwen VLo va au-delà de la simple « compréhension » du monde pour pouvoir aussi, à partir de cette compréhension, « générer » des images détaillées
Ce modèle relie concrètement la frontière entre perception et création
Il est actuellement disponible en version preview dans Qwen Chat, où l’on peut créer des images avec des commandes comme « générer un dessin de chat mignon » et, après avoir téléversé une image, effectuer des modifications comme « mettre un chapeau au chat ».

Processus de génération créative

Comme on peut le voir dans la vidéo de démonstration de la génération d’images de Qwen VLo, ce modèle utilise une méthode de génération progressive
Il construit l’image progressivement du coin supérieur gauche vers le coin inférieur droit, en affinant continuellement ses prédictions pour obtenir des résultats cohérents et harmonieux
Ce mécanisme de génération améliore la qualité visuelle et aide les utilisateurs à contrôler plus souplement et plus finement le processus créatif.

De la compréhension à la créativité : des capacités de génération multimodale renforcées

Principales améliorations de Qwen VLo

Compréhension et reproduction précises du contenu
- Les modèles multimodaux précédents présentaient des incohérences sémantiques pendant la génération (par exemple, mauvaise identification d’une voiture ou perte de sa structure)
- Qwen VLo a renforcé sa capacité à capter les détails et maintient une forte cohérence sémantique
- Par exemple, si l’on demande de changer la couleur d’une photo de voiture, il modifie naturellement la couleur tout en conservant le modèle et la structure réels du véhicule, pour un rendu réaliste
Prise en charge de l’édition basée sur des instructions ouvertes
- Les utilisateurs peuvent saisir en langage naturel des consignes créatives libres comme « donne à cette image un style Van Gogh », « comme une photo du XIXe siècle » ou « ajoute un ciel dégagé »
- En plus de la transformation de style, de la recomposition de scène et des retouches de détail, il est aussi possible d’effectuer par simple instruction des tâches classiques de vision par deep learning comme les cartes de profondeur, la segmentation et l’estimation des contours
- Des instructions composées (par ex. modification d’objet + édition de texte + changement d’arrière-plan) peuvent également être exécutées en une seule fois
Prise en charge des instructions multilingues
- Qwen VLo prend en charge des interactions dans diverses langues, notamment le chinois et l’anglais
- Il offre une grande facilité d’usage à l’échelle mondiale, sans barrière linguistique

Cas d’usage de la démo

Qwen VLo concrétise l’imagination à partir de sa compréhension, à la manière d’un artiste humain. Il permet le remplacement d’arrière-plan, l’ajout de sujets, les changements de style, les grandes retouches basées sur des instructions ouvertes ainsi que la détection et la segmentation.

En particulier, grâce à ses fonctions de régénération fondées sur la compréhension, il prend en charge de larges transformations de style créatif, comme bande dessinée → photo réaliste ou personnage spécifique → ballon.

Grâce à sa capacité avancée à interpréter les images et les consignes, le modèle peut exécuter d’un seul coup des commandes complexes, par exemple créer une affiche, combiner plusieurs objets, et mener à bien en une fois des tâches en plusieurs étapes

En outre, Qwen VLo prend aussi en charge des fonctions d’annotation et de marquage sur des informations existantes, comme la détection, la segmentation et la détection de contours.

La prise en charge de plusieurs images en entrée est également en préparation (sortie officielle prévue ultérieurement)
En plus des entrées texte + image, il prend aussi en charge la génération texte → image (images générales, affiches mêlant chinois et anglais, etc.)
Il prend en charge la génération d’images dans des formats à ratio très allongé, horizontal ou vertical (jusqu’à 4:1, 1:3, etc.) (prévu pour la sortie officielle)
Le modèle peut aussi réinterpréter et analyser des images qu’il a lui-même générées pour identifier des races de chiens ou de chats, par exemple

Utilisation

Qwen VLo utilise un apprentissage et une génération à résolution dynamique, ce qui permet d’employer librement la résolution et le ratio des images en entrée comme en sortie. Il devient ainsi possible de créer des images à la taille souhaitée (affiches, illustrations, bannières web, couvertures pour réseaux sociaux, etc.), sans être limité à un format fixe.

Mécanisme de génération : génération progressive du coin supérieur gauche vers le coin inférieur droit (Progressive generation)
Pour les tâches nécessitant un contrôle précis, comme les publicités ou les cases de bande dessinée contenant de longs textes, il est possible d’ajuster finement le processus en temps réel

Limites

Qwen VLo est en phase preview et présente encore certaines limites. Pendant la génération, on peut observer un manque de précision, des écarts par rapport à l’original, le non-respect des consignes ou une instabilité dans la compréhension de l’image. Des améliorations continues et des mises à jour de stabilisation sont en cours.

Étapes suivantes

À mesure que les grands modèles multimodaux acquièrent des entrées/sorties bidirectionnelles texte-vision, de nouvelles formes d’expression et d’interaction s’ouvrent
À l’avenir, les modèles ne transmettront pas seulement des réponses textuelles, mais pourront aussi communiquer des idées au moyen de diagrammes, lignes de repère, mises en évidence, et d’autres contenus visuels.

Les capacités de génération avancées serviront aussi à vérifier et améliorer la compréhension du modèle lui-même
Par exemple, il pourra démontrer et affiner sa compréhension en générant directement des résultats intermédiaires comme des cartes de segmentation ou de détection
Cette orientation de recherche continue d’être activement explorée

1 commentaires

GN⁺ 2025-06-29

Avis Hacker News

Il est dommage que Qwen n’ait pas publié les open weights. Jusqu’ici, l’un des plus grands atouts de Qwen était justement sa stratégie open weights. J’aimerais qu’il existe un véritable modèle open weights capable de rivaliser avec la génération automatique d’images de 4o. Il y a beaucoup de pistes de recherche intéressantes qui ne sont possibles qu’avec un accès direct aux poids. Si le problème est d’amortir les coûts de développement, je recommanderais de prendre exemple sur le modèle de lancement de BFL pour Flux Kontext Dev. Les poids sont publiés gratuitement pour les chercheurs et les particuliers, tandis que les startups peuvent acheter une licence commerciale à un prix raisonnable
- Les images de Qwen montrent clairement qu’elles ont été entraînées sur des résultats d’OpenAI. Rien qu’à voir cette dominante orangée dans les images, on le remarque (exemple 1, exemple 2, exemple 3). Je me demande même s’ils ont essayé de constituer leurs propres données. Au final, ils suivent simplement OAI tout en cachant le tout derrière une API. C’est non seulement fermé comme OAI, mais aussi moins performant. Cette stratégie me paraît difficile à comprendre
- Si l’on met en avant les open weights tout en proposant des poids séparés pour les chercheurs et particuliers, et en demandant aux startups d’acheter une licence commerciale, cela donne l’impression d’être assez loin de véritables open weights. Comme pour l’« open source », il faut la liberté de l’utiliser comme on veut pour que cela ait un vrai sens. Sinon, le mot « open » risque de perdre sa signification
- Je ne pense pas qu’on puisse récupérer des dizaines de millions de dollars d’investissement, les coûts GPU et les salaires des ingénieurs uniquement avec la facturation de la génération d’images
- On a l’impression que l’ère des open weights venus de Chine s’est soudainement terminée. Alibaba a cessé de publier Qwen, Tencent a arrêté de publier Hunyuan, et Bytedance a fermé Seedream. L’entraînement sur des modèles occidentaux reste manifestement la norme. Je pense au contraire qu’une stratégie 100 % ouverte, puis monétisée via l’infrastructure et les services, serait plus intelligente
L’image est compressée en 256 tokens avant d’être transmise au modèle de langage. Par exemple, si on demande d’ajouter un chapeau, il redessine tout le visage. Les objets individuels ne sont pas stockés séparément, et même le personnage de l’ours n’existe que de façon temporaire. Tout est stocké dans un seul espace latent fusionné, puis rééchantillonné sous de nouvelles conditions. Il suffit de modifier légèrement le prompt pour que l’image entière change. Autrement dit, il recrée la scène à chaque fois, ce qui me semble bien adapté à divers usages
- Dans Flux Kontext, j’apprécie le fait que les détails soient mieux préservés, un peu comme avec un modèle multimodal. Avec GPT-Image-1, c’est correct pour des changements de style globaux comme « le faire en style Ghibli », mais pour des modifications fines comme ajouter des lunettes à une image photoréaliste, il préserve mal les détails
En regardant l’exemple d’édition de l’image de l’ours, j’ai remarqué que davantage d’éléments changeaient que ce qui était demandé. J’avais demandé de ne changer que l’arrière-plan, mais l’ours a aussi été fortement modifié ; et quand j’ai demandé de transformer l’ours en ballon, il y a eu aussi des changements absurdes comme la disparition des pavés de trottoir ou des pépins de pastèque. Je me demande si c’est un problème qu’on peut résoudre avec de meilleurs prompts, ou si c’est une limite de l’architecture du modèle
- Les deux. Une optimisation du prompt peut améliorer un peu les résultats, mais la cause fondamentale vient des limites de l’architecture et de la méthode d’entraînement, autrement dit des limites de l’architecture et de la méthodologie
J’ai essayé une image de pélican à vélo, et j’ai aussi généré une image d’accordéon. Le modèle reste faible sur les détails, par exemple les doigts ou le noir des touches sont mal rendus. La vitesse de génération est assez rapide lien d’exemple
- Il semble avoir raté le point essentiel du test de Simon, à savoir le format SVG. L’image du pélican à vélo est une tâche facilement résolue depuis Stable Diffusion 2/3. La difficulté vient du fait qu’il faut du raisonnement logique et de la précision en SVG, pas dans une image pixelisée
Dans les exemples de modifications d’image comme l’édition ou le transfert de style, j’ai remarqué une légère teinte jaune. On la voit aussi dans GPT Image 1, mais pas dans Flux Kontext. Je me demande pourquoi
Toutes les images donnent une impression d’uncanny valley. Les couleurs et les ombres paraissent toutes maladroites
- Les résultats paraissent globalement grossiers. En dehors de la recherche, j’ai du mal à imaginer des cas d’usage réels pour ce type d’images
En tant que chercheur en machine learning et diplômé en physique, j’ai du mal avec l’usage de mots comme « comprendre » ou « expliquer » pour ce genre de modèles. En pratique, cela n’aide pas et ajoute plutôt de la confusion. En physique, on utilise les mathématiques pour leur précision, et le code aussi est extrêmement spécifique. Dans la vie, nous sommes influencés par d’innombrables détails, mais les modèles ne parviennent pas à capturer ce type de subtilité. J’aimerais vraiment que les gens lisent "Relativity of Wrong" d’Asimov (lien). Si l’on veut vraiment dire qu’un modèle a « compris », il doit produire des résultats inédits, comme de la découverte, de l’inférence ou une redéfinition de concepts. Les humains pratiquent naturellement la pensée contrefactuelle (lien), ce qui n’est pas le cas des modèles de ML modernes. Les erreurs sur le nombre de doigts dans l’image de l’OP, ou sur la disposition des touches du clavier, en sont des exemples typiques. À première vue, cela semble plausible, mais plus on regarde, plus l’étrangeté apparaît : un cas classique d’uncanny valley
- Quand on est dans une logique de création concrète, ce genre de débat peut sembler fatigant. Le simple fait d’avoir expliqué de manière accessible les notions d’entrée et de sortie a déjà de la valeur. En lisant la documentation de sortie, on comprend que Qwen jouait au départ le rôle de VLM pour la « compréhension / identification / perception », et qu’il a désormais étendu ses capacités à la « génération / description / dessin ». Il n’y a pas besoin d’en faire davantage une crise ou d’y projeter un sens excessif
Je me demande comment désactiver la lecture vocale automatique. J’aimerais qu’en arrivant sur le site, il reste simplement en attente et ne fonctionne que lorsque j’interagis moi-même. Sur Firefox, la vidéo est passée en lecture automatique en plein écran puis la lecture a commencé d’un coup (sur iOS)
- Réglages > paramètres du site > bloquer la lecture automatique audio et vidéo. Cette fonction est disponible sur Firefox Android. Des options similaires existent aussi sur iOS et sur desktop, et il est également possible de bloquer complètement les demandes d’autorisation de notifications
Je me demande s’il existe un rapport technique sur l’architecture de génération d’images de type 4o. J’aimerais aussi en savoir plus en détail sur d’autres modèles qui génèrent des images de manière similaire
Personnellement, je pense que le machine learning a beaucoup plus progressé du côté de la « description » que de la « compréhension »
- Je me demande sur quoi repose l’idée que les humains comprennent mieux le monde. Les humains ont beaucoup de réactions émotionnelles face au monde, mais l’émotion en soi n’apporte pas la compréhension. Même le mot « comprendre » repose au fond sur un critère très subjectif