Qwen-Image : un modèle de génération d’images avec rendu de texte natif

(qwenlm.github.io)

1 points par GN⁺ 2025-08-05 | 1 commentaires | Partager sur WhatsApp

Qwen-Image est un modèle de génération d’images MMDiT à 20B paramètres avec un avantage en rendus de texte natif et en édition d’images de haute précision.
Il atteint une grande précision et une excellente complétude visuelle pour la représentation de caractères complexes dans diverses langues, notamment les alphabets et les caractères chinois.
Sur des benchmarks publics (GenEval, DPG, OneIG-Bench etc.), il atteint les meilleures performances de sa catégorie, avec aussi de fortes capacités de génération de texte.
Les démos réelles montrent une implémentation précise de mises en page complexes et de styles variés, dont le multilingue, les posters, les PPT et les illustrations.
Il prend en charge des fonctionnalités d’édition comme transformation de style, ajout/suppression d’objets, description détaillée, changement de pose, et adopte une approche ouverte pour l’expansion de l’écosystème open source.

Présentation et caractéristiques principales

Qwen-Image est un modèle de base de génération d’images MMDiT basé sur 20B paramètres spécialisé dans le rendu de texte complexe et l’édition d’’image de haute précision.
Le modèle le plus récent peut être testé sur Qwen Chat.

Principales fonctionnalités

Rendu de texte supérieur : prise en charge des mises en page multi-lignes, compréhension du sens au niveau du paragraphe, expression fine
- Prise en charge à haute fidélité de systèmes alphabétiques et logographiques, comme l’anglais et le chinois
Édition d’images cohérente : grâce à un entraînement multitâche amélioré, la précision sémantique et le réalisme visuel sont tous deux préservés
Performances de benchmark solides : sur divers benchmarks publics, les tâches de génération et d’édition atteignent les meilleures performances de leur catégorie
Dans la génération et l’édition de texte, d’excellents résultats sont obtenus sur LongText-Bench, ChineseWord, TextCraft, etc.
Utilisable de manière large pour la création, le design, le storytelling et d’autres usages créatifs

Performance et benchmarks

Qwen-Image atteint des performances SOTA (state-of-the-art, dernier cri) sur les benchmarks GenEval, DPG, OneIG-Bench (génération d’images générales), GEdit, ImgEdit, GSO (édition), etc.
Il dépasse nettement les meilleurs modèles existants, en particulier en génération de texte chinois.
En combinant des capacités générales larges avec un rendu de texte précis, il s’impose comme un modèle de génération d’images de référence.

Exemples de démo

Expression de texte en chinois

À partir de prompts d’exemple, il représente avec précision des styles à la fois de type Miyazaki Animation et des termes chinois réels comme “云存储”, “云计算”, “云模型”, ainsi que des sinogrammes inhabituels tels que “千问”.
Les poses et expressions des personnages, ainsi que la profondeur de scène, sont également rendues de manière naturelle.

Représentation parallèle de caractères chinois complexes

Représentation minutieuse de détails raffinés comme les couplets poétiques, la calligraphie cursive et le style Qinghua.
La police, la mise en page et les illustrations (ex. : 岳阳楼) sont reproduites avec un réalisme très proche du réel.

Texte anglais et multiligne

Les textes sont précisément intégrés à plusieurs emplacements, comme les rayons d’une librairie, des panneaux d’information et des posters.
Du message “New Arrivals This Week” aux courtes phrases de couvertures de livres, la génération restitue des polices et des mises en page réalistes.

Infographie anglaise complexe

Les icônes, titres et paragraphes explicatifs sont séparés puis positionnés avec précision pour chaque sous-module.
Un infographique complexe centré sur “Habits for Emotional Wellbeing” est finalisé avec un artwork naturel et une composition équilibrée.

Texte petit ou long

Les textes manuscrits longs sont rendus de manière détaillée, même dans une zone représentant moins d’un dixième de l’image.
De nombreux paragraphes sont aussi reproduits avec précision, y compris l’écriture manuscrite, la mise en page et les sauts de ligne.

Mélange multilingue

Réalisation manuscrite simultanée de l’anglais et du chinois dans une seule image.
La génération de texte s’adapte naturellement selon le changement de langue dans le prompt.

Création de posters

Les éléments texte/visuel d’un poster de film (sous-titre secondaire, casting, réalisateur, informations de lancement, etc.) peuvent être combinés librement dans divers styles, tels que le Sci-Fi ou le graphic design.

Exemple de PPT en coréen

Génération cohérente d’un style PPT IA/entreprise moderne (logo Alibaba, titre principal, sous-titre, placement d’images artistiques, police calligraphique, descriptions détaillées, etc.).

Génération d’images et édition générale

Prise en charge de nombreux styles artistiques (photoréaliste, impressionniste, anime, minimaliste), offrant une grande polyvalence créative.
Support de diverses commandes d’édition d’image en conditions réelles : transformation de style, ajout/suppression d’objets, amélioration des détails, édition de texte, ajustement de la pose humaine, etc.

Conclusion

Qwen-Image vise à élargir les horizons de la génération d’images, à abaisser la barrière technique de la création de contenu visuel et à promouvoir des usages créatifs.
Il met l’accent sur la collaboration communautaire, l’ouverture et la construction d’un écosystème d’IA générative durable.
Il prévoit d’améliorer les fonctionnalités et d’élargir l’écosystème ouvert en intégrant les cas d’usage et les retours des utilisateurs réels.

1 commentaires

GN⁺ 2025-08-05

Avis de Hacker News

Je ne comprends pas pourquoi cela ne suscite pas plus d’attention — ce n’est pas seulement le premier modèle open source qui surpasse gpt-image-1 sur tous les plans, c’est aussi un modèle qui va plus loin que Flux Kontext côté édition. C’est énorme.
- J’ai joué avec ce modèle pendant un peu plus d’une heure. Globalement, il est vraiment très bon, mais selon mes premiers tests, il est clairement moins bon que gpt-image-1 (ou Imagen 3/4) sur une conformité aux prompts assez complexe. J’ai eu un taux de réussite d’environ ~50 %, contre ~75 % pour gpt-image-1. Il n’a pas réussi des cas comme un labyrinthe ou l’équation de Schrödinger, par exemple. J’ai testé ça sur le site GenAI Showdown.
- D’après leurs pages seulement, ce n’est pas certain, mais le modèle d’édition ne semble pas encore officiellement publié. Voir le commentaire de l’issue GitHub pour référence.
- Selon moi, il peut clairement faire bien plus que gpt-image-1 : transfert de style, ajout/suppression d’objets, édition de texte, manipulation de la pose des personnes, mais aussi détection d’objets, segmentation sémantique, estimation de profondeur et de contours, super-résolution, et NVS (new view synthesis), c’est-à-dire générer des images d’un nouvel angle à partir d’une image de base. C’est vraiment un feu d’artifice de fonctionnalités. D’après les premiers résultats, gpt-image-1 semble légèrement supérieur en netteté et en définition. Honnêtement, je me demande si OpenAI ne serait pas en train d’appliquer un simple masque de netteté en post-traitement. Certaines zones floues présentent aussi une netteté uniformément étrange, et parfois ça paraît excessif. Malgré tout, globalement ce modèle semble pratiquement au même niveau. Je pensais que la technique de génération d’images propre à OpenAI conserverait l’avantage cette année, et c’est impressionnant. Au passage, Flux Kontext n’a été annoncé que 4 jours plus tôt ! Si ce modèle a une qualité réellement proche de gpt-image-1, cela représente un changement énorme.
- De ce que je sais, le fait qu’il nécessite 40 Go de VRAM semble refroidir un peu l’enthousiasme. À noter que, pour les modèles LLM, les techniques de déploiement distribué sur plusieurs GPU sont déjà bien matures, mais je ne comprends pas pourquoi le développement est encore lent ici pour les modèles d’images, même avec le format GGUF. Plus les modèles d’images grandissent, plus on devrait implémenter d’exécutions distribuées.
- Il n’a pas même fallu quelques heures et les démos continuent de planter, donc je pense qu’il faudra un peu plus de temps pour que les gens puissent les tester sérieusement. L’apparition de GGUF quantifié et de workflows Comfy variés sera un facteur clé, car la plupart des utilisateurs voudront probablement l’exécuter en local. La taille reste toutefois assez grande par rapport aux autres modèles. Curieusement, la comparaison la plus grande se fait ici plutôt entre acteurs d’Alibaba que vis-à-vis de Flux. Par exemple, Wan 2.2 est déjà extrêmement populaire pour la génération d’images, donc je me demande surtout de combien Qwen-Image progresse par rapport à Wan 2.2. Le moment d’évaluation réelle d’un nouveau modèle d’image est généralement environ une semaine après le lancement : à ce moment-là, beaucoup d’utilisateurs testent eux-mêmes, et les points forts/faibles du point de vue tiers sont consolidés. Les attentes pour ce modèle restent élevées.
C’est une bonne release ! Je l’ai ajoutée sur le site GenAI Showdown. Globalement, il s’agit d’un modèle assez bon avec un score d’environ 40 %, et surtout d’un modèle SOTA pouvant être exécuté sur des GPU grand public (encore plus encore avec une version quantifiée). Mais, comme indiqué dans ce thread, il est de fait très en dessous d’OpenAI gpt-image-1 pour suivre précisément les prompts txt2img. En revanche, comme cela est mentionné dans ce fil, ce modèle a l’avantage de pouvoir faire diverses tâches, notamment l’édition. On peut aussi le voir sur genai showdown.
- À noter, Imagen 3 et Imagen 4 sont bien des modèles distincts, donc les comparer entre eux n’est pas approprié.
Même pour ceux qui font souvent ce type d’opérations, la question peut sembler évidente : quelle configuration matérielle permet d’exécuter ce modèle ? Je l’ai testé sur une machine Linux avec un GPU de 16 Go et 64 Go de RAM. Sur ce PC, SD fonctionne sans problème. Pourtant, que ce soit en GPU ou en CPU, Qwen-Image affiche une erreur de mémoire insuffisante. Je me demande si c’est vraiment trop peu, si le double suffirait, s’il faut en multiplier par plusieurs dizaines, ou s’il faut réellement un matériel dément.
- Cela peut sembler évident pour les habitués, mais en réalité ce n’est pas si évident. Le calcul de la consommation VRAM d’un VLM/LLM relève presque de la magie. Il existe une dizaine de calculateurs en ligne, mais aucun ne donne de bons résultats. La quantification, le KV caching, les activations, les couches, etc. sont autant de variables qui interviennent. C’est une partie très pénible. Bref, pour ce modèle, il faut plus de 40 Go de VRAM. La RAM système classique est insuffisante (sauf peut-être sur Apple Silicon avec RAM unifiée). Même sur Apple Silicon, la bande passante mémoire est faible, donc la vitesse d’inférence est bien plus lente que sur GPU/TPU.
- Il faut probablement compter une taille proche de celle du fichier modèle. Dans le dossier transformers, il y a à peu près 9 fichiers de 5 Go, donc on peut considérer qu’il faut environ 45 Go de VRAM sur GPU. On peut s’attendre à ce que la version légère quantifiée (avec perte de qualité acceptée) sorte bientôt.
- Qwen-Image nécessite au moins 24 Go de VRAM en version complète. Mais une version quantifiée 4 bits peut tourner avec environ 8 Go de VRAM via des bibliothèques comme AutoGPTQ.
- Je pense qu’il faudra attendre quelques jours pour la sortie de la version quantifiée 4 bits. Le nombre de paramètres est de 20B.
- En inférence de production, ça tourne bien sur 1xH100.
Contrairement à d’autres modèles de génération d’images, c’est étonnant que ça ne change pas tout l’image inutilement, contrairement à 4o image gen. Avec 4o, quand on essaie de modifier uniquement les vêtements, le visage peut aussi changer, alors que ce modèle semble ajouter les artefacts IA artificiels nécessaires uniquement là où l’édition est requise.
- C’est précisément pour cela que Flux Kontext a été aussi viral — offrir la puissance du inpainting img2img sans avoir besoin de masquer manuellement était révolutionnaire. Voir le blog sur l’édition pour référence.
- Même avec 4o, si vous sélectionnez uniquement la zone à éditer, le reste peut rester inchangé.
Les modèles open source chinois récents deviennent incroyablement bons en ce moment. Chaque fois que j’entends ces actualités, c’est vraiment plein d’espoir.
Quelqu’un sait-il comment l’entraînement du rendu de texte se fait réellement sur ce type de modèle ? Tous les modèles que j’ai testés (OpenAI, Flux inclus) ont le même problème : le texte n’est pas naturel et les ombres/réflexions dans l’image ne sont pas cohérentes par rapport à l’image d’origine. J’imagine qu’ils utilisent peut-être la même astuce.
- C’est expliqué page 14 du rapport technique. Il indique qu’ils créent des données synthétiques en incrustant du texte sur l’image. On dirait qu’ils ont entraîné le modèle en écrasant le texte sans tenir compte des conditions d’éclairage d’origine. Garbage in, garbage out. J’espère qu’à l’avenir, une méthode de composition de texte plus réaliste arrivera, et qu’entraîné ainsi, elle permettra de créer des modèles qui rendront le texte plus naturel.
Consultez aussi la section 3.2 du Data Filtering du papier. Voir le PDF original.
- Le point intéressant est qu’il n’y a ni mention ni exemple de langues autres que l’anglais et le chinois.
Je me demande quelle est la spécification minimale de carte graphique pour obtenir des résultats raisonnables en auto-hébergeant ce modèle.
La conversation est courte.
Je me demande à quel point la censure est forte.
- À chaque sortie d’un nouveau modèle, c’est ce que la communauté veut le plus savoir, et en réalité aucune organisation ne veut affronter le constat inconfortable de la nature humaine. En même temps, la société et les entreprises américaines semblent marquées par une pruderie et une retenue singulières.

Qwen-Image : un modèle de génération d’images avec rendu de texte natif

Présentation et caractéristiques principales

Principales fonctionnalités

Performance et benchmarks

Exemples de démo

Expression de texte en chinois

Représentation parallèle de caractères chinois complexes

Texte anglais et multiligne

Infographie anglaise complexe

Texte petit ou long

Mélange multilingue

Création de posters

Exemple de PPT en coréen

Génération d’images et édition générale

Conclusion

À lire aussi

1 commentaires

Avis de Hacker News