- Qwen-Image est un modèle de génération d’images MMDiT à 20B paramètres avec un avantage en rendus de texte natif et en édition d’images de haute précision.
- Il atteint une grande précision et une excellente complétude visuelle pour la représentation de caractères complexes dans diverses langues, notamment les alphabets et les caractères chinois.
- Sur des benchmarks publics (GenEval, DPG, OneIG-Bench etc.), il atteint les meilleures performances de sa catégorie, avec aussi de fortes capacités de génération de texte.
- Les démos réelles montrent une implémentation précise de mises en page complexes et de styles variés, dont le multilingue, les posters, les PPT et les illustrations.
- Il prend en charge des fonctionnalités d’édition comme transformation de style, ajout/suppression d’objets, description détaillée, changement de pose, et adopte une approche ouverte pour l’expansion de l’écosystème open source.
Présentation et caractéristiques principales
- Qwen-Image est un modèle de base de génération d’images MMDiT basé sur 20B paramètres spécialisé dans le rendu de texte complexe et l’édition d’’image de haute précision.
- Le modèle le plus récent peut être testé sur Qwen Chat.
Principales fonctionnalités
- Rendu de texte supérieur : prise en charge des mises en page multi-lignes, compréhension du sens au niveau du paragraphe, expression fine
- Prise en charge à haute fidélité de systèmes alphabétiques et logographiques, comme l’anglais et le chinois
- Édition d’images cohérente : grâce à un entraînement multitâche amélioré, la précision sémantique et le réalisme visuel sont tous deux préservés
- Performances de benchmark solides : sur divers benchmarks publics, les tâches de génération et d’édition atteignent les meilleures performances de leur catégorie
- Dans la génération et l’édition de texte, d’excellents résultats sont obtenus sur LongText-Bench, ChineseWord, TextCraft, etc.
- Utilisable de manière large pour la création, le design, le storytelling et d’autres usages créatifs
Performance et benchmarks
- Qwen-Image atteint des performances SOTA (state-of-the-art, dernier cri) sur les benchmarks GenEval, DPG, OneIG-Bench (génération d’images générales), GEdit, ImgEdit, GSO (édition), etc.
- Il dépasse nettement les meilleurs modèles existants, en particulier en génération de texte chinois.
- En combinant des capacités générales larges avec un rendu de texte précis, il s’impose comme un modèle de génération d’images de référence.
Exemples de démo
Expression de texte en chinois
- À partir de prompts d’exemple, il représente avec précision des styles à la fois de type Miyazaki Animation et des termes chinois réels comme “云存储”, “云计算”, “云模型”, ainsi que des sinogrammes inhabituels tels que “千问”.
- Les poses et expressions des personnages, ainsi que la profondeur de scène, sont également rendues de manière naturelle.
Représentation parallèle de caractères chinois complexes
- Représentation minutieuse de détails raffinés comme les couplets poétiques, la calligraphie cursive et le style Qinghua.
- La police, la mise en page et les illustrations (ex. : 岳阳楼) sont reproduites avec un réalisme très proche du réel.
Texte anglais et multiligne
- Les textes sont précisément intégrés à plusieurs emplacements, comme les rayons d’une librairie, des panneaux d’information et des posters.
- Du message “New Arrivals This Week” aux courtes phrases de couvertures de livres, la génération restitue des polices et des mises en page réalistes.
Infographie anglaise complexe
- Les icônes, titres et paragraphes explicatifs sont séparés puis positionnés avec précision pour chaque sous-module.
- Un infographique complexe centré sur “Habits for Emotional Wellbeing” est finalisé avec un artwork naturel et une composition équilibrée.
Texte petit ou long
- Les textes manuscrits longs sont rendus de manière détaillée, même dans une zone représentant moins d’un dixième de l’image.
- De nombreux paragraphes sont aussi reproduits avec précision, y compris l’écriture manuscrite, la mise en page et les sauts de ligne.
Mélange multilingue
- Réalisation manuscrite simultanée de l’anglais et du chinois dans une seule image.
- La génération de texte s’adapte naturellement selon le changement de langue dans le prompt.
Création de posters
- Les éléments texte/visuel d’un poster de film (sous-titre secondaire, casting, réalisateur, informations de lancement, etc.) peuvent être combinés librement dans divers styles, tels que le Sci-Fi ou le graphic design.
Exemple de PPT en coréen
- Génération cohérente d’un style PPT IA/entreprise moderne (logo Alibaba, titre principal, sous-titre, placement d’images artistiques, police calligraphique, descriptions détaillées, etc.).
Génération d’images et édition générale
- Prise en charge de nombreux styles artistiques (photoréaliste, impressionniste, anime, minimaliste), offrant une grande polyvalence créative.
- Support de diverses commandes d’édition d’image en conditions réelles : transformation de style, ajout/suppression d’objets, amélioration des détails, édition de texte, ajustement de la pose humaine, etc.
Conclusion
- Qwen-Image vise à élargir les horizons de la génération d’images, à abaisser la barrière technique de la création de contenu visuel et à promouvoir des usages créatifs.
- Il met l’accent sur la collaboration communautaire, l’ouverture et la construction d’un écosystème d’IA générative durable.
- Il prévoit d’améliorer les fonctionnalités et d’élargir l’écosystème ouvert en intégrant les cas d’usage et les retours des utilisateurs réels.
Aucun commentaire pour le moment.