1 points par GN⁺ 2025-08-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Qwen-Image est un modèle de génération d’images MMDiT à 20B paramètres avec un avantage en rendus de texte natif et en édition d’images de haute précision.
  • Il atteint une grande précision et une excellente complétude visuelle pour la représentation de caractères complexes dans diverses langues, notamment les alphabets et les caractères chinois.
  • Sur des benchmarks publics (GenEval, DPG, OneIG-Bench etc.), il atteint les meilleures performances de sa catégorie, avec aussi de fortes capacités de génération de texte.
  • Les démos réelles montrent une implémentation précise de mises en page complexes et de styles variés, dont le multilingue, les posters, les PPT et les illustrations.
  • Il prend en charge des fonctionnalités d’édition comme transformation de style, ajout/suppression d’objets, description détaillée, changement de pose, et adopte une approche ouverte pour l’expansion de l’écosystème open source.

Présentation et caractéristiques principales

  • Qwen-Image est un modèle de base de génération d’images MMDiT basé sur 20B paramètres spécialisé dans le rendu de texte complexe et l’édition d’’image de haute précision.
  • Le modèle le plus récent peut être testé sur Qwen Chat.

Principales fonctionnalités

  • Rendu de texte supérieur : prise en charge des mises en page multi-lignes, compréhension du sens au niveau du paragraphe, expression fine
    • Prise en charge à haute fidélité de systèmes alphabétiques et logographiques, comme l’anglais et le chinois
  • Édition d’images cohérente : grâce à un entraînement multitâche amélioré, la précision sémantique et le réalisme visuel sont tous deux préservés
  • Performances de benchmark solides : sur divers benchmarks publics, les tâches de génération et d’édition atteignent les meilleures performances de leur catégorie
  • Dans la génération et l’édition de texte, d’excellents résultats sont obtenus sur LongText-Bench, ChineseWord, TextCraft, etc.
  • Utilisable de manière large pour la création, le design, le storytelling et d’autres usages créatifs

Performance et benchmarks

  • Qwen-Image atteint des performances SOTA (state-of-the-art, dernier cri) sur les benchmarks GenEval, DPG, OneIG-Bench (génération d’images générales), GEdit, ImgEdit, GSO (édition), etc.
  • Il dépasse nettement les meilleurs modèles existants, en particulier en génération de texte chinois.
  • En combinant des capacités générales larges avec un rendu de texte précis, il s’impose comme un modèle de génération d’images de référence.

Exemples de démo

Expression de texte en chinois

  • À partir de prompts d’exemple, il représente avec précision des styles à la fois de type Miyazaki Animation et des termes chinois réels comme “云存储”, “云计算”, “云模型”, ainsi que des sinogrammes inhabituels tels que “千问”.
  • Les poses et expressions des personnages, ainsi que la profondeur de scène, sont également rendues de manière naturelle.

Représentation parallèle de caractères chinois complexes

  • Représentation minutieuse de détails raffinés comme les couplets poétiques, la calligraphie cursive et le style Qinghua.
  • La police, la mise en page et les illustrations (ex. : 岳阳楼) sont reproduites avec un réalisme très proche du réel.

Texte anglais et multiligne

  • Les textes sont précisément intégrés à plusieurs emplacements, comme les rayons d’une librairie, des panneaux d’information et des posters.
  • Du message “New Arrivals This Week” aux courtes phrases de couvertures de livres, la génération restitue des polices et des mises en page réalistes.

Infographie anglaise complexe

  • Les icônes, titres et paragraphes explicatifs sont séparés puis positionnés avec précision pour chaque sous-module.
  • Un infographique complexe centré sur “Habits for Emotional Wellbeing” est finalisé avec un artwork naturel et une composition équilibrée.

Texte petit ou long

  • Les textes manuscrits longs sont rendus de manière détaillée, même dans une zone représentant moins d’un dixième de l’image.
  • De nombreux paragraphes sont aussi reproduits avec précision, y compris l’écriture manuscrite, la mise en page et les sauts de ligne.

Mélange multilingue

  • Réalisation manuscrite simultanée de l’anglais et du chinois dans une seule image.
  • La génération de texte s’adapte naturellement selon le changement de langue dans le prompt.

Création de posters

  • Les éléments texte/visuel d’un poster de film (sous-titre secondaire, casting, réalisateur, informations de lancement, etc.) peuvent être combinés librement dans divers styles, tels que le Sci-Fi ou le graphic design.

Exemple de PPT en coréen

  • Génération cohérente d’un style PPT IA/entreprise moderne (logo Alibaba, titre principal, sous-titre, placement d’images artistiques, police calligraphique, descriptions détaillées, etc.).

Génération d’images et édition générale

  • Prise en charge de nombreux styles artistiques (photoréaliste, impressionniste, anime, minimaliste), offrant une grande polyvalence créative.
  • Support de diverses commandes d’édition d’image en conditions réelles : transformation de style, ajout/suppression d’objets, amélioration des détails, édition de texte, ajustement de la pose humaine, etc.

Conclusion

  • Qwen-Image vise à élargir les horizons de la génération d’images, à abaisser la barrière technique de la création de contenu visuel et à promouvoir des usages créatifs.
  • Il met l’accent sur la collaboration communautaire, l’ouverture et la construction d’un écosystème d’IA générative durable.
  • Il prévoit d’améliorer les fonctionnalités et d’élargir l’écosystème ouvert en intégrant les cas d’usage et les retours des utilisateurs réels.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.