10 points par GN⁺ 2026-02-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Modèle de génération d’images de nouvelle génération, il met en œuvre une architecture unifiée intégrant génération et édition de texte et d’images
  • Prend en charge des instructions de 1k tokens, permettant de générer directement des infographies complexes comme des PPT, des posters ou des bandes dessinées
  • Réalise à la fois des descriptions réalistes détaillées en résolution 2K et un rendu de texte précis
  • Grâce à un allègement du modèle, il accélère l’inférence et obtient d’excellentes performances sur les benchmarks texte-vers-image et image-vers-image
  • Avec cinq caractéristiques clés — précision (准), complexité (多), esthétique (美), réalisme (真) et alignement (齐) — il maximise l’efficacité de la production de contenus visuels professionnels

Aperçu de Qwen-Image-2.0

  • Qwen-Image-2.0 est un modèle fondation de génération d’images de nouvelle génération qui adopte une architecture unifiée intégrant le rendu de texte et l’édition d’images
    • Il traite des instructions de 1k tokens pour générer directement des infographies professionnelles comme des PPT, des posters ou des bandes dessinées
    • Il représente des scènes réalistes détaillées — portraits, nature, architecture, etc. — en résolution 2K
    • Grâce à l’intégration de la compréhension et de la génération de texte, il effectue génération et édition d’images dans un seul mode
    • Son architecture de modèle allégée assure une vitesse d’inférence rapide
  • Lors des tests à l’aveugle d’AI Arena, il a affiché d’excellentes performances à la fois sur les tâches texte-vers-image et image-vers-image

Évolution du modèle

  • La série Qwen-Image a progressé en parallèle sur une branche génération et une branche édition
    • En août 2025, Qwen-Image a renforcé la précision du rendu de texte
    • En décembre 2025, Qwen-Image-2512 a amélioré le niveau de détail et le photoréalisme
    • Côté édition, l’évolution est allée de l’édition d’image unique (août) à l’édition multi-images (septembre), puis à l’amélioration de la cohérence (décembre)
  • Qwen-Image-2.0 fusionne ces deux branches en un modèle unifié, obtenant d’excellents résultats à la fois en génération et en édition

Précision (准) et complexité (多)

  • Le modèle reproduit avec précision des compositions complexes de type “image dans l’image”, améliorant l’efficacité de création de PPT
    • Par exemple, il génère une scène composite avec deux images d’une même personne disposées verticalement tout en conservant la cohérence visuelle
  • Avec des instructions de 1k tokens, il rend intégralement des infographies à structure multiniveau, comme un rapport d’A/B testing
    • Il peut produire des visuels de niveau rapport professionnel intégrant tableaux, graphiques, chiffres, annotations et autres éléments complexes
  • En exploitant les connaissances du monde d’un LLM, il peut étendre automatiquement une requête simple en prompt de description détaillé
    • Exemple : une demande de « poster de voyage de deux jours à Hangzhou » peut être transformée en une composition détaillée de style, d’arrière-plan et de texte

Esthétique (美)

  • Il réalise une harmonie formelle entre texte et image
    • Il reproduit fidèlement le style traditionnel chinois de calligraphie et peinture dans des compositions unifiées
    • Il exprime avec précision diverses typographies (par ex. 瘦金体, Sojache)
  • Par exemple, il peut reproduire presque parfaitement en Sojache une peinture à l’encre avec poésie de l’époque Song ou le « 兰亭序 » de Wang Xizhi

Réalisme (真)

  • Il renforce l’impression de réel grâce à une représentation précise des reflets optiques, matériaux et perspectives
    • Par exemple, il rend correctement du texte sur des matériaux variés comme un tableau blanc en verre, des vêtements ou une couverture de magazine
  • Il réalise une intégration du niveau d’un poster de film entre éclairage, texture et matériaux
    • Par exemple, dans le poster de « 千灯问心 », le métal, la pluie et les textures textiles fusionnent naturellement

Alignement (齐)

  • Il ajuste automatiquement l’alignement et la mise en page dans des structures à textes multiples comme les calendriers, bandes dessinées et infographies
    • Par exemple, dans un calendrier de février 2026, il aligne correctement dans la grille les dates, le calendrier lunaire et les annotations
    • Il centre le texte dans les bulles de dialogue d’une bande dessinée pour créer un flux de conversation naturel
    • Dans une infographie OKR, il aligne automatiquement les blocs de texte et les flèches, et les distingue par couleur

Renforcement du photoréalisme

  • Il distingue plus de 23 nuances de vert pour exprimer le réalisme écologique d’une forêt estivale
    • Il décrit finement jusqu’à la texture des feuilles, les reflets, l’humidité et les particules dans l’air
  • Il reproduit avec précision la musculature, les expressions et les textures des humains et des animaux
    • Par exemple, dans une scène où un cheval piétine une personne, il rend jusqu’à la tension musculaire, la texture de la peau et les particules de poussière

Fonctionnalités d’édition d’images

  • En tant que modèle Omni intégrant génération et édition, les améliorations du volet génération se répercutent directement sur l’édition
    • Il permet d’insérer des poèmes et du texte dans une image existante
    • Il peut fusionner des personnes issues de deux images en préservant la cohérence naturelle de l’éclairage et des ombres
    • Il permet aussi une édition mixte entre photo réaliste et personnage de cartoon
  • Par exemple, il fournit des résultats d’intégration naturels pour des photos composites de deux personnes ou l’insertion de personnages dans des photos urbaines

Image d’en-tête du blog « Qwen Street »

  • Sur fond de paysage de rue hivernal à Pékin, deux boutiques symbolisent les fonctions clés de Qwen-Image-2.0
    • Enseigne de la boutique de calligraphie à gauche : « 文字渲染 », avec à l’intérieur « 专业幻灯片 中英文海报 高级信息图 »
    • Enseigne du fleuriste à droite : « 真实质感 », avec l’indication « 2k resolution » au-dessus de la porte
    • Tableau tenu par le bonhomme de neige au centre : « Qwen-Image-2.0 正式发布 »
    • Dans la rue apparaît aussi un livreur portant la mention « 更小模型,更快速度 »

Conclusion

  • Qwen-Image-2.0 est un modèle unifié de génération d’images réunissant précision, complexité, esthétique, réalisme et alignement
  • Il brouille la frontière entre texte et image et améliore fortement le niveau d’automatisation de la production d’infographies professionnelles et de contenus visuels
  • Pour un usage en recherche ou en création, il est recommandé de citer Qwen-Image Technical Report (arXiv:2508.02324)

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.