- Modèle de génération d’images de nouvelle génération, il met en œuvre une architecture unifiée intégrant génération et édition de texte et d’images
- Prend en charge des instructions de 1k tokens, permettant de générer directement des infographies complexes comme des PPT, des posters ou des bandes dessinées
- Réalise à la fois des descriptions réalistes détaillées en résolution 2K et un rendu de texte précis
- Grâce à un allègement du modèle, il accélère l’inférence et obtient d’excellentes performances sur les benchmarks texte-vers-image et image-vers-image
- Avec cinq caractéristiques clés — précision (准), complexité (多), esthétique (美), réalisme (真) et alignement (齐) — il maximise l’efficacité de la production de contenus visuels professionnels
Aperçu de Qwen-Image-2.0
- Qwen-Image-2.0 est un modèle fondation de génération d’images de nouvelle génération qui adopte une architecture unifiée intégrant le rendu de texte et l’édition d’images
- Il traite des instructions de 1k tokens pour générer directement des infographies professionnelles comme des PPT, des posters ou des bandes dessinées
- Il représente des scènes réalistes détaillées — portraits, nature, architecture, etc. — en résolution 2K
- Grâce à l’intégration de la compréhension et de la génération de texte, il effectue génération et édition d’images dans un seul mode
- Son architecture de modèle allégée assure une vitesse d’inférence rapide
- Lors des tests à l’aveugle d’AI Arena, il a affiché d’excellentes performances à la fois sur les tâches texte-vers-image et image-vers-image
Évolution du modèle
- La série Qwen-Image a progressé en parallèle sur une branche génération et une branche édition
- En août 2025, Qwen-Image a renforcé la précision du rendu de texte
- En décembre 2025, Qwen-Image-2512 a amélioré le niveau de détail et le photoréalisme
- Côté édition, l’évolution est allée de l’édition d’image unique (août) à l’édition multi-images (septembre), puis à l’amélioration de la cohérence (décembre)
- Qwen-Image-2.0 fusionne ces deux branches en un modèle unifié, obtenant d’excellents résultats à la fois en génération et en édition
Précision (准) et complexité (多)
- Le modèle reproduit avec précision des compositions complexes de type “image dans l’image”, améliorant l’efficacité de création de PPT
- Par exemple, il génère une scène composite avec deux images d’une même personne disposées verticalement tout en conservant la cohérence visuelle
- Avec des instructions de 1k tokens, il rend intégralement des infographies à structure multiniveau, comme un rapport d’A/B testing
- Il peut produire des visuels de niveau rapport professionnel intégrant tableaux, graphiques, chiffres, annotations et autres éléments complexes
- En exploitant les connaissances du monde d’un LLM, il peut étendre automatiquement une requête simple en prompt de description détaillé
- Exemple : une demande de « poster de voyage de deux jours à Hangzhou » peut être transformée en une composition détaillée de style, d’arrière-plan et de texte
Esthétique (美)
- Il réalise une harmonie formelle entre texte et image
- Il reproduit fidèlement le style traditionnel chinois de calligraphie et peinture dans des compositions unifiées
- Il exprime avec précision diverses typographies (par ex. 瘦金体, Sojache)
- Par exemple, il peut reproduire presque parfaitement en Sojache une peinture à l’encre avec poésie de l’époque Song ou le « 兰亭序 » de Wang Xizhi
Réalisme (真)
- Il renforce l’impression de réel grâce à une représentation précise des reflets optiques, matériaux et perspectives
- Par exemple, il rend correctement du texte sur des matériaux variés comme un tableau blanc en verre, des vêtements ou une couverture de magazine
- Il réalise une intégration du niveau d’un poster de film entre éclairage, texture et matériaux
- Par exemple, dans le poster de « 千灯问心 », le métal, la pluie et les textures textiles fusionnent naturellement
Alignement (齐)
- Il ajuste automatiquement l’alignement et la mise en page dans des structures à textes multiples comme les calendriers, bandes dessinées et infographies
- Par exemple, dans un calendrier de février 2026, il aligne correctement dans la grille les dates, le calendrier lunaire et les annotations
- Il centre le texte dans les bulles de dialogue d’une bande dessinée pour créer un flux de conversation naturel
- Dans une infographie OKR, il aligne automatiquement les blocs de texte et les flèches, et les distingue par couleur
Renforcement du photoréalisme
- Il distingue plus de 23 nuances de vert pour exprimer le réalisme écologique d’une forêt estivale
- Il décrit finement jusqu’à la texture des feuilles, les reflets, l’humidité et les particules dans l’air
- Il reproduit avec précision la musculature, les expressions et les textures des humains et des animaux
- Par exemple, dans une scène où un cheval piétine une personne, il rend jusqu’à la tension musculaire, la texture de la peau et les particules de poussière
Fonctionnalités d’édition d’images
- En tant que modèle Omni intégrant génération et édition, les améliorations du volet génération se répercutent directement sur l’édition
- Il permet d’insérer des poèmes et du texte dans une image existante
- Il peut fusionner des personnes issues de deux images en préservant la cohérence naturelle de l’éclairage et des ombres
- Il permet aussi une édition mixte entre photo réaliste et personnage de cartoon
- Par exemple, il fournit des résultats d’intégration naturels pour des photos composites de deux personnes ou l’insertion de personnages dans des photos urbaines
Image d’en-tête du blog « Qwen Street »
- Sur fond de paysage de rue hivernal à Pékin, deux boutiques symbolisent les fonctions clés de Qwen-Image-2.0
- Enseigne de la boutique de calligraphie à gauche : « 文字渲染 », avec à l’intérieur « 专业幻灯片 中英文海报 高级信息图 »
- Enseigne du fleuriste à droite : « 真实质感 », avec l’indication « 2k resolution » au-dessus de la porte
- Tableau tenu par le bonhomme de neige au centre : « Qwen-Image-2.0 正式发布 »
- Dans la rue apparaît aussi un livreur portant la mention « 更小模型,更快速度 »
Conclusion
- Qwen-Image-2.0 est un modèle unifié de génération d’images réunissant précision, complexité, esthétique, réalisme et alignement
- Il brouille la frontière entre texte et image et améliore fortement le niveau d’automatisation de la production d’infographies professionnelles et de contenus visuels
- Pour un usage en recherche ou en création, il est recommandé de citer Qwen-Image Technical Report (arXiv:2508.02324)
1 commentaires
Commentaires sur Hacker News
Ce mème vient d’un incident où le célèbre animateur chinois Kevin Tsai (蔡康永) a porté lors d’une cérémonie une tenue avec un cheval attaché dans le dos.
À l’époque, il était visé par une rumeur l’associant à un homme nommé « Ma Qiren (马启仁) », un nom qui se prononce comme « cavalier de cheval / personne montée par un cheval (马骑人) » en chinois.
L’affaire s’est propagée sur Internet et est devenue un mème, donc l’exemple « horse riding man » n’est pas totalement sorti de nulle part.
Cela dit, l’image dégage toujours une atmosphère inquiétante et étrange.
Lien vers la photo
En général, l’inverse, « une personne qui monte un cheval », est plus facile, alors que « un cheval qui monte une personne » correspond à un embedding plus difficile.
En voyant le prompt traduit, j’y ai aussi perçu une nuance satirique du type « l’année du cheval conquiert l’ingénieur blanc ».
Je n’ai pas envie de voir comment SD1.5 représenterait ça.
Autrement dit, le nom sonne comme « personne montée par un cheval », mais ce n’est pas une traduction littérale.
Article lié : Horse Rides Astronaut Redux
Par exemple, j’imagine que des entreprises américaines craindraient un retour de bâton si elles utilisaient ce type d’images dans des plannings ou des supports promotionnels.
Image d’exemple
Il arrivait à générer « un astronaute qui monte un cheval », mais échouait systématiquement pour « un cheval qui monte un astronaute ».
Ce problème a persisté sur les modèles plus récents, et l’équipe Qwen Image avait probablement en tête ce benchmark difficile.
Au fond, « astronaute = humain », donc ce test rejoint le mème chinois.
1️⃣ En se basant sur les précédents cycles de sortie, une publication en open weights d’ici 3 à 4 semaines paraît probable.
2️⃣ Ils semblent viser des modèles utilisables même sur des GPU modestes, comme Z‑Image Turbo (6B) et Flux.2 Klein (9B).
3️⃣ C’est un modèle unique qui unifie génération et édition d’images, donc pas besoin de séparer Qwen‑Image et Qwen‑Edit.
4️⃣ Dans mon GenAI Showdown, Qwen‑Image était n°1 parmi les modèles locaux pour l’édition, et aussi bien classé pour la génération.
J’ajouterai la version locale au site quand elle sortira.
Donc pour un modèle 20B, 20 Go de RAM suffisent, et à cette taille ça peut même tourner sur iGPU.
Une configuration avec 128 Go de mémoire unifiée peut se monter pour environ 2 200 dollars.
C’est bien moins cher qu’un setup avec GPU dédié.
Il utilisait son propre VAE, avec des problèmes d’artefacts haute fréquence.
Le nouveau Qwen 2 descend à 7B paramètres, donc c’est bien plus léger, et il passe à Qwen 3 VL.
Il évolue désormais vers un modèle Omni combinant Image et Edit.
Z‑Image, Klein et Qwen sont en train de se battre pour la place de « SDXL2 ».
Si les open weights sortent, ce sera vraiment passionnant.
Tous les 3 ou 4 mois, le SOTA change, et l’innovation du trimestre précédent devient un produit API.
Le goulot d’étranglement n’est plus le modèle, mais la personne qui sait manier les prompts.
On observe le même schéma avec la génération de code.
Il est composé d’une description extrêmement réaliste : steppe désolée, poussière, cheval brun écrasant un homme, etc.
L’ensemble exprime une tension primitive et un choc de forces biologiques.
Lien connexe
En revanche, comme il ne prend pas en charge la génération d’images, je me demande quels outils les gens utilisent sous Linux pour faire tourner des modèles de diffusion comme Qwen.
La communauté s’occupe de tout : quantification, conversion au format gguf, optimisation des performances.
J’utilise surtout
diffusers: c’est plus lent, mais la prise en charge des nouvelles architectures arrive vite.Site / Notes de version
Il faudrait utiliser la ponctuation verticale (par ex. ︒) pour que ça paraisse naturel.
LinkedIn en déborde.
Très peu de gens savent réellement créer ou même décrire une bonne infographie.
Pour un autre exemple, voir le fil Gas Town.
La dernière publication remontait à décembre 2025 environ.
Avec exactement le même prompt que dans le blog, ça marche bien, mais dès qu’on modifie un peu l’entrée, le nombre de cases devient incorrect ou les dialogues en anglais passent en chinois.
Donc pour l’instant, c’est encore une fonctionnalité au manque de cohérence.
Mais bon, chacun ses choix.