Qwen-Image-2.0 : infographies de niveau expert, photoréalisme sophistiqué

(qwen.ai)

10 points par GN⁺ 2026-02-11 | 1 commentaires | Partager sur WhatsApp

Modèle de génération d’images de nouvelle génération, il met en œuvre une architecture unifiée intégrant génération et édition de texte et d’images
Prend en charge des instructions de 1k tokens, permettant de générer directement des infographies complexes comme des PPT, des posters ou des bandes dessinées
Réalise à la fois des descriptions réalistes détaillées en résolution 2K et un rendu de texte précis
Grâce à un allègement du modèle, il accélère l’inférence et obtient d’excellentes performances sur les benchmarks texte-vers-image et image-vers-image
Avec cinq caractéristiques clés — précision (准), complexité (多), esthétique (美), réalisme (真) et alignement (齐) — il maximise l’efficacité de la production de contenus visuels professionnels

Aperçu de Qwen-Image-2.0

Qwen-Image-2.0 est un modèle fondation de génération d’images de nouvelle génération qui adopte une architecture unifiée intégrant le rendu de texte et l’édition d’images
- Il traite des instructions de 1k tokens pour générer directement des infographies professionnelles comme des PPT, des posters ou des bandes dessinées
- Il représente des scènes réalistes détaillées — portraits, nature, architecture, etc. — en résolution 2K
- Grâce à l’intégration de la compréhension et de la génération de texte, il effectue génération et édition d’images dans un seul mode
- Son architecture de modèle allégée assure une vitesse d’inférence rapide
Lors des tests à l’aveugle d’AI Arena, il a affiché d’excellentes performances à la fois sur les tâches texte-vers-image et image-vers-image

Évolution du modèle

La série Qwen-Image a progressé en parallèle sur une branche génération et une branche édition
- En août 2025, Qwen-Image a renforcé la précision du rendu de texte
- En décembre 2025, Qwen-Image-2512 a amélioré le niveau de détail et le photoréalisme
- Côté édition, l’évolution est allée de l’édition d’image unique (août) à l’édition multi-images (septembre), puis à l’amélioration de la cohérence (décembre)
Qwen-Image-2.0 fusionne ces deux branches en un modèle unifié, obtenant d’excellents résultats à la fois en génération et en édition

Précision (准) et complexité (多)

Le modèle reproduit avec précision des compositions complexes de type “image dans l’image”, améliorant l’efficacité de création de PPT
- Par exemple, il génère une scène composite avec deux images d’une même personne disposées verticalement tout en conservant la cohérence visuelle
Avec des instructions de 1k tokens, il rend intégralement des infographies à structure multiniveau, comme un rapport d’A/B testing
- Il peut produire des visuels de niveau rapport professionnel intégrant tableaux, graphiques, chiffres, annotations et autres éléments complexes
En exploitant les connaissances du monde d’un LLM, il peut étendre automatiquement une requête simple en prompt de description détaillé
- Exemple : une demande de « poster de voyage de deux jours à Hangzhou » peut être transformée en une composition détaillée de style, d’arrière-plan et de texte

Esthétique (美)

Il réalise une harmonie formelle entre texte et image
- Il reproduit fidèlement le style traditionnel chinois de calligraphie et peinture dans des compositions unifiées
- Il exprime avec précision diverses typographies (par ex. 瘦金体, Sojache)
Par exemple, il peut reproduire presque parfaitement en Sojache une peinture à l’encre avec poésie de l’époque Song ou le « 兰亭序 » de Wang Xizhi

Réalisme (真)

Il renforce l’impression de réel grâce à une représentation précise des reflets optiques, matériaux et perspectives
- Par exemple, il rend correctement du texte sur des matériaux variés comme un tableau blanc en verre, des vêtements ou une couverture de magazine
Il réalise une intégration du niveau d’un poster de film entre éclairage, texture et matériaux
- Par exemple, dans le poster de « 千灯问心 », le métal, la pluie et les textures textiles fusionnent naturellement

Alignement (齐)

Il ajuste automatiquement l’alignement et la mise en page dans des structures à textes multiples comme les calendriers, bandes dessinées et infographies
- Par exemple, dans un calendrier de février 2026, il aligne correctement dans la grille les dates, le calendrier lunaire et les annotations
- Il centre le texte dans les bulles de dialogue d’une bande dessinée pour créer un flux de conversation naturel
- Dans une infographie OKR, il aligne automatiquement les blocs de texte et les flèches, et les distingue par couleur

Renforcement du photoréalisme

Il distingue plus de 23 nuances de vert pour exprimer le réalisme écologique d’une forêt estivale
- Il décrit finement jusqu’à la texture des feuilles, les reflets, l’humidité et les particules dans l’air
Il reproduit avec précision la musculature, les expressions et les textures des humains et des animaux
- Par exemple, dans une scène où un cheval piétine une personne, il rend jusqu’à la tension musculaire, la texture de la peau et les particules de poussière

Fonctionnalités d’édition d’images

En tant que modèle Omni intégrant génération et édition, les améliorations du volet génération se répercutent directement sur l’édition
- Il permet d’insérer des poèmes et du texte dans une image existante
- Il peut fusionner des personnes issues de deux images en préservant la cohérence naturelle de l’éclairage et des ombres
- Il permet aussi une édition mixte entre photo réaliste et personnage de cartoon
Par exemple, il fournit des résultats d’intégration naturels pour des photos composites de deux personnes ou l’insertion de personnages dans des photos urbaines

Image d’en-tête du blog « Qwen Street »

Sur fond de paysage de rue hivernal à Pékin, deux boutiques symbolisent les fonctions clés de Qwen-Image-2.0
- Enseigne de la boutique de calligraphie à gauche : « 文字渲染 », avec à l’intérieur « 专业幻灯片中英文海报高级信息图 »
- Enseigne du fleuriste à droite : « 真实质感 », avec l’indication « 2k resolution » au-dessus de la porte
- Tableau tenu par le bonhomme de neige au centre : « Qwen-Image-2.0 正式发布 »
- Dans la rue apparaît aussi un livreur portant la mention « 更小模型，更快速度 »

Conclusion

Qwen-Image-2.0 est un modèle unifié de génération d’images réunissant précision, complexité, esthétique, réalisme et alignement
Il brouille la frontière entre texte et image et améliore fortement le niveau d’automatisation de la production d’infographies professionnelles et de contenus visuels
Pour un usage en recherche ou en création, il est recommandé de citer Qwen-Image Technical Report (arXiv:2508.02324)

1 commentaires

GN⁺ 2026-02-11

Commentaires sur Hacker News

Beaucoup trouvent l’exemple « horse riding man » beaucoup trop bizarre, donc je voudrais en expliquer le contexte.
Ce mème vient d’un incident où le célèbre animateur chinois Kevin Tsai (蔡康永) a porté lors d’une cérémonie une tenue avec un cheval attaché dans le dos.
À l’époque, il était visé par une rumeur l’associant à un homme nommé « Ma Qiren (马启仁) », un nom qui se prononce comme « cavalier de cheval / personne montée par un cheval (马骑人) » en chinois.
L’affaire s’est propagée sur Internet et est devenue un mème, donc l’exemple « horse riding man » n’est pas totalement sorti de nulle part.
Cela dit, l’image dégage toujours une atmosphère inquiétante et étrange.
Lien vers la photo
- Contexte intéressant. Ce genre de prompt sert aussi à tester l’espace latent des générateurs d’images.
  En général, l’inverse, « une personne qui monte un cheval », est plus facile, alors que « un cheval qui monte une personne » correspond à un embedding plus difficile.
  En voyant le prompt traduit, j’y ai aussi perçu une nuance satirique du type « l’année du cheval conquiert l’ingénieur blanc ».
  Je n’ai pas envie de voir comment SD1.5 représenterait ça.
- D’après l’article, le vrai nom est 马启仁 et non 马骑人.
  Autrement dit, le nom sonne comme « personne montée par un cheval », mais ce n’est pas une traduction littérale.
- Il existe aussi, dans le monde de la génération d’images, le problème du « astronaut riding a horse ».
  Article lié : Horse Rides Astronaut Redux
- Je me demande s’il existe en Chine, comme aux États-Unis, une hostilité envers la génération d’images par IA.
  Par exemple, j’imagine que des entreprises américaines craindraient un retour de bâton si elles utilisaient ce type d’images dans des plannings ou des supports promotionnels.
  Image d’exemple
- Autre influence possible : le problème bien connu de DALL‑E 2.
  Il arrivait à générer « un astronaute qui monte un cheval », mais échouait systématiquement pour « un cheval qui monte un astronaute ».
  Ce problème a persisté sur les modèles plus récents, et l’équipe Qwen Image avait probablement en tête ce benchmark difficile.
  Au fond, « astronaute = humain », donc ce test rejoint le mème chinois.
Quelques réflexions en vrac.
1️⃣ En se basant sur les précédents cycles de sortie, une publication en open weights d’ici 3 à 4 semaines paraît probable.
2️⃣ Ils semblent viser des modèles utilisables même sur des GPU modestes, comme Z‑Image Turbo (6B) et Flux.2 Klein (9B).
3️⃣ C’est un modèle unique qui unifie génération et édition d’images, donc pas besoin de séparer Qwen‑Image et Qwen‑Edit.
4️⃣ Dans mon GenAI Showdown, Qwen‑Image était n°1 parmi les modèles locaux pour l’édition, et aussi bien classé pour la génération.
J’ajouterai la version locale au site quand elle sortira.
- Pour les personnes moins techniques : avec une bonne quantification, un LLM peut tourner autour d’1 octet par paramètre.
  Donc pour un modèle 20B, 20 Go de RAM suffisent, et à cette taille ça peut même tourner sur iGPU.
  Une configuration avec 128 Go de mémoire unifiée peut se monter pour environ 2 200 dollars.
  C’est bien moins cher qu’un setup avec GPU dédié.
- Techniquement, Qwen 2512 comptait 19B paramètres et faisait 40 Go en FP16, mais tenait sur une 3090 en FP8.
  Il utilisait son propre VAE, avec des problèmes d’artefacts haute fréquence.
  Le nouveau Qwen 2 descend à 7B paramètres, donc c’est bien plus léger, et il passe à Qwen 3 VL.
  Il évolue désormais vers un modèle Omni combinant Image et Edit.
  Z‑Image, Klein et Qwen sont en train de se battre pour la place de « SDXL2 ».
  Si les open weights sortent, ce sera vraiment passionnant.
Il y a eu une période, brève, où Midjourney donnait l’impression d’être au sommet de la génération d’images.
- Ce n’est plus le cas ? Beaucoup de créateurs que je connais le préfèrent encore pour son esthétique subjective.
- Je me demande ce qu’est devenu Midjourney aujourd’hui.
- La commoditisation de la génération d’images va extrêmement vite.
  Tous les 3 ou 4 mois, le SOTA change, et l’innovation du trimestre précédent devient un produit API.
  Le goulot d’étranglement n’est plus le modèle, mais la personne qui sait manier les prompts.
  On observe le même schéma avec la génération de code.
Le contenu du prompt « horse riding man » est vraiment marquant.
Il est composé d’une description extrêmement réaliste : steppe désolée, poussière, cheval brun écrasant un homme, etc.
L’ensemble exprime une tension primitive et un choc de forces biologiques.
- Pour ceux que ça déroute, il existe une sculpture de la dynastie Han représentant « un cheval piétinant un Xiongnu ».
  Lien connexe
J’ai récemment essayé des modèles locaux avec LMStudio sur Linux, et c’était vraiment simple.
En revanche, comme il ne prend pas en charge la génération d’images, je me demande quels outils les gens utilisent sous Linux pour faire tourner des modèles de diffusion comme Qwen.
- En pratique, la plupart des gens qui utilisent cette famille de modèles passent par ComfyUI.
  La communauté s’occupe de tout : quantification, conversion au format gguf, optimisation des performances.
- Comme ça évolue trop vite, j’ai fini par faire moi-même un serveur HTTP Python qui route une interface JSON vers les différentes implémentations.
  J’utilise surtout diffusers : c’est plus lent, mais la prise en charge des nouvelles architectures arrive vite.
- ComfyUI est le top pour Stable Diffusion.
- Je recommande vraiment de l’essayer. Récemment, c’est devenu beaucoup plus accessible grâce à la fonction de modèles/templates.
- Sur plateforme AMD, Lemonade prend en charge la génération d’images depuis la version 9.2.
  Site / Notes de version
La typographie verticale chinoise (Vertical Typography) paraissait un peu maladroite.
Il faudrait utiliser la ponctuation verticale (par ex. ︒) pour que ça paraisse naturel.
Je crée des infographies avec l’IA générative tous les jours, mais honnêtement, 99 % sont médiocres.
LinkedIn en déborde.
- Cela dit, LinkedIn était déjà mauvais à la base, donc ce n’est pas vraiment pire.
- Les infographies et les présentations restent pour l’instant une fonction réservée à NanoBananaPro.
- La qualité d’une infographie dépend au final des compétences de son auteur.
  Très peu de gens savent réellement créer ou même décrire une bonne infographie.
- Comme les diagrammes ASCII inutiles sur GitHub, ces visualisations ne sont souvent qu’un bruit cognitif.
  Pour un autre exemple, voir le fil Gas Town.
Malheureusement, il semble que cette fois il n’y ait pas de publication en open weights.
- Cela dit, ils ont sorti un modèle d’image en open weights il y a à peine un mois, donc c’est encore possible.
  La dernière publication remontait à décembre 2025 environ.
J’ai bien aimé leur exemple de planches de BD, donc je l’ai essayé moi-même sur Qwen Chat.
Avec exactement le même prompt que dans le blog, ça marche bien, mais dès qu’on modifie un peu l’entrée, le nombre de cases devient incorrect ou les dialogues en anglais passent en chinois.
Donc pour l’instant, c’est encore une fonctionnalité au manque de cohérence.
L’« image d’application d’équitation » était intéressante.
- En revanche, choisir comme démo « un cheval qui renverse un humain » était assez surprenant.
  Mais bon, chacun ses choix.

Qwen-Image-2.0 : infographies de niveau expert, photoréalisme sophistiqué

Aperçu de Qwen-Image-2.0

Évolution du modèle

Précision (准) et complexité (多)

Esthétique (美)

Réalisme (真)

Alignement (齐)

Renforcement du photoréalisme

Fonctionnalités d’édition d’images

Image d’en-tête du blog « Qwen Street »

Conclusion

À lire aussi

1 commentaires

Commentaires sur Hacker News