Z-Image - Un modèle de génération d’images puissant et efficace

(github.com/Tongyi-MAI)

23 points par GN⁺ 2025-12-08 | 3 commentaires | Partager sur WhatsApp

Le modèle de génération d’images d’Alibaba affiche des performances de niveau Nano Banana Pro et est open source sous licence Apache 2.0
Un modèle efficace de génération d’images de 6B de paramètres, basé sur un Single-Stream Diffusion Transformer
Décliné en trois versions, Z-Image-Turbo atteint une qualité au niveau des modèles concurrents avec seulement 8 étapes d’inférence, et fonctionne même dans un environnement avec 16 Go de VRAM
Z-Image-Edit propose des fonctions d’édition d’images basées sur des instructions en langage naturel, tandis que Z-Image-Base doit être publié comme modèle de base pour le fine-tuning communautaire
Le modèle adopte l’architecture S3-DiT pour intégrer en une seule séquence les tokens de texte, de vision et de VAE, maximisant ainsi l’efficacité des paramètres
Grâce aux algorithmes Decoupled-DMD et DMDR, il génère des images de haute qualité même avec peu d’étapes et atteint des performances parmi les meilleures des modèles open source

Présentation de Z-Image

Z-Image est un modèle fondation de génération d’images alliant efficacité et performances, qui utilise une architecture Single-Stream Diffusion Transformer
Il repose sur 6 milliards de paramètres et propose trois variantes : Z-Image-Turbo, Z-Image-Base et Z-Image-Edit
- Z-Image-Turbo : génère des images de haute qualité avec seulement 8 évaluations de fonction (NFE), avec une latence d’inférence inférieure à 1 seconde sur GPU H800
- Z-Image-Base : modèle de base non distillé, destiné au fine-tuning et au développement personnalisé par la communauté
- Z-Image-Edit : version spécialisée pour l’édition d’images, offrant des transformations d’images à partir du langage naturel

Principales fonctionnalités et performances

Z-Image-Turbo réalise avec précision des images photoréalistes et un rendu de texte bilingue en anglais et en chinois
La fonction Prompt Enhancer renforce les capacités de description fondées sur le raisonnement et les connaissances du monde
Z-Image-Edit prend en charge les transformations créatives d’images et une compréhension précise des instructions
Dans l’évaluation des préférences humaines basée sur Elo de l’Alibaba AI Arena, il a atteint des performances parmi les meilleures des modèles open source

Architecture du modèle (S3-DiT)

Adoption d’une structure Scalable Single-Stream DiT (S3-DiT)
- Les tokens de texte, les tokens sémantiques visuels et les tokens VAE d’image sont combinés en une seule séquence
- Par rapport aux architectures traditionnelles à double flux, cela maximise l’efficacité des paramètres
Cette architecture permet un apprentissage de représentations unifiées texte-image

Algorithmes clés

Decoupled-DMD
- Decoupled-DMD est l’algorithme de distillation clé qui permet l’inférence en 8 étapes de Z-Image
- Il sépare le DMD existant (Distribution Matching Distillation) en deux mécanismes : augmentation CFG (CA) et alignement de distribution (DM)
  - CA joue le rôle de moteur principal dans le processus de distillation
  - DM joue un rôle de régularisation pour maintenir la stabilité et la qualité des sorties
- En séparant et en optimisant ces deux mécanismes, le modèle atteint une génération d’images haute performance même avec peu d’étapes
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) est une technique de post-traitement qui combine le DMD avec le reinforcement learning (RL)
- Le RL maximise les performances du DMD, tandis que le DMD régularise le RL, dans une structure complémentaire
- Cela améliore la cohérence sémantique, la qualité esthétique et la cohérence structurelle, tout en renforçant le rendu des détails haute fréquence

Support communautaire et écosystème

Cache-DiT : prise en charge de l’accélération de l’inférence via DBCache, Context Parallelism et Tensor Parallelism
stable-diffusion.cpp : moteur en C++, permettant d’exécuter Z-Image même dans un environnement avec 4 Go de VRAM
LeMiCa : fournit une accélération de l’inférence au niveau des timesteps sans entraînement
ComfyUI ZImageLatent : propose une interface latent simple à la résolution officielle

Résumé

Z-Image est un modèle open source de génération d’images haute performance combinant une architecture efficace (S3-DiT) et des techniques de distillation innovantes (Decoupled-DMD, DMDR)
Z-Image-Turbo conjugue inférence rapide et haute qualité, et peut fonctionner sur des GPU grand public
Z-Image-Edit prend en charge une édition d’image précise à partir du langage naturel
Dans Alibaba AI Arena, il a obtenu un score de préférence humaine parmi les meilleurs des modèles open source
L’écosystème Z-Image s’intègre à divers projets communautaires et s’étend en tant que plateforme de modèle génératif généraliste

3 commentaires

crawler 2025-12-09

Les illustrations générées en local sont vraiment restées très longtemps sur sdxl, donc j’attends cela avec impatience, car on dirait qu’un bon modèle de base est enfin sorti.
Surtout, à mesure que Stable diffusion gagnait en popularité, la censure est devenue si forte que l’entraînement en devenait difficile, donc le fait qu’il n’y ait pas non plus de censure est vraiment remarquable.

wedding 2025-12-08

Je l’ai testé par curiosité. Sans censure, il pourrait devenir une arme tranchante...

GN⁺ 2025-12-08

Commentaires sur Hacker News

J’ai testé Z-Image Turbo la semaine dernière
- C’est extrêmement rapide, autour de 3 secondes sur une RTX 4090, et la cohérence des images est étonnante même à des résolutions de 1536x1024 à 2048x2048
- La précision est impressionnante pour un modèle de 6B paramètres
- C’est particulièrement efficace pour le post-traitement (refiner) des résultats de Qwen-Image 20b. Qwen comprend très bien les prompts, mais ses images ont tendance à devenir trop lisses et floues
- Échantillons de test
- C’est 3 secondes sur RTX 4090, mais sur M1 Ultra il faut 8 secondes par étape, donc plus d’une minute avec les 9 étapes par défaut
- Ça montre à quel point Apple Silicon est en retard sur les modèles non linguistiques
- Sur fal.ai, on peut générer en moins d’une seconde. En combinant avec des LoRA, on peut créer des images personnalisées en moins de 3 secondes
- Même face à seedream, nanobanana et d’autres, le rapport vitesse/qualité est suffisamment fort pour le placer dans le top 5
- En revanche, seulement 2 tests sur 4 sont passés pendant mes essais. Par exemple, la barre KitKat avait une forme et un logo complètement différents, et DNA armor était simplement rendu comme un matériau métallique
- Il faut faire attention, car le lien GitHub contient une faute de frappe (gitub) et redirige vers un site malveillant
- La Chine soutient de fait l’écosystème IA open weights. S’il reste un avenir au marché des GPU grand public, ce sera probablement grâce à la Chine
Obtenir ce genre de résultats avec 6B paramètres est un progrès étonnant
- La communauté a adopté ce modèle très vite, et Flux(2) semble presque déjà oublié
- Z-Image gagne aussi en popularité parce que c’est un modèle non censuré. À l’inverse, BFL, l’entreprise derrière Flux 2, a consacré une grande partie de son communiqué à la “sécurité”, c’est-à-dire à la censure
- Cela dit, cette “sécurité” concernait surtout la politique du service en ligne, plus que le modèle lui-même. En pratique, on peut générer sans restriction
- En fait, les mentions de “sécurité” reviennent surtout à dire aux investisseurs : nous ne vous mettrons pas dans l’embarras
- Le terme “lobotomizing” est intéressant. Je me demande ce que cela signifie lorsqu’on l’applique à un modèle de génération d’images
- Mais si ce modèle est chinois, il ne pourra peut-être pas générer d’images de Xi Jinping
Le podcast Pretrained a récemment parlé de ce modèle
- Il réutilise des backbones existants pour l’encodage de texte et les tokens sémantiques, avec une architecture efficace
- Il a été entraîné sur des données de légendes synthétiques de longueurs variées, ce qui améliore sa compréhension du texte
- Le texte OCR présent dans les images a aussi été inclus dans l’entraînement, ce qui améliore la qualité de génération de texte. Nano Banana Pro a progressé de façon similaire
Si on regarde le PDF de démo officiel, on y voit près de 50 photos de femmes seules, contre seulement 2 photos d’hommes seuls
- Le marché cible imaginé par les développeurs est assez évident
- En regardant des sites comme civitai, on voit bien que la majorité des images générées par les utilisateurs et des LoRA reflètent ce marché
- Au fond, cette technologie est largement tirée par les désirs d’un jeune public masculin
- À voir les réactions de la communauté r/stablediffusion, Flux 2 semble pratiquement mort. Il possède bien plus de connaissances, mais Z-Image est plus populaire
- Fait intéressant, l’un des modèles masculins est clairement Tony Leung sans aucune retouche
- Le fait que le modèle soit non censuré l’aide probablement à mieux correspondre à ce marché
Mon expérience directe a été décevante
- En apparence c’est correct, mais en pratique ses capacités de suivi de prompt sont faibles, et une expression comme “most cultures” se transforme en image de style cartoon
Z-Image est considéré comme le véritable successeur de Stable Diffusion 1.5
- La qualité, l’extensibilité et la possibilité d’exécution en local se sont toutes améliorées, et un écosystème se forme rapidement
- Cela dit, j’aimerais demander si tout le monde a déjà oublié SDXL. Il est sorti il y a à peine deux ans et demi
Je l’ai testé sur un Framework Desktop, mais ComfyUI déclenchait une erreur noyau amdgpu vers 40 étapes, donc j’ai écrit moi-même un contournement
- J’ai obtenu des résultats corrects avec des LoRA, et même avec seulement 8 étapes (15 à 20 secondes), on peut produire des images tout à fait regardables
- J’ai aussi créé un nœud d’amélioration de prompt basé sur llama.cpp pour améliorer la qualité
C’est impressionnant de voir autant de connaissances du monde tenir dans 16GiB
- On en est encore au début, mais à l’avenir l’IA locale deviendra probablement plus personnalisable et bidouillable
- Je pense qu’on va vers un futur centré sur des modèles intelligents comme Nano Banana
- Il faudra pouvoir injecter directement des couches de contrôle dans le modèle pour en tirer une vraie utilité
- J’espère qu’un jour un modèle du niveau de Nano Banana Pro pourra aussi tourner en local
Mais ce modèle subit lui aussi l’influence de la censure chinoise
- Si on lui demande “Tank Man” ou “Lady Liberty Hong Kong”, il n’affiche que la mention “Maybe Not Safe”
En tant que débutant en IA, je me demandais si cela pouvait tourner sur un MacBook de 24GB
- En pratique, sur un MacBook Pro M5, une seule image prenait 399 secondes à générer, et le système se figeait pendant ce temps
- Sur replicate.com, c’est 1,5 seconde par image pour environ 1 dollar les 1000 images, donc c’est bien plus efficace
- La conclusion, c’est que l’exécution locale sur Mac est inefficace
- Pour un débutant, ComfyUI sur macOS est probablement la solution la plus simple. Il suffit de charger le workflow Z-Image pour que le modèle s’installe et s’exécute automatiquement
- Il existe aussi une méthode pour l’exécuter avec koboldcpp sur Linux, Windows et Mac. Il suffit de charger le fichier de configuration pour l’utiliser directement depuis le serveur local (http://localhost:5001/sdui)