Z-Image - Un modèle de génération d’images puissant et efficace
(github.com/Tongyi-MAI)- Le modèle de génération d’images d’Alibaba affiche des performances de niveau Nano Banana Pro et est open source sous licence Apache 2.0
- Un modèle efficace de génération d’images de 6B de paramètres, basé sur un Single-Stream Diffusion Transformer
- Décliné en trois versions, Z-Image-Turbo atteint une qualité au niveau des modèles concurrents avec seulement 8 étapes d’inférence, et fonctionne même dans un environnement avec 16 Go de VRAM
- Z-Image-Edit propose des fonctions d’édition d’images basées sur des instructions en langage naturel, tandis que Z-Image-Base doit être publié comme modèle de base pour le fine-tuning communautaire
- Le modèle adopte l’architecture S3-DiT pour intégrer en une seule séquence les tokens de texte, de vision et de VAE, maximisant ainsi l’efficacité des paramètres
- Grâce aux algorithmes Decoupled-DMD et DMDR, il génère des images de haute qualité même avec peu d’étapes et atteint des performances parmi les meilleures des modèles open source
Présentation de Z-Image
- Z-Image est un modèle fondation de génération d’images alliant efficacité et performances, qui utilise une architecture Single-Stream Diffusion Transformer
- Il repose sur 6 milliards de paramètres et propose trois variantes : Z-Image-Turbo, Z-Image-Base et Z-Image-Edit
- Z-Image-Turbo : génère des images de haute qualité avec seulement 8 évaluations de fonction (NFE), avec une latence d’inférence inférieure à 1 seconde sur GPU H800
- Z-Image-Base : modèle de base non distillé, destiné au fine-tuning et au développement personnalisé par la communauté
- Z-Image-Edit : version spécialisée pour l’édition d’images, offrant des transformations d’images à partir du langage naturel
Principales fonctionnalités et performances
- Z-Image-Turbo réalise avec précision des images photoréalistes et un rendu de texte bilingue en anglais et en chinois
- La fonction Prompt Enhancer renforce les capacités de description fondées sur le raisonnement et les connaissances du monde
- Z-Image-Edit prend en charge les transformations créatives d’images et une compréhension précise des instructions
- Dans l’évaluation des préférences humaines basée sur Elo de l’Alibaba AI Arena, il a atteint des performances parmi les meilleures des modèles open source
Architecture du modèle (S3-DiT)
- Adoption d’une structure Scalable Single-Stream DiT (S3-DiT)
- Les tokens de texte, les tokens sémantiques visuels et les tokens VAE d’image sont combinés en une seule séquence
- Par rapport aux architectures traditionnelles à double flux, cela maximise l’efficacité des paramètres
- Cette architecture permet un apprentissage de représentations unifiées texte-image
Algorithmes clés
-
Decoupled-DMD
- Decoupled-DMD est l’algorithme de distillation clé qui permet l’inférence en 8 étapes de Z-Image
- Il sépare le DMD existant (Distribution Matching Distillation) en deux mécanismes : augmentation CFG (CA) et alignement de distribution (DM)
- CA joue le rôle de moteur principal dans le processus de distillation
- DM joue un rôle de régularisation pour maintenir la stabilité et la qualité des sorties
- En séparant et en optimisant ces deux mécanismes, le modèle atteint une génération d’images haute performance même avec peu d’étapes
-
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) est une technique de post-traitement qui combine le DMD avec le reinforcement learning (RL)
- Le RL maximise les performances du DMD, tandis que le DMD régularise le RL, dans une structure complémentaire
- Cela améliore la cohérence sémantique, la qualité esthétique et la cohérence structurelle, tout en renforçant le rendu des détails haute fréquence
Support communautaire et écosystème
- Cache-DiT : prise en charge de l’accélération de l’inférence via DBCache, Context Parallelism et Tensor Parallelism
- stable-diffusion.cpp : moteur en C++, permettant d’exécuter Z-Image même dans un environnement avec 4 Go de VRAM
- LeMiCa : fournit une accélération de l’inférence au niveau des timesteps sans entraînement
- ComfyUI ZImageLatent : propose une interface latent simple à la résolution officielle
Résumé
- Z-Image est un modèle open source de génération d’images haute performance combinant une architecture efficace (S3-DiT) et des techniques de distillation innovantes (Decoupled-DMD, DMDR)
- Z-Image-Turbo conjugue inférence rapide et haute qualité, et peut fonctionner sur des GPU grand public
- Z-Image-Edit prend en charge une édition d’image précise à partir du langage naturel
- Dans Alibaba AI Arena, il a obtenu un score de préférence humaine parmi les meilleurs des modèles open source
- L’écosystème Z-Image s’intègre à divers projets communautaires et s’étend en tant que plateforme de modèle génératif généraliste
3 commentaires
Les illustrations générées en local sont vraiment restées très longtemps sur sdxl, donc j’attends cela avec impatience, car on dirait qu’un bon modèle de base est enfin sorti.
Surtout, à mesure que Stable diffusion gagnait en popularité, la censure est devenue si forte que l’entraînement en devenait difficile, donc le fait qu’il n’y ait pas non plus de censure est vraiment remarquable.
Je l’ai testé par curiosité. Sans censure, il pourrait devenir une arme tranchante...
Commentaires sur Hacker News
J’ai testé Z-Image Turbo la semaine dernière
gitub) et redirige vers un site malveillantObtenir ce genre de résultats avec 6B paramètres est un progrès étonnant
Le podcast Pretrained a récemment parlé de ce modèle
Si on regarde le PDF de démo officiel, on y voit près de 50 photos de femmes seules, contre seulement 2 photos d’hommes seuls
Mon expérience directe a été décevante
Z-Image est considéré comme le véritable successeur de Stable Diffusion 1.5
Je l’ai testé sur un Framework Desktop, mais ComfyUI déclenchait une erreur noyau amdgpu vers 40 étapes, donc j’ai écrit moi-même un contournement
C’est impressionnant de voir autant de connaissances du monde tenir dans 16GiB
Mais ce modèle subit lui aussi l’influence de la censure chinoise
En tant que débutant en IA, je me demandais si cela pouvait tourner sur un MacBook de 24GB
http://localhost:5001/sdui)