- Le modèle de génération d’images d’Alibaba affiche des performances de niveau Nano Banana Pro et est open source sous licence Apache 2.0
- Un modèle efficace de génération d’images de 6B de paramètres, basé sur un Single-Stream Diffusion Transformer
- Décliné en trois versions, Z-Image-Turbo atteint une qualité au niveau des modèles concurrents avec seulement 8 étapes d’inférence, et fonctionne même dans un environnement avec 16 Go de VRAM
- Z-Image-Edit propose des fonctions d’édition d’images basées sur des instructions en langage naturel, tandis que Z-Image-Base doit être publié comme modèle de base pour le fine-tuning communautaire
- Le modèle adopte l’architecture S3-DiT pour intégrer en une seule séquence les tokens de texte, de vision et de VAE, maximisant ainsi l’efficacité des paramètres
- Grâce aux algorithmes Decoupled-DMD et DMDR, il génère des images de haute qualité même avec peu d’étapes et atteint des performances parmi les meilleures des modèles open source
Présentation de Z-Image
- Z-Image est un modèle fondation de génération d’images alliant efficacité et performances, qui utilise une architecture Single-Stream Diffusion Transformer
- Il repose sur 6 milliards de paramètres et propose trois variantes : Z-Image-Turbo, Z-Image-Base et Z-Image-Edit
- Z-Image-Turbo : génère des images de haute qualité avec seulement 8 évaluations de fonction (NFE), avec une latence d’inférence inférieure à 1 seconde sur GPU H800
- Z-Image-Base : modèle de base non distillé, destiné au fine-tuning et au développement personnalisé par la communauté
- Z-Image-Edit : version spécialisée pour l’édition d’images, offrant des transformations d’images à partir du langage naturel
Principales fonctionnalités et performances
- Z-Image-Turbo réalise avec précision des images photoréalistes et un rendu de texte bilingue en anglais et en chinois
- La fonction Prompt Enhancer renforce les capacités de description fondées sur le raisonnement et les connaissances du monde
- Z-Image-Edit prend en charge les transformations créatives d’images et une compréhension précise des instructions
- Dans l’évaluation des préférences humaines basée sur Elo de l’Alibaba AI Arena, il a atteint des performances parmi les meilleures des modèles open source
Architecture du modèle (S3-DiT)
- Adoption d’une structure Scalable Single-Stream DiT (S3-DiT)
- Les tokens de texte, les tokens sémantiques visuels et les tokens VAE d’image sont combinés en une seule séquence
- Par rapport aux architectures traditionnelles à double flux, cela maximise l’efficacité des paramètres
- Cette architecture permet un apprentissage de représentations unifiées texte-image
Algorithmes clés
-
Decoupled-DMD
- Decoupled-DMD est l’algorithme de distillation clé qui permet l’inférence en 8 étapes de Z-Image
- Il sépare le DMD existant (Distribution Matching Distillation) en deux mécanismes : augmentation CFG (CA) et alignement de distribution (DM)
- CA joue le rôle de moteur principal dans le processus de distillation
- DM joue un rôle de régularisation pour maintenir la stabilité et la qualité des sorties
- En séparant et en optimisant ces deux mécanismes, le modèle atteint une génération d’images haute performance même avec peu d’étapes
-
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) est une technique de post-traitement qui combine le DMD avec le reinforcement learning (RL)
- Le RL maximise les performances du DMD, tandis que le DMD régularise le RL, dans une structure complémentaire
- Cela améliore la cohérence sémantique, la qualité esthétique et la cohérence structurelle, tout en renforçant le rendu des détails haute fréquence
Support communautaire et écosystème
- Cache-DiT : prise en charge de l’accélération de l’inférence via DBCache, Context Parallelism et Tensor Parallelism
- stable-diffusion.cpp : moteur en C++, permettant d’exécuter Z-Image même dans un environnement avec 4 Go de VRAM
- LeMiCa : fournit une accélération de l’inférence au niveau des timesteps sans entraînement
- ComfyUI ZImageLatent : propose une interface latent simple à la résolution officielle
Résumé
- Z-Image est un modèle open source de génération d’images haute performance combinant une architecture efficace (S3-DiT) et des techniques de distillation innovantes (Decoupled-DMD, DMDR)
- Z-Image-Turbo conjugue inférence rapide et haute qualité, et peut fonctionner sur des GPU grand public
- Z-Image-Edit prend en charge une édition d’image précise à partir du langage naturel
- Dans Alibaba AI Arena, il a obtenu un score de préférence humaine parmi les meilleurs des modèles open source
- L’écosystème Z-Image s’intègre à divers projets communautaires et s’étend en tant que plateforme de modèle génératif généraliste
Aucun commentaire pour le moment.