23 points par GN⁺ 2025-12-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Le modèle de génération d’images d’Alibaba affiche des performances de niveau Nano Banana Pro et est open source sous licence Apache 2.0
  • Un modèle efficace de génération d’images de 6B de paramètres, basé sur un Single-Stream Diffusion Transformer
  • Décliné en trois versions, Z-Image-Turbo atteint une qualité au niveau des modèles concurrents avec seulement 8 étapes d’inférence, et fonctionne même dans un environnement avec 16 Go de VRAM
  • Z-Image-Edit propose des fonctions d’édition d’images basées sur des instructions en langage naturel, tandis que Z-Image-Base doit être publié comme modèle de base pour le fine-tuning communautaire
  • Le modèle adopte l’architecture S3-DiT pour intégrer en une seule séquence les tokens de texte, de vision et de VAE, maximisant ainsi l’efficacité des paramètres
  • Grâce aux algorithmes Decoupled-DMD et DMDR, il génère des images de haute qualité même avec peu d’étapes et atteint des performances parmi les meilleures des modèles open source

Présentation de Z-Image

  • Z-Image est un modèle fondation de génération d’images alliant efficacité et performances, qui utilise une architecture Single-Stream Diffusion Transformer
  • Il repose sur 6 milliards de paramètres et propose trois variantes : Z-Image-Turbo, Z-Image-Base et Z-Image-Edit
    • Z-Image-Turbo : génère des images de haute qualité avec seulement 8 évaluations de fonction (NFE), avec une latence d’inférence inférieure à 1 seconde sur GPU H800
    • Z-Image-Base : modèle de base non distillé, destiné au fine-tuning et au développement personnalisé par la communauté
    • Z-Image-Edit : version spécialisée pour l’édition d’images, offrant des transformations d’images à partir du langage naturel

Principales fonctionnalités et performances

  • Z-Image-Turbo réalise avec précision des images photoréalistes et un rendu de texte bilingue en anglais et en chinois
  • La fonction Prompt Enhancer renforce les capacités de description fondées sur le raisonnement et les connaissances du monde
  • Z-Image-Edit prend en charge les transformations créatives d’images et une compréhension précise des instructions
  • Dans l’évaluation des préférences humaines basée sur Elo de l’Alibaba AI Arena, il a atteint des performances parmi les meilleures des modèles open source

Architecture du modèle (S3-DiT)

  • Adoption d’une structure Scalable Single-Stream DiT (S3-DiT)
    • Les tokens de texte, les tokens sémantiques visuels et les tokens VAE d’image sont combinés en une seule séquence
    • Par rapport aux architectures traditionnelles à double flux, cela maximise l’efficacité des paramètres
  • Cette architecture permet un apprentissage de représentations unifiées texte-image

Algorithmes clés

  • Decoupled-DMD

    • Decoupled-DMD est l’algorithme de distillation clé qui permet l’inférence en 8 étapes de Z-Image
    • Il sépare le DMD existant (Distribution Matching Distillation) en deux mécanismes : augmentation CFG (CA) et alignement de distribution (DM)
      • CA joue le rôle de moteur principal dans le processus de distillation
      • DM joue un rôle de régularisation pour maintenir la stabilité et la qualité des sorties
    • En séparant et en optimisant ces deux mécanismes, le modèle atteint une génération d’images haute performance même avec peu d’étapes
  • DMDR

    • DMDR (Distribution Matching Distillation with Reinforcement Learning) est une technique de post-traitement qui combine le DMD avec le reinforcement learning (RL)
    • Le RL maximise les performances du DMD, tandis que le DMD régularise le RL, dans une structure complémentaire
    • Cela améliore la cohérence sémantique, la qualité esthétique et la cohérence structurelle, tout en renforçant le rendu des détails haute fréquence

Support communautaire et écosystème

  • Cache-DiT : prise en charge de l’accélération de l’inférence via DBCache, Context Parallelism et Tensor Parallelism
  • stable-diffusion.cpp : moteur en C++, permettant d’exécuter Z-Image même dans un environnement avec 4 Go de VRAM
  • LeMiCa : fournit une accélération de l’inférence au niveau des timesteps sans entraînement
  • ComfyUI ZImageLatent : propose une interface latent simple à la résolution officielle

Résumé

  • Z-Image est un modèle open source de génération d’images haute performance combinant une architecture efficace (S3-DiT) et des techniques de distillation innovantes (Decoupled-DMD, DMDR)
  • Z-Image-Turbo conjugue inférence rapide et haute qualité, et peut fonctionner sur des GPU grand public
  • Z-Image-Edit prend en charge une édition d’image précise à partir du langage naturel
  • Dans Alibaba AI Arena, il a obtenu un score de préférence humaine parmi les meilleurs des modèles open source
  • L’écosystème Z-Image s’intègre à divers projets communautaires et s’étend en tant que plateforme de modèle génératif généraliste

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.