Publication du document de recherche sur Stable Diffusion 3

xguru · 2024-03-06T10:46:01+09:00

Publication d’un document de recherche qui explore en profondeur les technologies faisant fonctionner Stable Diffusion 3 D’après des évaluations des préférences humaines, SD3 surpasse les systèmes de génération texte-image les plus récents comme DALL·E 3, Midjourney v6 et Ideogram v1 en matière de typographie et de respect des prompts La nouvelle architecture Multimodal Diffusion Transformer (MMDiT) améliore la compréhension du texte et les capacités d’orthographe par rapport aux versions précédentes de SD3 en utilisant des ensembles de poids distincts pour les représentations d’image et de langage Performances Les images produites par Stable Diffusion 3 ont été comparées à divers modèles open source comme SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 et Pixart-α, ainsi qu’à des systèmes closed source comme DALL·E 3, Midjourney v6 et Ideogram v1, avec une évaluation des performances fondée sur le retour humain Les résultats des tests montrent que Stable Diffusion 3 est au niveau des systèmes de génération texte-image les plus avancés du moment, voire les dépasse, dans tous les domaines ci-dessus Lors des premiers tests d’inférence non optimisés, le plus grand modèle SD3 compte 8B paramètres, tient dans les 24GB de VRAM d’une RTX 4090, et met 34 secondes pour générer une image en résolution 1024x1024 avec 50 étapes d’échantillonnage Dès la version initiale, différentes variantes de Stable Diffusion 3 allant de 800m à 8B paramètres sont prévues afin d’abaisser davantage la barrière matérielle Détails de l’architecture Pour la génération texte-image, le modèle doit prendre en compte deux modalités : le texte et l’image Cette nouvelle architecture est appelée MMDiT, en référence à sa capacité à traiter différentes modalités Comme dans les versions précédentes de Stable Diffusion, des modèles préentraînés sont utilisés pour dériver des représentations adaptées du texte et de l’image Les embeddings de texte et d’image étant conceptuellement très différents, des ensembles de poids distincts sont utilisés pour les deux modalités Cette approche permet à l’information de circuler entre les tokens d’image et de texte, améliorant ainsi la compréhension globale et la typographie des résultats Cette architecture peut facilement être étendue à des modalités multiples comme la vidéo Amélioration des Rectified Flows par reweighting Stable Diffusion 3 utilise la formulation Rectified Flow (RF), qui relie les données et le bruit sur une trajectoire linéaire pendant l’entraînement Cela crée un chemin d’inférence plus rectiligne, permettant l’échantillonnage avec moins d’étapes Un nouveau calendrier d’échantillonnage des trajectoires a également été introduit dans le processus d’entraînement, donnant davantage de poids à la partie intermédiaire de la trajectoire Les tests comparant cette approche à d’autres trajectoires de diffusion montrent que la formulation RF précédente améliorait les performances dans les régimes d’échantillonnage à peu d’étapes, mais que ses performances relatives diminuaient avec davantage d’étapes En revanche, la variante RF rééquilibrée améliore les performances de manière constante Mise à l’échelle du modèle Rectified Flow Transformer Une étude de scaling pour la synthèse texte-image a été menée en utilisant la formulation Rectified Flow rééquilibrée et le backbone MMDiT Une diminution régulière de la perte de validation a été observée à la fois avec la taille du modèle et le nombre d’étapes d’entraînement Pour vérifier si cela se traduisait par des améliorations significatives des sorties du modèle, les chercheurs ont évalué une métrique automatique d’alignement d’image (GenEval) ainsi que des scores de préférence humaine (ELO) Les résultats montrent une forte corrélation entre ces métriques et la perte de validation La tendance au scaling ne montre aucun signe de saturation, ce qui laisse entrevoir de futures améliorations continues des performances du modèle Encodeur de texte flexible Pour l’inférence, supprimer l’encodeur de texte T5 de 4.7B paramètres, très gourmand en mémoire, permet de réduire fortement les besoins mémoire de SD3, avec une perte de performances minime La suppression de cet encodeur de texte n’affecte pas l’esthétique visuelle (taux de victoire après suppression : 50 %), mais entraîne une légère baisse du respect du texte (taux de victoire : 46 %) Toutefois, inclure T5 est recommandé pour exploiter toute la puissance de SD3 dans la génération de texte

(stability.ai)

13 points par xguru 2024-03-06 | 1 commentaires | Partager sur WhatsApp

Publication d’un document de recherche qui explore en profondeur les technologies faisant fonctionner Stable Diffusion 3
D’après des évaluations des préférences humaines, SD3 surpasse les systèmes de génération texte-image les plus récents comme DALL·E 3, Midjourney v6 et Ideogram v1 en matière de typographie et de respect des prompts
La nouvelle architecture Multimodal Diffusion Transformer (MMDiT) améliore la compréhension du texte et les capacités d’orthographe par rapport aux versions précédentes de SD3 en utilisant des ensembles de poids distincts pour les représentations d’image et de langage

Performances

Les images produites par Stable Diffusion 3 ont été comparées à divers modèles open source comme SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 et Pixart-α, ainsi qu’à des systèmes closed source comme DALL·E 3, Midjourney v6 et Ideogram v1, avec une évaluation des performances fondée sur le retour humain
Les résultats des tests montrent que Stable Diffusion 3 est au niveau des systèmes de génération texte-image les plus avancés du moment, voire les dépasse, dans tous les domaines ci-dessus
Lors des premiers tests d’inférence non optimisés, le plus grand modèle SD3 compte 8B paramètres, tient dans les 24GB de VRAM d’une RTX 4090, et met 34 secondes pour générer une image en résolution 1024x1024 avec 50 étapes d’échantillonnage
Dès la version initiale, différentes variantes de Stable Diffusion 3 allant de 800m à 8B paramètres sont prévues afin d’abaisser davantage la barrière matérielle

Détails de l’architecture

Pour la génération texte-image, le modèle doit prendre en compte deux modalités : le texte et l’image
Cette nouvelle architecture est appelée MMDiT, en référence à sa capacité à traiter différentes modalités
Comme dans les versions précédentes de Stable Diffusion, des modèles préentraînés sont utilisés pour dériver des représentations adaptées du texte et de l’image
Les embeddings de texte et d’image étant conceptuellement très différents, des ensembles de poids distincts sont utilisés pour les deux modalités
Cette approche permet à l’information de circuler entre les tokens d’image et de texte, améliorant ainsi la compréhension globale et la typographie des résultats
Cette architecture peut facilement être étendue à des modalités multiples comme la vidéo

Amélioration des Rectified Flows par reweighting

Stable Diffusion 3 utilise la formulation Rectified Flow (RF), qui relie les données et le bruit sur une trajectoire linéaire pendant l’entraînement
Cela crée un chemin d’inférence plus rectiligne, permettant l’échantillonnage avec moins d’étapes
Un nouveau calendrier d’échantillonnage des trajectoires a également été introduit dans le processus d’entraînement, donnant davantage de poids à la partie intermédiaire de la trajectoire
Les tests comparant cette approche à d’autres trajectoires de diffusion montrent que la formulation RF précédente améliorait les performances dans les régimes d’échantillonnage à peu d’étapes, mais que ses performances relatives diminuaient avec davantage d’étapes
En revanche, la variante RF rééquilibrée améliore les performances de manière constante

Mise à l’échelle du modèle Rectified Flow Transformer

Une étude de scaling pour la synthèse texte-image a été menée en utilisant la formulation Rectified Flow rééquilibrée et le backbone MMDiT
Une diminution régulière de la perte de validation a été observée à la fois avec la taille du modèle et le nombre d’étapes d’entraînement
Pour vérifier si cela se traduisait par des améliorations significatives des sorties du modèle, les chercheurs ont évalué une métrique automatique d’alignement d’image (GenEval) ainsi que des scores de préférence humaine (ELO)
Les résultats montrent une forte corrélation entre ces métriques et la perte de validation
La tendance au scaling ne montre aucun signe de saturation, ce qui laisse entrevoir de futures améliorations continues des performances du modèle

Encodeur de texte flexible

Pour l’inférence, supprimer l’encodeur de texte T5 de 4.7B paramètres, très gourmand en mémoire, permet de réduire fortement les besoins mémoire de SD3, avec une perte de performances minime
La suppression de cet encodeur de texte n’affecte pas l’esthétique visuelle (taux de victoire après suppression : 50 %), mais entraîne une légère baisse du respect du texte (taux de victoire : 46 %)
Toutefois, inclure T5 est recommandé pour exploiter toute la puissance de SD3 dans la génération de texte

1 commentaires

xguru 2024-03-06

Avis sur Hacker News

L'engagement de Stability AI envers l'open source est très intéressant, et j'espère qu'ils pourront continuer à fonctionner le plus longtemps possible.
- Je me demande si Stable Diffusion 3 utilise toujours le CLIP d'OpenAI pour la tokenisation et les embeddings de texte.
- Je suppose simplement qu'ils amélioreront cette partie de l'architecture du modèle afin de mieux correspondre aux prompts textuels et visuels.
Le rendu du texte de Stable Diffusion 3 est impressionnant, mais le texte a toujours cette sensation caractéristique de surtraitement.
- La couleur du texte est toujours poussée vers une seule valeur, ce qui donne l'impression qu'il a simplement été ajouté de façon amateur sur une image de haute qualité.
Question sur le fait de savoir si SD3 est téléchargeable.
- J'ai exécuté les premières versions de SD en local, et c'était très bien.
- Je me demande si, comme beaucoup de LLM pour lesquels l'auto-hébergement semblait prometteur, cela a basculé vers le SaaS.
Il est très intéressant de voir que les générateurs d'images commencent enfin à gérer correctement l'orthographe.
- Les capacités orthographiques de DALL-E 3 ont été mises en avant, mais après avoir essayé Bing, le résultat manque de constance.
- J'aimerais lire une explication moins technique sur les défis rencontrés pour implémenter correctement l'orthographe et sur les raisons de ces difficultés.
- Je me demande si SD3 peut nettoyer ou corriger les problèmes de texte sur des images plus anciennes.
L'annonce de SD3 est très intéressante.
- L'article contient bien plus de détails que le billet de blog.
- Le point principal du papier est qu'ils disposent d'une architecture capable d'inclure un encodeur de texte plus expressif, et cela semble aider sur les scènes complexes.
- Côté entraînement, ils n'ont pas encore atteint les limites de cette pile, donc je m'attends à ce que SD3.1 s'améliore encore, et j'imagine que SD4 pourra ajouter davantage d'encodage en front-end pour le traitement vidéo.
L'amélioration du rendu du texte dans SD3 est appréciable, mais générer des mains et des doigts reste difficile.
- Les images d'exemple ne montrent pas de mains humaines, à l'exception du magicien pixelisé, et les mains du singe sont plutôt étranges.
Cette architecture est suffisamment flexible pour pouvoir être étendue facilement à la vidéo.
- Je m'attends à ce qu'elle devienne un autre bloc « fondamental », comme les blocs Transformer de LLaMA.
- Elle est assez générale pour intégrer l'encodage de texte et le conditionnement par pas de temps dans les blocs de différentes façons.
- Il ne reste presque plus rien à faire, à part jouer avec l'encodage positionnel (2D RoPE ?).
- Étendre les Transformers et se concentrer sur la quantification/l'optimisation afin de faire tourner correctement cette pile partout.
De nombreuses entreprises qui étaient autrefois attachées à l'« open », ou qui l'étaient auparavant, deviennent de plus en plus fermées.
- J'apprécie que Stability AI rende publics ce type d'articles de recherche.
Par contraste avec Stability AI, OpenAI est le laboratoire de recherche en IA le plus fermé.
- Même Deep Mind publie davantage d'articles.
- Je me demande s'il y a quelqu'un chez OpenAI qui dit publiquement : « Nous sommes là pour l'argent ! »
- La lettre que SamA a récemment écrite à propos du procès d'Elon est aussi véridique que lorsque Poutine dit qu'il envahit l'Ukraine pour la « dénazifier ».