- Publication d’un document de recherche qui explore en profondeur les technologies faisant fonctionner Stable Diffusion 3
- D’après des évaluations des préférences humaines, SD3 surpasse les systèmes de génération texte-image les plus récents comme DALL·E 3, Midjourney v6 et Ideogram v1 en matière de typographie et de respect des prompts
- La nouvelle architecture Multimodal Diffusion Transformer (MMDiT) améliore la compréhension du texte et les capacités d’orthographe par rapport aux versions précédentes de SD3 en utilisant des ensembles de poids distincts pour les représentations d’image et de langage
Performances
- Les images produites par Stable Diffusion 3 ont été comparées à divers modèles open source comme SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 et Pixart-α, ainsi qu’à des systèmes closed source comme DALL·E 3, Midjourney v6 et Ideogram v1, avec une évaluation des performances fondée sur le retour humain
- Les résultats des tests montrent que Stable Diffusion 3 est au niveau des systèmes de génération texte-image les plus avancés du moment, voire les dépasse, dans tous les domaines ci-dessus
- Lors des premiers tests d’inférence non optimisés, le plus grand modèle SD3 compte 8B paramètres, tient dans les 24GB de VRAM d’une RTX 4090, et met 34 secondes pour générer une image en résolution 1024x1024 avec 50 étapes d’échantillonnage
- Dès la version initiale, différentes variantes de Stable Diffusion 3 allant de 800m à 8B paramètres sont prévues afin d’abaisser davantage la barrière matérielle
Détails de l’architecture
- Pour la génération texte-image, le modèle doit prendre en compte deux modalités : le texte et l’image
- Cette nouvelle architecture est appelée MMDiT, en référence à sa capacité à traiter différentes modalités
- Comme dans les versions précédentes de Stable Diffusion, des modèles préentraînés sont utilisés pour dériver des représentations adaptées du texte et de l’image
- Les embeddings de texte et d’image étant conceptuellement très différents, des ensembles de poids distincts sont utilisés pour les deux modalités
- Cette approche permet à l’information de circuler entre les tokens d’image et de texte, améliorant ainsi la compréhension globale et la typographie des résultats
- Cette architecture peut facilement être étendue à des modalités multiples comme la vidéo
Amélioration des Rectified Flows par reweighting
- Stable Diffusion 3 utilise la formulation Rectified Flow (RF), qui relie les données et le bruit sur une trajectoire linéaire pendant l’entraînement
- Cela crée un chemin d’inférence plus rectiligne, permettant l’échantillonnage avec moins d’étapes
- Un nouveau calendrier d’échantillonnage des trajectoires a également été introduit dans le processus d’entraînement, donnant davantage de poids à la partie intermédiaire de la trajectoire
- Les tests comparant cette approche à d’autres trajectoires de diffusion montrent que la formulation RF précédente améliorait les performances dans les régimes d’échantillonnage à peu d’étapes, mais que ses performances relatives diminuaient avec davantage d’étapes
- En revanche, la variante RF rééquilibrée améliore les performances de manière constante
Mise à l’échelle du modèle Rectified Flow Transformer
- Une étude de scaling pour la synthèse texte-image a été menée en utilisant la formulation Rectified Flow rééquilibrée et le backbone MMDiT
- Une diminution régulière de la perte de validation a été observée à la fois avec la taille du modèle et le nombre d’étapes d’entraînement
- Pour vérifier si cela se traduisait par des améliorations significatives des sorties du modèle, les chercheurs ont évalué une métrique automatique d’alignement d’image (GenEval) ainsi que des scores de préférence humaine (ELO)
- Les résultats montrent une forte corrélation entre ces métriques et la perte de validation
- La tendance au scaling ne montre aucun signe de saturation, ce qui laisse entrevoir de futures améliorations continues des performances du modèle
Encodeur de texte flexible
- Pour l’inférence, supprimer l’encodeur de texte T5 de 4.7B paramètres, très gourmand en mémoire, permet de réduire fortement les besoins mémoire de SD3, avec une perte de performances minime
- La suppression de cet encodeur de texte n’affecte pas l’esthétique visuelle (taux de victoire après suppression : 50 %), mais entraîne une légère baisse du respect du texte (taux de victoire : 46 %)
- Toutefois, inclure T5 est recommandé pour exploiter toute la puissance de SD3 dans la génération de texte
1 commentaires
Avis sur Hacker News
L'engagement de Stability AI envers l'open source est très intéressant, et j'espère qu'ils pourront continuer à fonctionner le plus longtemps possible.
Le rendu du texte de Stable Diffusion 3 est impressionnant, mais le texte a toujours cette sensation caractéristique de surtraitement.
Question sur le fait de savoir si SD3 est téléchargeable.
Il est très intéressant de voir que les générateurs d'images commencent enfin à gérer correctement l'orthographe.
L'annonce de SD3 est très intéressante.
L'amélioration du rendu du texte dans SD3 est appréciable, mais générer des mains et des doigts reste difficile.
Cette architecture est suffisamment flexible pour pouvoir être étendue facilement à la vidéo.
De nombreuses entreprises qui étaient autrefois attachées à l'« open », ou qui l'étaient auparavant, deviennent de plus en plus fermées.
Par contraste avec Stability AI, OpenAI est le laboratoire de recherche en IA le plus fermé.