- L’article explique les efforts de l’auteur pour améliorer les performances du modèle open source Stable Diffusion XL 1.0 (SDXL) de Stability AI. Ce modèle génère des images en résolution 1024x1024.
- SDXL se compose de deux modèles : un modèle de base et un modèle de raffinement optionnel qui améliore fortement les détails sans affecter la vitesse.
- L’auteur a utilisé la bibliothèque Python
diffusers de Hugging Face pour travailler avec SDXL, et a fourni des exemples montrant comment charger et utiliser à la fois le modèle de base et le modèle de raffinement.
- L’auteur a généré des images à l’aide d’une machine virtuelle cloud équipée d’un GPU L4 de milieu de gamme, en précisant que chaque image 1024x1024 est produite en environ 22 secondes.
- L’auteur a expérimenté deux nouvelles fonctionnalités de
diffusers : la pondération des prompts et l’entraînement ainsi que l’inférence Dreambooth LoRA.
- La pondération des prompts améliore le résultat final en permettant d’ajuster davantage le poids mathématique des termes dans les embeddings textuels de sortie.
- La prise en charge de Dreambooth LoRA permet d’affiner Stable Diffusion à partir d’un petit nombre d’images source et d’un mot-clé déclencheur, afin de réutiliser le « concept » de cette image dans d’autres contextes correspondant au mot-clé donné.
- L’auteur a testé le potentiel de SDXL en entraînant un LoRA sur le concept d’Ugly Sonic, absent du jeu de données d’origine de Stable Diffusion. Les résultats étaient bien meilleurs et plus cohérents.
- L’auteur a également entraîné un LoRA sur des images poubelles extrêmement déformées avec le prompt « wrong ». L’objectif était que le LoRA puisse utiliser « wrong » comme « prompt négatif » pour éviter ce type d’images et produire des images moins déformées.
- L’auteur a constaté que les LoRA rendent SDXL plus intelligent et plus fidèle à l’intention du prompt, en améliorant la qualité et la clarté des images générées.
- L’auteur conclut que l’entraînement de SDXL sur de mauvaises images s’apparente à une forme d’apprentissage par renforcement à partir de retours humains (RLHF), la même famille de techniques qui a contribué à rendre ChatGPT puissant.
- L’auteur prévoit de continuer à explorer le potentiel des « LoRA négatifs », notamment en les fusionnant avec d’autres LoRA pour améliorer les performances.
1 commentaires
Avis Hacker News