2 points par GN⁺ 2023-08-23 | 1 commentaires | Partager sur WhatsApp
  • L’article explique les efforts de l’auteur pour améliorer les performances du modèle open source Stable Diffusion XL 1.0 (SDXL) de Stability AI. Ce modèle génère des images en résolution 1024x1024.
  • SDXL se compose de deux modèles : un modèle de base et un modèle de raffinement optionnel qui améliore fortement les détails sans affecter la vitesse.
  • L’auteur a utilisé la bibliothèque Python diffusers de Hugging Face pour travailler avec SDXL, et a fourni des exemples montrant comment charger et utiliser à la fois le modèle de base et le modèle de raffinement.
  • L’auteur a généré des images à l’aide d’une machine virtuelle cloud équipée d’un GPU L4 de milieu de gamme, en précisant que chaque image 1024x1024 est produite en environ 22 secondes.
  • L’auteur a expérimenté deux nouvelles fonctionnalités de diffusers : la pondération des prompts et l’entraînement ainsi que l’inférence Dreambooth LoRA.
  • La pondération des prompts améliore le résultat final en permettant d’ajuster davantage le poids mathématique des termes dans les embeddings textuels de sortie.
  • La prise en charge de Dreambooth LoRA permet d’affiner Stable Diffusion à partir d’un petit nombre d’images source et d’un mot-clé déclencheur, afin de réutiliser le « concept » de cette image dans d’autres contextes correspondant au mot-clé donné.
  • L’auteur a testé le potentiel de SDXL en entraînant un LoRA sur le concept d’Ugly Sonic, absent du jeu de données d’origine de Stable Diffusion. Les résultats étaient bien meilleurs et plus cohérents.
  • L’auteur a également entraîné un LoRA sur des images poubelles extrêmement déformées avec le prompt « wrong ». L’objectif était que le LoRA puisse utiliser « wrong » comme « prompt négatif » pour éviter ce type d’images et produire des images moins déformées.
  • L’auteur a constaté que les LoRA rendent SDXL plus intelligent et plus fidèle à l’intention du prompt, en améliorant la qualité et la clarté des images générées.
  • L’auteur conclut que l’entraînement de SDXL sur de mauvaises images s’apparente à une forme d’apprentissage par renforcement à partir de retours humains (RLHF), la même famille de techniques qui a contribué à rendre ChatGPT puissant.
  • L’auteur prévoit de continuer à explorer le potentiel des « LoRA négatifs », notamment en les fusionnant avec d’autres LoRA pour améliorer les performances.

1 commentaires

 
GN⁺ 2023-08-23
Avis Hacker News
  • Le concept de RLHF personnalisé (Reinforcement Learning from Human Feedback) suscite de l’intérêt, car il pourrait orienter les sorties de l’IA selon les préférences individuelles.
  • Il a été proposé d’implémenter une option de retour « j’aime/je n’aime pas » sur toutes les images générées par les systèmes d’IA, ainsi qu’un libellé textuel sélectif pour ignorer les images « incorrectes ».
  • La question de la boucle d’itération la plus rapide possible pour le feedback a été soulevée, avec l’idée de collecter environ 10k préférences par seconde afin d’augmenter la probabilité que le modèle produise des images correspondant aux goûts personnels.
  • L’usage de Stable Diffusion (SD) pour la création artistique est reconnu, et l’importance de la différence entre SD 1.5/2.0 et SDXL a été soulignée.
  • Des data scientists ont enregistré toutes les frappes effectuées sur leur PC, et cela est désormais considéré comme une donnée utile pour les systèmes d’IA.
  • L’idée a été partagée d’utiliser le modèle de base SDXL pour générer des images en mélangeant des prompts de styles variés, puis de s’en servir pour entraîner un LoRA (Learning from Observations and Rewards), avant de régénérer avec ce LoRA + l’ensemble d’entraînement en utilisant les prompts qui ont servi à créer cet ensemble.
  • Le résultat de ce processus est décrit comme un effet renforcé : plus d’erreurs, plus d’étrangeté, en haute résolution.
  • On estime que la sortie de l’IA de génération d’images est passée relativement inaperçue en raison d’exigences plus élevées en vram et en calcul, ainsi que d’une qualité de sortie inférieure à celle des modèles SD1.5 spécialisés.
  • Il a été rapporté que les LORAs construits pour Stable Diffusion XL ne fonctionnent bien qu’avec des prompts négatifs génériques.
  • Il existe une controverse autour de la capacité à activer plusieurs LoRAs en même temps.
  • L’utilisation du RLHF pour rendre GPT3 plus facile à utiliser est reconnue, et l’on espère que les futurs modèles incluront de mauvais résultats comme données d’entraînement négatives.
  • La possibilité de fusionner des LoRAs a été mentionnée, avec un intérêt pour l’utilisation d’un LoRA pour inclure des sujets personnels, d’un autre pour améliorer les résultats, et d’un troisième pour un style spécifique.