- SD v1 a bouleversé le paysage des modèles d’IA open source
- SD v2 entraîne le modèle text-to-image avec un nouveau encodeur de texte, OpenCLIP, ce qui améliore fortement la qualité d’image par rapport à v1
- Génération possible d’images en 512x512 et 768x768
- Entraîné à partir d’un sous-ensemble esthétique du jeu de données LAION-5B (avec en plus un filtre NSFW pour exclure les contenus pour adultes)
- Intègre un modèle Upscaler Diffusion pour augmenter la résolution des images par 4
- Cela signifie qu’il peut upscaler une image 128x128 en 512x512
- En d’autres termes, SD v2 peut désormais générer des images en résolution supérieure à 2048x2048
- Modèle Depth-to-Image Diffusion : depth2img
- Étend la fonctionnalité image-to-image existante à de nouvelles possibilités
- Déduit la profondeur de l’image d’entrée, puis génère une nouvelle image en utilisant à la fois le texte et les informations de profondeur
- Il devient donc possible de régénérer différemment uniquement certaines parties selon la profondeur de l’image
- Amélioration du modèle Inpainting Diffusion
- Comme SD v1, optimisé pour pouvoir fonctionner même dans un environnement à GPU unique
1 commentaires
Nous proposons aussi SD v1 avec un upscaler attaché (génération en 512 x 512, puis upscale x4 en largeur et en hauteur si l’utilisateur le souhaite), et on a constaté que cette combinaison était plus rapide et meilleure que de générer directement en grande taille avec SD v1.