14 points par xguru 2022-11-24 | 1 commentaires | Partager sur WhatsApp
  • SD v1 a bouleversé le paysage des modèles d’IA open source
  • SD v2 entraîne le modèle text-to-image avec un nouveau encodeur de texte, OpenCLIP, ce qui améliore fortement la qualité d’image par rapport à v1
  • Génération possible d’images en 512x512 et 768x768
  • Entraîné à partir d’un sous-ensemble esthétique du jeu de données LAION-5B (avec en plus un filtre NSFW pour exclure les contenus pour adultes)
  • Intègre un modèle Upscaler Diffusion pour augmenter la résolution des images par 4
    • Cela signifie qu’il peut upscaler une image 128x128 en 512x512
    • En d’autres termes, SD v2 peut désormais générer des images en résolution supérieure à 2048x2048
  • Modèle Depth-to-Image Diffusion : depth2img
    • Étend la fonctionnalité image-to-image existante à de nouvelles possibilités
    • Déduit la profondeur de l’image d’entrée, puis génère une nouvelle image en utilisant à la fois le texte et les informations de profondeur
    • Il devient donc possible de régénérer différemment uniquement certaines parties selon la profondeur de l’image
  • Amélioration du modèle Inpainting Diffusion
  • Comme SD v1, optimisé pour pouvoir fonctionner même dans un environnement à GPU unique

1 commentaires

 
laeyoung 2022-11-25

Nous proposons aussi SD v1 avec un upscaler attaché (génération en 512 x 512, puis upscale x4 en largeur et en hauteur si l’utilisateur le souhaite), et on a constaté que cette combinaison était plus rapide et meilleure que de générer directement en grande taille avec SD v1.