Stable Diffusion - open source de génération d’images à partir de texte, similaire à DALL-E
(github.com/CompVis)- Modèle de diffusion latente entraîné sur des images 512x512 de la base de données LAION-5B
- Utilise l’encodeur de texte CLIP ViT-L/14, à l’image de l’Imagen de Google
- Suffisamment léger pour fonctionner avec un seul GPU disposant de plus de 10 Go de VRAM
- Collaboration et soutien de chercheurs de Stability AI et de LAION
1 commentaires
On dit que, pour les aspects proches de l’illustration d’art moderne, les résultats sont meilleurs que ceux de DALL-E 2 ou MidJourney.
D’après ce qui se dit sur le Discord des développeurs, cela fonctionnerait aussi sur les Mac M1.
Comme les contraintes matérielles sont faibles, le grand atout semble être que tout le monde peut l’utiliser facilement.
Bien sûr, même si c’est open source, l’accès reste pour l’instant limité à un usage académique.
Gérer soi-même un générateur d’images IA de type DALL-E
Imagen - le modèle de diffusion text-to-image de Google
LAION-400M - un jeu de données de 400 millions de paires image-texte