Comment fonctionne DALL-E 2 ?
(assemblyai.com)- Connexion entre le texte et la sémantique visuelle (semantics)
→ Utilisation du modèle CLIP : entraîné sur des centaines de millions d’images et leurs légendes associées afin d’apprendre dans quelle mesure une légende est liée à une image - Génération d’images à partir de la sémantique visuelle
→ Utilisation du modèle GLIDE : apprentissage d’une méthode pour inverser le processus d’encodage d’image. Utilise un modèle de diffusion (diffusion) - Mappage de la sémantique textuelle vers la sémantique visuelle correspondante
→ Utilisation du modèle Prior : mappe l’encodage textuel d’une légende d’image vers l’encodage d’image correspondant - Intégration de l’ensemble
→ L’encodeur de texte CLIP mappe la description d’image dans l’espace de représentation
→ Le Diffusion Prior mappe l’encodage textuel CLIP vers l’encodage d’image CLIP associé
→ Le modèle génératif GLIDE modifié utilise la diffusion inverse pour mapper l’espace de représentation vers l’espace image, et génère de nombreuses images possibles qui transmettent l’information sémantique contenue dans la légende d’entrée
Trois points importants
- DALL-E 2 montre la puissance des modèles de diffusion
- Souligne la nécessité et la puissance de l’utilisation du langage naturel comme moyen d’entraîner des modèles de deep learning de pointe
- Confirme à nouveau que les Transformers occupent la meilleure position pour les modèles entraînés sur des jeux de données à l’échelle du web
1 commentaires
Présentation de DALL·E 2
Des choses à essayer avec DALL·E