Comment fonctionne DALL-E 2 ?

xguru · 2022-04-21T09:04:02+09:00

Connexion entre le texte et la sémantique visuelle (semantics) → Utilisation du modèle CLIP : entraîné sur des centaines de millions d’images et leurs légendes associées afin d’apprendre dans quelle mesure une légende est liée à une image Génération d’images à partir de la sémantique visuelle → Utilisation du modèle GLIDE : apprentissage d’une méthode pour inverser le processus d’encodage d’image. Utilise un modèle de diffusion (diffusion) Mappage de la sémantique textuelle vers la sémantique visuelle correspondante → Utilisation du modèle Prior : mappe l’encodage textuel d’une légende d’image vers l’encodage d’image correspondant Intégration de l’ensemble → L’encodeur de texte CLIP mappe la description d’image dans l’espace de représentation → Le Diffusion Prior mappe l’encodage textuel CLIP vers l’encodage d’image CLIP associé → Le modèle génératif GLIDE modifié utilise la diffusion inverse pour mapper l’espace de représentation vers l’espace image, et génère de nombreuses images possibles qui transmettent l’information sémantique contenue dans la légende d’entrée Trois points importants DALL-E 2 montre la puissance des modèles de diffusion Souligne la nécessité et la puissance de l’utilisation du langage naturel comme moyen d’entraîner des modèles de deep learning de pointe Confirme à nouveau que les Transformers occupent la meilleure position pour les modèles entraînés sur des jeux de données à l’échelle du web

(assemblyai.com)

5 points par xguru 2022-04-21 | 1 commentaires | Partager sur WhatsApp

Connexion entre le texte et la sémantique visuelle (semantics)
→ Utilisation du modèle CLIP : entraîné sur des centaines de millions d’images et leurs légendes associées afin d’apprendre dans quelle mesure une légende est liée à une image
Génération d’images à partir de la sémantique visuelle
→ Utilisation du modèle GLIDE : apprentissage d’une méthode pour inverser le processus d’encodage d’image. Utilise un modèle de diffusion (diffusion)
Mappage de la sémantique textuelle vers la sémantique visuelle correspondante
→ Utilisation du modèle Prior : mappe l’encodage textuel d’une légende d’image vers l’encodage d’image correspondant
Intégration de l’ensemble
→ L’encodeur de texte CLIP mappe la description d’image dans l’espace de représentation
→ Le Diffusion Prior mappe l’encodage textuel CLIP vers l’encodage d’image CLIP associé
→ Le modèle génératif GLIDE modifié utilise la diffusion inverse pour mapper l’espace de représentation vers l’espace image, et génère de nombreuses images possibles qui transmettent l’information sémantique contenue dans la légende d’entrée

Trois points importants

DALL-E 2 montre la puissance des modèles de diffusion
Souligne la nécessité et la puissance de l’utilisation du langage naturel comme moyen d’entraîner des modèles de deep learning de pointe
Confirme à nouveau que les Transformers occupent la meilleure position pour les modèles entraînés sur des jeux de données à l’échelle du web

1 commentaires

xguru 2022-04-21

Présentation de DALL·E 2
Des choses à essayer avec DALL·E

Comment fonctionne DALL-E 2 ?

Trois points importants

À lire aussi

1 commentaires