DALL·E : générer des images à partir de texte
(openai.com)-
Une version de GPT-3 avec 12 milliards de paramètres
-
Entraîné à générer des images à partir de descriptions textuelles en utilisant un jeu de données composé de paires texte-image
-
Montre diverses capacités, comme créer des versions anthropomorphisées d’animaux et d’objets, combiner de manière plausible des concepts sans rapport, faire du rendu de texte ou appliquer des transformations à des images existantes
→ Contrôle des attributs : forme, couleur, matériau, nombre d’occurrences, etc.
→ Dessin simultané de plusieurs objets et expression de leurs relations
→ Représentation de la perspective et visualisation en 3D
→ Représentation des structures internes et externes : intérieur d’une noix, corail cerveau, etc.
→ Inférence de détails selon le contexte : représentation en changeant le style, le décor ou le moment, comme l’affichage d’ombres adaptées à la situation
→ Design de mode et décoration d’intérieur
→ Combinaison de concepts totalement sans lien : un escargot fait de harpe, une chaise en forme d’avocat
→ Raisonnement visuel en zero-shot
→ Génération d’images fondée sur des informations géographiques et temporelles
- DALL·E reçoit 256 tokens de texte et 1 024 tokens d’image dans un flux unique, puis les modélise de manière auto-régressive avec un simple transformer decoder-only
1 commentaires
Ouah, c’est vraiment impressionnant. J’ai hâte de voir le jour où cela s’intégrera à la vie quotidienne.