10 points par xguru 2021-01-07 | 1 commentaires | Partager sur WhatsApp
  • Une version de GPT-3 avec 12 milliards de paramètres

  • Entraîné à générer des images à partir de descriptions textuelles en utilisant un jeu de données composé de paires texte-image

  • Montre diverses capacités, comme créer des versions anthropomorphisées d’animaux et d’objets, combiner de manière plausible des concepts sans rapport, faire du rendu de texte ou appliquer des transformations à des images existantes

→ Contrôle des attributs : forme, couleur, matériau, nombre d’occurrences, etc.

→ Dessin simultané de plusieurs objets et expression de leurs relations

→ Représentation de la perspective et visualisation en 3D

→ Représentation des structures internes et externes : intérieur d’une noix, corail cerveau, etc.

→ Inférence de détails selon le contexte : représentation en changeant le style, le décor ou le moment, comme l’affichage d’ombres adaptées à la situation

→ Design de mode et décoration d’intérieur

→ Combinaison de concepts totalement sans lien : un escargot fait de harpe, une chaise en forme d’avocat

→ Raisonnement visuel en zero-shot

→ Génération d’images fondée sur des informations géographiques et temporelles

  • DALL·E reçoit 256 tokens de texte et 1 024 tokens d’image dans un flux unique, puis les modélise de manière auto-régressive avec un simple transformer decoder-only

1 commentaires

 
heycalmdown 2021-01-08

Ouah, c’est vraiment impressionnant. J’ai hâte de voir le jour où cela s’intégrera à la vie quotidienne.