11 points par xguru 2023-05-24 | 1 commentaires | Partager sur WhatsApp
  • Modèle de représentation général couvrant à la fois les modalités vision, audio et langage
  • Produit d’excellents résultats sur des tâches unifiées, même sans modèle préentraîné
  • Un puissant emergent zero-shot retrieval permet d’aligner des modalités non appariées dans les données d’entraînement
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 commentaires

 
dbs0829 2023-05-24

On dirait qu’il a battu le SOTA sur beaucoup de tâches.