ONE-PEACE : modèle de représentation général pour une multimodalité illimitée

xguru · 2023-05-24T10:47:01+09:00

Modèle de représentation général couvrant à la fois les modalités vision, audio et langage Produit d’excellents résultats sur des tâches unifiées, même sans modèle préentraîné Un puissant emergent zero-shot retrieval permet d’aligner des modalités non appariées dans les données d’entraînement Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

(github.com/OFA-Sys)

11 points par xguru 2023-05-24 | 1 commentaires | Partager sur WhatsApp

Modèle de représentation général couvrant à la fois les modalités vision, audio et langage
Produit d’excellents résultats sur des tâches unifiées, même sans modèle préentraîné
Un puissant emergent zero-shot retrieval permet d’aligner des modalités non appariées dans les données d’entraînement
Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 commentaires

dbs0829 2023-05-24

On dirait qu’il a battu le SOTA sur beaucoup de tâches.

ONE-PEACE : modèle de représentation général pour une multimodalité illimitée

À lire aussi

1 commentaires