ONE-PEACE : modèle de représentation général pour une multimodalité illimitée
(github.com/OFA-Sys)- Modèle de représentation général couvrant à la fois les modalités vision, audio et langage
- Produit d’excellents résultats sur des tâches unifiées, même sans modèle préentraîné
- Un puissant emergent zero-shot retrieval permet d’aligner des modalités non appariées dans les données d’entraînement
- Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image
1 commentaires
On dirait qu’il a battu le SOTA sur beaucoup de tâches.