Otter : un modèle multimodal capable d’un réglage par instructions en contexte

xguru · 2023-06-14T10:16:01+09:00

Pour obtenir de bonnes performances en zéro shot avec les LLM, un jeu d’instructions de haute qualité est indispensable, et il en va de même pour les VLM (modèles vision-langage) Mais les jeux d’instructions vision-langage actuels sont très limités en termes de volume, de diversité et de créativité Présentation de MIMIC-IT (MultI-Modal In-Context Instruction Tuning) Un jeu de données composé de 2,2 millions d’instructions uniques issues d’images et de vidéos, ainsi que de 2,8 millions de paires multimodales instruction-réponse Otter est un VLM de grande taille entraîné sur le jeu de données MIMIC-IT Prise en charge de 8 langues : anglais, chinois, coréen, japonais, allemand, français, espagnol et arabe

(github.com/Luodian)

6 points par xguru 2023-06-14 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Pour obtenir de bonnes performances en zéro shot avec les LLM, un jeu d’instructions de haute qualité est indispensable, et il en va de même pour les VLM (modèles vision-langage)
Mais les jeux d’instructions vision-langage actuels sont très limités en termes de volume, de diversité et de créativité
Présentation de MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
Un jeu de données composé de 2,2 millions d’instructions uniques issues d’images et de vidéos, ainsi que de 2,8 millions de paires multimodales instruction-réponse
Otter est un VLM de grande taille entraîné sur le jeu de données MIMIC-IT
Prise en charge de 8 langues : anglais, chinois, coréen, japonais, allemand, français, espagnol et arabe

Otter : un modèle multimodal capable d’un réglage par instructions en contexte

À lire aussi

Aucun commentaire pour le moment.