LLaVA : Visual Instruction Tuning

xguru · 2023-04-22T10:32:01+09:00

"LLaVA : Large Language and Vision Assistant" Un grand modèle multimodal qui combine un encodeur de vision et Vicuna pour une compréhension générale de la vision et du langage Vise des capacités de niveau GPT-4 multimodal ainsi qu'une précision SOTA pour les questions-réponses scientifiques Publication du papier, du code et d'une démo

(llava-vl.github.io)

6 points par xguru 2023-04-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp

"LLaVA : Large Language and Vision Assistant"
Un grand modèle multimodal qui combine un encodeur de vision et Vicuna pour une compréhension générale de la vision et du langage
Vise des capacités de niveau GPT-4 multimodal ainsi qu'une précision SOTA pour les questions-réponses scientifiques
Publication du papier, du code et d'une démo

LLaVA : Visual Instruction Tuning

À lire aussi

Aucun commentaire pour le moment.