LLaVA : Visual Instruction Tuning
(llava-vl.github.io)- "LLaVA : Large Language and Vision Assistant"
- Un grand modèle multimodal qui combine un encodeur de vision et Vicuna pour une compréhension générale de la vision et du langage
- Vise des capacités de niveau GPT-4 multimodal ainsi qu'une précision SOTA pour les questions-réponses scientifiques
- Publication du papier, du code et d'une démo
Aucun commentaire pour le moment.