6 points par xguru 2023-04-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • "LLaVA : Large Language and Vision Assistant"
  • Un grand modèle multimodal qui combine un encodeur de vision et Vicuna pour une compréhension générale de la vision et du langage
  • Vise des capacités de niveau GPT-4 multimodal ainsi qu'une précision SOTA pour les questions-réponses scientifiques
  • Publication du papier, du code et d'une démo

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.