Ferret - le LLM multimodal d’Apple

xguru · 2023-12-28T11:21:02+09:00

MLLM (Multimodal Large Language Model) Comprend toutes les formes et les références spatiales fines dans une image Contributions clés Modèle Ferret : représentation de régions hybride + échantillonneur visuel à conscience spatiale Jeu de données GRIT : jeu de données de réglage par instructions à grande échelle, hiérarchique et robuste. Comprend 1,1 million d’échantillons et 950 000 données hard negative Ferret Bench : benchmark d’évaluation multimodale (exige de façon combinée Referring/Grounding + sémantique + connaissances + raisonnement)

(github.com/apple)

13 points par xguru 2023-12-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp

MLLM (Multimodal Large Language Model)
- Comprend toutes les formes et les références spatiales fines dans une image
Contributions clés
- Modèle Ferret : représentation de régions hybride + échantillonneur visuel à conscience spatiale
- Jeu de données GRIT : jeu de données de réglage par instructions à grande échelle, hiérarchique et robuste. Comprend 1,1 million d’échantillons et 950 000 données hard negative
- Ferret Bench : benchmark d’évaluation multimodale (exige de façon combinée Referring/Grounding + sémantique + connaissances + raisonnement)

Ferret - le LLM multimodal d’Apple

À lire aussi

Aucun commentaire pour le moment.