- MLLM (Multimodal Large Language Model)
- Comprend toutes les formes et les références spatiales fines dans une image
- Contributions clés
- Modèle Ferret : représentation de régions hybride + échantillonneur visuel à conscience spatiale
- Jeu de données GRIT : jeu de données de réglage par instructions à grande échelle, hiérarchique et robuste. Comprend 1,1 million d’échantillons et 950 000 données hard negative
- Ferret Bench : benchmark d’évaluation multimodale (exige de façon combinée Referring/Grounding + sémantique + connaissances + raisonnement)
Aucun commentaire pour le moment.