13 points par xguru 2023-12-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • MLLM (Multimodal Large Language Model)
    • Comprend toutes les formes et les références spatiales fines dans une image
  • Contributions clés
    • Modèle Ferret : représentation de régions hybride + échantillonneur visuel à conscience spatiale
    • Jeu de données GRIT : jeu de données de réglage par instructions à grande échelle, hiérarchique et robuste. Comprend 1,1 million d’échantillons et 950 000 données hard negative
    • Ferret Bench : benchmark d’évaluation multimodale (exige de façon combinée Referring/Grounding + sémantique + connaissances + raisonnement)

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.