5 points par xguru 2023-06-16 | 1 commentaires | Partager sur WhatsApp
  • Apprentissage via la création d’un modèle interne qui compare des représentations abstraites des images au lieu de comparer directement les pixels
  • Offre de solides performances sur les tâches de vision par ordinateur tout en étant bien plus efficace. Peut être utilisé dans de nombreux contextes sans vaste fine-tuning
  • Entraînement possible d’un modèle Vision Transformer de 632 M de paramètres en moins de 72 heures avec seulement 16 GPU A100
    • Atteint des performances SOTA en classification low-shot sur ImageNet avec seulement 12 exemples annotés par classe
  • L’article sera présenté à la CVPR 2023, et le code d’entraînement ainsi que les checkpoints du modèle seront également publiés en open source
  • Image Joint Embedding Predictive Architecture

1 commentaires

 
libner 2023-06-16

Il semble qu’en raison d’une faute de frappe, « large » n’ait pas été correctement écrit.