- Apprentissage via la création d’un modèle interne qui compare des représentations abstraites des images au lieu de comparer directement les pixels
- Offre de solides performances sur les tâches de vision par ordinateur tout en étant bien plus efficace. Peut être utilisé dans de nombreux contextes sans vaste fine-tuning
- Entraînement possible d’un modèle Vision Transformer de 632 M de paramètres en moins de 72 heures avec seulement 16 GPU A100
- Atteint des performances SOTA en classification low-shot sur ImageNet avec seulement 12 exemples annotés par classe
- L’article sera présenté à la CVPR 2023, et le code d’entraînement ainsi que les checkpoints du modèle seront également publiés en open source
- Image Joint Embedding Predictive Architecture
1 commentaires
Il semble qu’en raison d’une faute de frappe, « large » n’ait pas été correctement écrit.