Transformers de vision (Vision Transformers) : la nécessité des registres (Registers) émerge
(openreview.net)Les registres sont nécessaires dans les transformers de vision
- Auteurs : Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- Présentation orale à l’ICLR 2024
- Publié le 16 janvier 2024, dernière révision le 12 avril 2024
Résumé
- Découverte et caractérisation d’artefacts dans les cartes de caractéristiques des modèles Vision Transformer (ViT) entraînés en apprentissage supervisé et auto-supervisé
- Ces artefacts correspondent à des tokens à norme élevée apparaissant pendant l’inférence, principalement dans des zones d’arrière-plan peu informatives, et réutilisés pour des calculs internes
- Proposition d’une solution simple mais efficace consistant à fournir des tokens supplémentaires (« registres ») dans la séquence d’entrée des ViT
- Cette approche résout complètement le problème dans les modèles supervisés comme auto-supervisés, établit un nouveau SOTA pour les modèles visuels auto-supervisés sur les tâches de prédiction visuelle dense, permet des méthodes de détection d’objets avec des modèles plus grands et, surtout, conduit à des cartes de caractéristiques et d’attention plus lisses pour le traitement visuel downstream
Expériences et analyse
- L’étude des artefacts est très originale et approfondie. Les graphiques et explications sont très éclairants, et les expériences sont complètes
- L’ajout proposé de tokens de registre est extrêmement simple et élégant, et fournit des masques d’attention plus interprétables
- La déclaration des limites est appréciable
- L’article est facile à suivre et les visualisations aident à construire l’intuition
Points à améliorer
- Il manque des expériences montrant qu’en ajoutant des tokens de registre, le comportement des tokens aberrants est éliminé. Il serait intéressant de vérifier s’ils sont transmis aux tokens image/registre dans le modèle proposé
- La discussion sur les performances du modèle en détection d’objets non supervisée est limitée et ne correspond pas entièrement aux résultats
- Les gains de DINOv2+reg sont impressionnants, mais il faudrait davantage de discussion ou d’exemples qualitatifs pour expliquer pourquoi cela ne s’aligne pas avec DINO
- Il est indiqué que les registres améliorent les performances de détection d’objets non supervisée sur tous les modèles, mais les performances d’OpenCLIP se dégradent au contraire
Avis de GN⁺
-
Il pourrait exister d’autres moyens que les registres pour réduire la redondance limitée au niveau des patchs. On peut se demander si un effet similaire est observé dans d’autres modèles auto-supervisés, comme MAE, où la reconstruction au niveau des patchs devrait atténuer la redondance des représentations
-
Des explications supplémentaires semblent nécessaires sur la baisse de performance d’OpenCLIP. De plus, l’explication du fait que les performances LOST de DINO soient meilleures que celles de DINOv2 reste insuffisante
-
Il est surprenant que DINOv2 présente ce comportement alors qu’il utilise une fonction objectif dense de mask-image-modeling. On peut se demander pourquoi l’objectif sur image masquée n’a pas empêché ce comportement, alors même qu’il exige la préservation d’information dans les caractéristiques de patch
-
Il semble nécessaire de distinguer les biais propres au dataset de ceux liés aux labels. Le SSL est moins affecté par les biais de labels, mais des biais liés à la source des données, comme Instagram vs iNaturalist, peuvent toujours subsister
-
Il est suggéré que les tokens aberrants apparaissent dans les modèles plus grands, mais ce n’est pas le cas dans les modèles base de CLIP/DEIT. Un commentaire à ce sujet à la fin de la section 2.2 serait bienvenu
-
On peut se demander comment les performances en détection d’objets non supervisée du modèle DINO avec registres se comparent à celles d’autres modèles aux capacités similaires, comme CLIP d’OpenAI ou LiT de Google
-
Il serait intéressant d’analyser si le phénomène de tokens aberrants observé dans les modèles basés sur ViT apparaît aussi dans les modèles basés sur CNN, ou s’il est propre à l’architecture transformer
-
Dans les applications réelles, il serait utile d’avoir des recommandations sur une éventuelle baisse de performance due à l’augmentation du coût de calcul lors de l’utilisation de tokens de registre, ainsi que sur la manière de déterminer le nombre optimal de registres
Aucun commentaire pour le moment.