1 points par GN⁺ 2024-05-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les registres sont nécessaires dans les transformers de vision

  • Auteurs : Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
  • Présentation orale à l’ICLR 2024
  • Publié le 16 janvier 2024, dernière révision le 12 avril 2024

Résumé

  • Découverte et caractérisation d’artefacts dans les cartes de caractéristiques des modèles Vision Transformer (ViT) entraînés en apprentissage supervisé et auto-supervisé
  • Ces artefacts correspondent à des tokens à norme élevée apparaissant pendant l’inférence, principalement dans des zones d’arrière-plan peu informatives, et réutilisés pour des calculs internes
  • Proposition d’une solution simple mais efficace consistant à fournir des tokens supplémentaires (« registres ») dans la séquence d’entrée des ViT
  • Cette approche résout complètement le problème dans les modèles supervisés comme auto-supervisés, établit un nouveau SOTA pour les modèles visuels auto-supervisés sur les tâches de prédiction visuelle dense, permet des méthodes de détection d’objets avec des modèles plus grands et, surtout, conduit à des cartes de caractéristiques et d’attention plus lisses pour le traitement visuel downstream

Expériences et analyse

  • L’étude des artefacts est très originale et approfondie. Les graphiques et explications sont très éclairants, et les expériences sont complètes
  • L’ajout proposé de tokens de registre est extrêmement simple et élégant, et fournit des masques d’attention plus interprétables
  • La déclaration des limites est appréciable
  • L’article est facile à suivre et les visualisations aident à construire l’intuition

Points à améliorer

  • Il manque des expériences montrant qu’en ajoutant des tokens de registre, le comportement des tokens aberrants est éliminé. Il serait intéressant de vérifier s’ils sont transmis aux tokens image/registre dans le modèle proposé
  • La discussion sur les performances du modèle en détection d’objets non supervisée est limitée et ne correspond pas entièrement aux résultats
  • Les gains de DINOv2+reg sont impressionnants, mais il faudrait davantage de discussion ou d’exemples qualitatifs pour expliquer pourquoi cela ne s’aligne pas avec DINO
  • Il est indiqué que les registres améliorent les performances de détection d’objets non supervisée sur tous les modèles, mais les performances d’OpenCLIP se dégradent au contraire

Avis de GN⁺

  • Il pourrait exister d’autres moyens que les registres pour réduire la redondance limitée au niveau des patchs. On peut se demander si un effet similaire est observé dans d’autres modèles auto-supervisés, comme MAE, où la reconstruction au niveau des patchs devrait atténuer la redondance des représentations

  • Des explications supplémentaires semblent nécessaires sur la baisse de performance d’OpenCLIP. De plus, l’explication du fait que les performances LOST de DINO soient meilleures que celles de DINOv2 reste insuffisante

  • Il est surprenant que DINOv2 présente ce comportement alors qu’il utilise une fonction objectif dense de mask-image-modeling. On peut se demander pourquoi l’objectif sur image masquée n’a pas empêché ce comportement, alors même qu’il exige la préservation d’information dans les caractéristiques de patch

  • Il semble nécessaire de distinguer les biais propres au dataset de ceux liés aux labels. Le SSL est moins affecté par les biais de labels, mais des biais liés à la source des données, comme Instagram vs iNaturalist, peuvent toujours subsister

  • Il est suggéré que les tokens aberrants apparaissent dans les modèles plus grands, mais ce n’est pas le cas dans les modèles base de CLIP/DEIT. Un commentaire à ce sujet à la fin de la section 2.2 serait bienvenu

  • On peut se demander comment les performances en détection d’objets non supervisée du modèle DINO avec registres se comparent à celles d’autres modèles aux capacités similaires, comme CLIP d’OpenAI ou LiT de Google

  • Il serait intéressant d’analyser si le phénomène de tokens aberrants observé dans les modèles basés sur ViT apparaît aussi dans les modèles basés sur CNN, ou s’il est propre à l’architecture transformer

  • Dans les applications réelles, il serait utile d’avoir des recommandations sur une éventuelle baisse de performance due à l’augmentation du coût de calcul lors de l’utilisation de tokens de registre, ainsi que sur la manière de déterminer le nombre optimal de registres

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.