- "ConvNets Match Vision Transformers at Scale"
- Il est généralement admis que les ConvNet offrent de bonnes performances sur des jeux de données de petite à moyenne taille, mais qu’ils ne rivalisent pas avec les transformeurs, en particulier les Vision Transformers (ViT), sur des jeux de données extrêmement vastes
- La dernière recherche de DeepMind remet en cause cette idée
- On considérait jusqu’ici que la capacité de passage à l’échelle des transformeurs dépassait celle des ConvNet, mais les preuves à l’appui restaient limitées
- Les auteurs utilisent la famille NFNet (Normalizer-Free ResNets) pour augmenter progressivement la largeur et la profondeur du réseau
- Pré-entraînement sur JFT-4B, puis fine-tuning sur ImageNet avec SAM (Sharpness-Aware Minimization)
- Le résultat montre des performances équivalentes à celles des modèles ViT
- Tous les modèles continuent de s’améliorer à mesure que davantage de puissance de calcul est ajoutée
Aucun commentaire pour le moment.