La contre-attaque de l’empire de la convolution

xguru · 2023-10-31T10:03:01+09:00

"ConvNets Match Vision Transformers at Scale" Il est généralement admis que les ConvNet offrent de bonnes performances sur des jeux de données de petite à moyenne taille, mais qu’ils ne rivalisent pas avec les transformeurs, en particulier les Vision Transformers (ViT), sur des jeux de données extrêmement vastes La dernière recherche de DeepMind remet en cause cette idée On considérait jusqu’ici que la capacité de passage à l’échelle des transformeurs dépassait celle des ConvNet, mais les preuves à l’appui restaient limitées Les auteurs utilisent la famille NFNet (Normalizer-Free ResNets) pour augmenter progressivement la largeur et la profondeur du réseau Pré-entraînement sur JFT-4B, puis fine-tuning sur ImageNet avec SAM (Sharpness-Aware Minimization) Le résultat montre des performances équivalentes à celles des modèles ViT Tous les modèles continuent de s’améliorer à mesure que davantage de puissance de calcul est ajoutée

(substack.com/gonzoml)

6 points par xguru 2023-10-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp

"ConvNets Match Vision Transformers at Scale"
Il est généralement admis que les ConvNet offrent de bonnes performances sur des jeux de données de petite à moyenne taille, mais qu’ils ne rivalisent pas avec les transformeurs, en particulier les Vision Transformers (ViT), sur des jeux de données extrêmement vastes
La dernière recherche de DeepMind remet en cause cette idée
- On considérait jusqu’ici que la capacité de passage à l’échelle des transformeurs dépassait celle des ConvNet, mais les preuves à l’appui restaient limitées
- Les auteurs utilisent la famille NFNet (Normalizer-Free ResNets) pour augmenter progressivement la largeur et la profondeur du réseau
- Pré-entraînement sur JFT-4B, puis fine-tuning sur ImageNet avec SAM (Sharpness-Aware Minimization)
- Le résultat montre des performances équivalentes à celles des modèles ViT
- Tous les modèles continuent de s’améliorer à mesure que davantage de puissance de calcul est ajoutée

La contre-attaque de l’empire de la convolution

À lire aussi

Aucun commentaire pour le moment.