6 points par xguru 2023-10-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • "ConvNets Match Vision Transformers at Scale"
  • Il est généralement admis que les ConvNet offrent de bonnes performances sur des jeux de données de petite à moyenne taille, mais qu’ils ne rivalisent pas avec les transformeurs, en particulier les Vision Transformers (ViT), sur des jeux de données extrêmement vastes
  • La dernière recherche de DeepMind remet en cause cette idée
    • On considérait jusqu’ici que la capacité de passage à l’échelle des transformeurs dépassait celle des ConvNet, mais les preuves à l’appui restaient limitées
    • Les auteurs utilisent la famille NFNet (Normalizer-Free ResNets) pour augmenter progressivement la largeur et la profondeur du réseau
    • Pré-entraînement sur JFT-4B, puis fine-tuning sur ImageNet avec SAM (Sharpness-Aware Minimization)
    • Le résultat montre des performances équivalentes à celles des modèles ViT
    • Tous les modèles continuent de s’améliorer à mesure que davantage de puissance de calcul est ajoutée

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.