Résumé
- Dans les réseaux de neurones modernes, les couches de normalisation ont longtemps été considérées comme indispensables.
- Cette étude montre qu’il est possible d’obtenir des performances identiques, voire meilleures, même sans normalisation.
- Elle présente une méthode simple appelée Dynamic Tanh (DyT), qui peut remplacer les couches de normalisation.
- DyT offre dans la plupart des cas des performances équivalentes ou supérieures aux modèles normalisés, principalement sans réglage supplémentaire des hyperparamètres.
- L’efficacité de DyT a été validée dans diverses configurations, ce qui amène à reconsidérer le caractère indispensable des couches de normalisation.
Implémentation
- Le module DyT peut être implémenté en quelques lignes de code PyTorch.
Principales découvertes
- La normalisation de couche se comporte comme une fonction
tanh mise à l’échelle.
- Dans les premières couches, le comportement est principalement linéaire, tandis que dans les couches profondes, on observe la courbe en S caractéristique de la fonction
tanh.
Évaluation
- L’effet et la généralité de DyT ont été évalués sur diverses architectures et tâches.
- Dans tous les cas, les Transformers utilisant DyT ont affiché des performances similaires ou supérieures à celles des modèles normalisés.
Ressources
- Des informations détaillées sur la recherche sont disponibles via le téléchargement de l’article.
- Les détails d’implémentation sont disponibles dans le dépôt GitHub.
Aucun commentaire pour le moment.