1 points par GN⁺ 2025-03-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Résumé

  • Dans les réseaux de neurones modernes, les couches de normalisation ont longtemps été considérées comme indispensables.
  • Cette étude montre qu’il est possible d’obtenir des performances identiques, voire meilleures, même sans normalisation.
  • Elle présente une méthode simple appelée Dynamic Tanh (DyT), qui peut remplacer les couches de normalisation.
  • DyT offre dans la plupart des cas des performances équivalentes ou supérieures aux modèles normalisés, principalement sans réglage supplémentaire des hyperparamètres.
  • L’efficacité de DyT a été validée dans diverses configurations, ce qui amène à reconsidérer le caractère indispensable des couches de normalisation.

Implémentation

  • Le module DyT peut être implémenté en quelques lignes de code PyTorch.

Principales découvertes

  • La normalisation de couche se comporte comme une fonction tanh mise à l’échelle.
  • Dans les premières couches, le comportement est principalement linéaire, tandis que dans les couches profondes, on observe la courbe en S caractéristique de la fonction tanh.

Évaluation

  • L’effet et la généralité de DyT ont été évalués sur diverses architectures et tâches.
  • Dans tous les cas, les Transformers utilisant DyT ont affiché des performances similaires ou supérieures à celles des modèles normalisés.

Ressources

  • Des informations détaillées sur la recherche sont disponibles via le téléchargement de l’article.
  • Les détails d’implémentation sont disponibles dans le dépôt GitHub.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.