Les RNN étaient-ils vraiment tout ?
(arxiv.org)Informatique > Machine learning
- Titre : Les RNN étaient-ils vraiment tout ?
- Auteurs : Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh
- Date de soumission : 2 octobre 2024
Résumé
-
Contexte : En raison des limites de scalabilité des Transformers vis-à-vis de la longueur des séquences, l’intérêt pour des modèles séquentiels récurrents parallélisables est en hausse. Dans ce contexte, de nouvelles architectures récurrentes comme S4, Mamba et Aaren ont été proposées et atteignent des performances comparables.
-
Contenu de la recherche : Réexamen des réseaux neuronaux récurrents (RNN) traditionnels, à savoir les LSTM (1997) et les GRU (2014). Ces modèles étaient lents car ils nécessitaient la rétropropagation à travers le temps (BPTT), mais en supprimant la dépendance à l’état caché dans les portes d’entrée, d’oubli et de mise à jour, il devient possible de s’affranchir du BPTT et d’entraîner efficacement le modèle en parallèle.
-
Résultats : Introduction de versions minimalisées (
minLSTMs,minGRUs) qui (1) utilisent bien moins de paramètres que les modèles traditionnels, et (2) permettent une parallélisation complète à l’entraînement (175 fois plus rapide sur des séquences de longueur 512). Ces versions simplifiées de RNN présentent des performances empiriques en ligne avec celles des modèles séquentiels récents.
Le récapitulatif de GN⁺
- Cette étude est intéressante en ce qu’elle résout le goulot d’étranglement des modèles RNN traditionnels pour permettre un apprentissage parallèle.
- Elle remet en lumière le potentiel des RNN comme alternative pour dépasser les limites des Transformers.
- Elle pourrait contribuer à améliorer l’efficacité du sequence modeling dans les domaines du machine learning et de l’IA.
- Parmi les projets aux fonctions similaires, on trouve des modèles récents basés sur les Transformers.
Aucun commentaire pour le moment.