Allocation dynamique du calcul dans les modèles de langage basés sur les transformers
- Les modèles de langage basés sur les transformers répartissent généralement les FLOPs (opérations en virgule flottante) de manière uniforme sur l’ensemble de la séquence d’entrée.
- L’équipe de recherche montre que les transformers peuvent être entraînés à allouer dynamiquement les FLOPs à des positions spécifiques.
- Cette méthode optimise l’allocation sur la séquence à travers différentes couches du modèle en profondeur.
Nouvelle méthodologie : Mixture-of-Depths
- Pour limiter le budget total de calcul, le nombre de tokens pouvant participer aux calculs de self-attention et de MLP est plafonné à
k.
- Le réseau utilise un mécanisme de routage top-k pour décider quels tokens traiter.
- Comme
k est défini à l’avance, cette approche utilise un graphe de calcul statique avec des tailles de tenseurs connues, contrairement à d’autres techniques de calcul conditionnel.
Efficacité et performances
- Comme l’identité des tokens est variable, cette méthode peut consommer les FLOPs de manière non uniforme dans le temps et selon la profondeur du modèle.
- La dépense de calcul est totalement prévisible au total, mais reste dynamique et sensible au contexte au niveau des tokens.
- Les modèles entraînés avec cette méthode n’allouent pas seulement le calcul de manière dynamique, mais aussi de manière efficace.
- À FLOPs égaux et à temps d’entraînement réel équivalent, ces modèles atteignent les performances de référence tout en ne nécessitant qu’une fraction des FLOPs par passe avant, et peuvent être jusqu’à 50 % plus rapides lors de l’échantillonnage après l’entraînement.
Avis de GN⁺
- Cette étude traite d’un sujet important d’efficacité en traitement automatique du langage naturel (NLP) et propose une nouvelle approche pour réduire le coût de calcul des modèles transformers.
- L’allocation dynamique du calcul peut être particulièrement utile pour réduire la consommation d’énergie et les coûts, notamment lors de l’utilisation de grands modèles de langage.
- Toutefois, une validation et une optimisation supplémentaires seront nécessaires pour intégrer cette technique dans des applications réelles.
- Cette recherche apporte de nouvelles idées à la communauté du machine learning et pourrait notamment influencer le déploiement de modèles de langage dans des environnements à ressources limitées, comme le cloud computing.
- D’un point de vue critique, des recherches supplémentaires seront nécessaires pour déterminer si cette méthode produit les mêmes effets sur tous les types de modèles de langage et de jeux de données, ainsi que pour identifier les tâches sur lesquelles elle est la plus efficace.
Aucun commentaire pour le moment.