- Article sur le déploiement d’applications en streaming pour les grands modèles de langage (Large Language Models, LLMs), un défi en raison de la consommation mémoire et de la capacité limitée des LLMs à généraliser à des textes plus longs que la longueur de séquence d’entraînement.
- Les auteurs introduisent le concept d’"attention sink", qui désigne le phénomène de scores d’attention élevés vers les premiers tokens, même lorsqu’ils ne sont pas importants sur le plan sémantique.
- Les auteurs présentent StreamingLLM, un framework efficace qui permet à des LLMs entraînés avec une fenêtre d’attention de longueur finie de généraliser à des longueurs de séquence infinies sans ajustement fin.
- StreamingLLM permet à des modèles comme Llama-2, MPT, Falcon et Pythia d’effectuer une modélisation du langage stable et efficace jusqu’à plus de 4 millions de tokens.
- Les auteurs ont également constaté que l’ajout d’un token placeholder dédié comme attention sink pendant le pré-entraînement peut encore améliorer le déploiement en streaming.
- En configuration de streaming, StreamingLLM surpasse le baseline de recomputation par fenêtre glissante avec une vitesse pouvant aller jusqu’à 22,2 fois supérieure.
- Les auteurs précisent que la fenêtre de contexte des LLMs n’est pas étendue dans StreamingLLM et que le modèle ne peut traiter que les tokens les plus récents.
- StreamingLLM est idéal pour des applications en streaming, comme les conversations multi-tours, où le modèle doit continuer à fonctionner sans dépendre d’une mémoire importante ni de données passées.
- Les auteurs prévoient de publier le code principal de StreamingLLM, incluant Llama-2, MPT, Falcon et Pythia, ainsi que le code de perplexité, une démo de chatbot Streaming Llama, le dataset StreamEval et le code d’évaluation.
Aucun commentaire pour le moment.