- Bibliothèque open source pour l’inférence et le serving rapides de LLM
- Gestion efficace des clés/valeurs d’attention grâce à l’algorithme PagedAttention
- Un débit 24 fois supérieur à celui de HuggingFace Transformers, sans modification de l’architecture du modèle
- Permet de stocker des clés/valeurs contiguës dans un espace mémoire non contigu
- Déjà utilisé avec succès dans LMSYS Vicuna et Chatbot Arena
Aucun commentaire pour le moment.