vLLM : servir des LLM facilement, rapidement et à moindre coût grâce à PagedAttention

xguru · 2023-06-23T10:32:02+09:00

Bibliothèque open source pour l’inférence et le serving rapides de LLM Gestion efficace des clés/valeurs d’attention grâce à l’algorithme PagedAttention Un débit 24 fois supérieur à celui de HuggingFace Transformers, sans modification de l’architecture du modèle Permet de stocker des clés/valeurs contiguës dans un espace mémoire non contigu Déjà utilisé avec succès dans LMSYS Vicuna et Chatbot Arena

(vllm.ai)

8 points par xguru 2023-06-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Bibliothèque open source pour l’inférence et le serving rapides de LLM
Gestion efficace des clés/valeurs d’attention grâce à l’algorithme PagedAttention
- Un débit 24 fois supérieur à celui de HuggingFace Transformers, sans modification de l’architecture du modèle
- Permet de stocker des clés/valeurs contiguës dans un espace mémoire non contigu
Déjà utilisé avec succès dans LMSYS Vicuna et Chatbot Arena

vLLM : servir des LLM facilement, rapidement et à moindre coût grâce à PagedAttention

À lire aussi

Aucun commentaire pour le moment.