8 points par xguru 2023-06-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Bibliothèque open source pour l’inférence et le serving rapides de LLM
  • Gestion efficace des clés/valeurs d’attention grâce à l’algorithme PagedAttention
    • Un débit 24 fois supérieur à celui de HuggingFace Transformers, sans modification de l’architecture du modèle
    • Permet de stocker des clés/valeurs contiguës dans un espace mémoire non contigu
  • Déjà utilisé avec succès dans LMSYS Vicuna et Chatbot Arena

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.