Microsoft LLMLingua - compresser les prompts pour accélérer l’inférence et réduire les coûts

xguru · 2023-12-22T10:02:02+09:00

Utilise de petits modèles de langage bien entraînés et alignés, comme GPT2-small ou LLaMA-7B, pour la compression Détecte les tokens non essentiels dans le prompt et permet l’inférence avec des prompts compressés sur des LLM en boîte noire Compresse les prompts et le KV-Cache pour accélérer l’inférence des LLM et améliorer leur perception des informations clés Atteint jusqu’à 20x de compression avec une perte de performance minimale Réduit les coûts en diminuant le prompt et le contexte généré Permet de prendre en charge des contextes plus longs en augmentant la densité d’informations importantes dans le prompt

(github.com/microsoft)

10 points par xguru 2023-12-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Utilise de petits modèles de langage bien entraînés et alignés, comme GPT2-small ou LLaMA-7B, pour la compression
Détecte les tokens non essentiels dans le prompt et permet l’inférence avec des prompts compressés sur des LLM en boîte noire
- Compresse les prompts et le KV-Cache pour accélérer l’inférence des LLM et améliorer leur perception des informations clés
- Atteint jusqu’à 20x de compression avec une perte de performance minimale
Réduit les coûts en diminuant le prompt et le contexte généré
Permet de prendre en charge des contextes plus longs en augmentant la densité d’informations importantes dans le prompt

Microsoft LLMLingua - compresser les prompts pour accélérer l’inférence et réduire les coûts

À lire aussi

Aucun commentaire pour le moment.