- Utilise de petits modèles de langage bien entraînés et alignés, comme GPT2-small ou LLaMA-7B, pour la compression
- Détecte les tokens non essentiels dans le prompt et permet l’inférence avec des prompts compressés sur des LLM en boîte noire
- Compresse les prompts et le KV-Cache pour accélérer l’inférence des LLM et améliorer leur perception des informations clés
- Atteint jusqu’à 20x de compression avec une perte de performance minimale
- Réduit les coûts en diminuant le prompt et le contexte généré
- Permet de prendre en charge des contextes plus longs en augmentant la densité d’informations importantes dans le prompt
Aucun commentaire pour le moment.