10 points par xguru 2023-12-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Utilise de petits modèles de langage bien entraînés et alignés, comme GPT2-small ou LLaMA-7B, pour la compression
  • Détecte les tokens non essentiels dans le prompt et permet l’inférence avec des prompts compressés sur des LLM en boîte noire
    • Compresse les prompts et le KV-Cache pour accélérer l’inférence des LLM et améliorer leur perception des informations clés
    • Atteint jusqu’à 20x de compression avec une perte de performance minimale
  • Réduit les coûts en diminuant le prompt et le contexte généré
  • Permet de prendre en charge des contextes plus longs en augmentant la densité d’informations importantes dans le prompt

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.