FlexGen - Exécuter des LLM comme ChatGPT sur un GPU unique
(github.com/FMInference)- Un moteur de génération hautes performances permettant d’exécuter des LLM dans des environnements GPU limités comme un T4 16 Go ou une RTX3090 24 Go
- Grâce à un offloading extrêmement rapide, jusqu’à environ 100x, il est possible d’exécuter un modèle 175B sur un seul GPU
- Compression maximale des paramètres et du cache d’attention (jusqu’à 4 bits avec une perte de précision quasi nulle)
- Extensible facilement à l’ajout de GPU grâce à un runtime parallèle distribué
Aucun commentaire pour le moment.