FlexGen - Exécuter des LLM comme ChatGPT sur un GPU unique

xguru · 2023-02-22T10:16:02+09:00

Un moteur de génération hautes performances permettant d’exécuter des LLM dans des environnements GPU limités comme un T4 16 Go ou une RTX3090 24 Go Grâce à un offloading extrêmement rapide, jusqu’à environ 100x, il est possible d’exécuter un modèle 175B sur un seul GPU Compression maximale des paramètres et du cache d’attention (jusqu’à 4 bits avec une perte de précision quasi nulle) Extensible facilement à l’ajout de GPU grâce à un runtime parallèle distribué

(github.com/FMInference)

14 points par xguru 2023-02-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Un moteur de génération hautes performances permettant d’exécuter des LLM dans des environnements GPU limités comme un T4 16 Go ou une RTX3090 24 Go
Grâce à un offloading extrêmement rapide, jusqu’à environ 100x, il est possible d’exécuter un modèle 175B sur un seul GPU
Compression maximale des paramètres et du cache d’attention (jusqu’à 4 bits avec une perte de précision quasi nulle)
Extensible facilement à l’ajout de GPU grâce à un runtime parallèle distribué

FlexGen - Exécuter des LLM comme ChatGPT sur un GPU unique

À lire aussi

Aucun commentaire pour le moment.