PowerInfer - Servir rapidement des LLM avec des GPU grand public

xguru · 2023-12-21T10:51:02+09:00

11 fois plus rapide que llama.cpp lors de l’exécution de Falcon(ReLU)-40B-FP16 sur une RTX 4090 (24G) Moteur d’inférence LLM hybride CPU/GPU qui exploite la localité d’activation du matériel Distinction entre une partie de neurones chauds activés de manière cohérente et la majorité des neurones froids qui varient selon l’entrée Les neurones chauds sont préchargés sur le GPU pour une activation rapide, tandis que les neurones froids sont calculés sur le CPU, ce qui réduit fortement les besoins en mémoire GPU et les transferts de données entre CPU et GPU Intègre un prédicteur adaptatif et un opérateur sparse sensible aux neurones afin d’optimiser l’efficacité de l’activation neuronale et de la sparsité des calculs Atteint, sur un seul GPU NVIDIA RTX 4090, une vitesse de génération moyenne de 13,20 tokens/s et un maximum de 29,08 tokens/s sur divers LLM (dont OPT-175B) Cela ne représente que 18 % de moins que ce qu’a atteint le GPU serveur haut de gamme A100 Dépasse largement les performances de llama.cpp, jusqu’à 11,69 fois, tout en maintenant la précision du modèle

(github.com/SJTU-IPADS)

16 points par xguru 2023-12-21 | 1 commentaires | Partager sur WhatsApp

11 fois plus rapide que llama.cpp lors de l’exécution de Falcon(ReLU)-40B-FP16 sur une RTX 4090 (24G)
Moteur d’inférence LLM hybride CPU/GPU qui exploite la localité d’activation du matériel
- Distinction entre une partie de neurones chauds activés de manière cohérente et la majorité des neurones froids qui varient selon l’entrée
- Les neurones chauds sont préchargés sur le GPU pour une activation rapide, tandis que les neurones froids sont calculés sur le CPU, ce qui réduit fortement les besoins en mémoire GPU et les transferts de données entre CPU et GPU
Intègre un prédicteur adaptatif et un opérateur sparse sensible aux neurones afin d’optimiser l’efficacité de l’activation neuronale et de la sparsité des calculs
Atteint, sur un seul GPU NVIDIA RTX 4090, une vitesse de génération moyenne de 13,20 tokens/s et un maximum de 29,08 tokens/s sur divers LLM (dont OPT-175B)
- Cela ne représente que 18 % de moins que ce qu’a atteint le GPU serveur haut de gamme A100
- Dépasse largement les performances de llama.cpp, jusqu’à 11,69 fois, tout en maintenant la précision du modèle

1 commentaires

cosine20 2023-12-28

Une 4090, c’est bien un GPU grand public, hein mdr.....

PowerInfer - Servir rapidement des LLM avec des GPU grand public

À lire aussi

1 commentaires