- 11 fois plus rapide que
llama.cpp lors de l’exécution de Falcon(ReLU)-40B-FP16 sur une RTX 4090 (24G)
- Moteur d’inférence LLM hybride CPU/GPU qui exploite la localité d’activation du matériel
- Distinction entre une partie de neurones chauds activés de manière cohérente et la majorité des neurones froids qui varient selon l’entrée
- Les neurones chauds sont préchargés sur le GPU pour une activation rapide, tandis que les neurones froids sont calculés sur le CPU, ce qui réduit fortement les besoins en mémoire GPU et les transferts de données entre CPU et GPU
- Intègre un prédicteur adaptatif et un opérateur sparse sensible aux neurones afin d’optimiser l’efficacité de l’activation neuronale et de la sparsité des calculs
- Atteint, sur un seul GPU NVIDIA RTX 4090, une vitesse de génération moyenne de 13,20 tokens/s et un maximum de 29,08 tokens/s sur divers LLM (dont OPT-175B)
- Cela ne représente que 18 % de moins que ce qu’a atteint le GPU serveur haut de gamme A100
- Dépasse largement les performances de
llama.cpp, jusqu’à 11,69 fois, tout en maintenant la précision du modèle
1 commentaires
Une 4090, c’est bien un GPU grand public, hein mdr.....