Ajout de l’accélération CUDA GPU complète à llama.cpp

xguru · 2023-06-14T10:46:02+09:00

PR ajoutant l’accélération GPU à tous les tenseurs ggml restants Sur une RTX 3090, le traitement du prompt est accéléré de 2x, et la génération de tokens de 1,3x à 1,8x Sur une 4090 + i9, le modèle 7B q4 génère 109 tokens par seconde

(github.com/ggerganov)

8 points par xguru 2023-06-14 | Aucun commentaire pour le moment. | Partager sur WhatsApp

PR ajoutant l’accélération GPU à tous les tenseurs ggml restants
Sur une RTX 3090, le traitement du prompt est accéléré de 2x, et la génération de tokens de 1,3x à 1,8x
Sur une 4090 + i9, le modèle 7B q4 génère 109 tokens par seconde

Ajout de l’accélération CUDA GPU complète à llama.cpp

À lire aussi

Aucun commentaire pour le moment.