Ajout de l’accélération CUDA GPU complète à llama.cpp
(github.com/ggerganov)- PR ajoutant l’accélération GPU à tous les tenseurs ggml restants
- Sur une RTX 3090, le traitement du prompt est accéléré de 2x, et la génération de tokens de 1,3x à 1,8x
- Sur une 4090 + i9, le modèle 7B q4 génère 109 tokens par seconde
Aucun commentaire pour le moment.