8 points par xguru 2023-06-14 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • PR ajoutant l’accélération GPU à tous les tenseurs ggml restants
  • Sur une RTX 3090, le traitement du prompt est accéléré de 2x, et la génération de tokens de 1,3x à 1,8x
  • Sur une 4090 + i9, le modèle 7B q4 génère 109 tokens par seconde

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.