llama.cpp - Faire de l’inférence du modèle LLaMA de Facebook en pur C/C++

xguru · 2023-03-13T11:26:01+09:00

Vise à exécuter le modèle LLaMA sur MacBook avec une quantification en 4 bits Implémentation en pur C/C++ sans dépendances Optimisé pour le framework Arm Neon/Accelerate (Apple Silicon) Prise en charge d’AVX2 pour x86 Précision mixte F16/F32 Prise en charge de la quantification 4 bits Exécution sur CPU Actuellement pris en charge uniquement sur Mac/Linux. Prise en charge de Windows prévue

(github.com/ggerganov)

16 points par xguru 2023-03-13 | 1 commentaires | Partager sur WhatsApp

Vise à exécuter le modèle LLaMA sur MacBook avec une quantification en 4 bits
Implémentation en pur C/C++ sans dépendances
Optimisé pour le framework Arm Neon/Accelerate (Apple Silicon)
Prise en charge d’AVX2 pour x86
Précision mixte F16/F32
Prise en charge de la quantification 4 bits
Exécution sur CPU
Actuellement pris en charge uniquement sur Mac/Linux. Prise en charge de Windows prévue

1 commentaires

laeyoung 2023-03-14

J’ai fait tourner le modèle 7B, et il fonctionne mieux que je ne le pensais.

llama.cpp - Faire de l’inférence du modèle LLaMA de Facebook en pur C/C++

À lire aussi

1 commentaires