llama.cpp - Faire de l’inférence du modèle LLaMA de Facebook en pur C/C++
(github.com/ggerganov)- Vise à exécuter le modèle LLaMA sur MacBook avec une quantification en 4 bits
- Implémentation en pur C/C++ sans dépendances
- Optimisé pour le framework Arm Neon/Accelerate (Apple Silicon)
- Prise en charge d’AVX2 pour x86
- Précision mixte F16/F32
- Prise en charge de la quantification 4 bits
- Exécution sur CPU
- Actuellement pris en charge uniquement sur Mac/Linux. Prise en charge de Windows prévue
Aucun commentaire pour le moment.