16 points par xguru 2023-03-13 | 1 commentaires | Partager sur WhatsApp
  • Vise à exécuter le modèle LLaMA sur MacBook avec une quantification en 4 bits
  • Implémentation en pur C/C++ sans dépendances
  • Optimisé pour le framework Arm Neon/Accelerate (Apple Silicon)
  • Prise en charge d’AVX2 pour x86
  • Précision mixte F16/F32
  • Prise en charge de la quantification 4 bits
  • Exécution sur CPU
  • Actuellement pris en charge uniquement sur Mac/Linux. Prise en charge de Windows prévue

1 commentaires

 
laeyoung 2023-03-14

J’ai fait tourner le modèle 7B, et il fonctionne mieux que je ne le pensais.