16 points par xguru 2023-03-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Vise à exécuter le modèle LLaMA sur MacBook avec une quantification en 4 bits
  • Implémentation en pur C/C++ sans dépendances
  • Optimisé pour le framework Arm Neon/Accelerate (Apple Silicon)
  • Prise en charge d’AVX2 pour x86
  • Précision mixte F16/F32
  • Prise en charge de la quantification 4 bits
  • Exécution sur CPU
  • Actuellement pris en charge uniquement sur Mac/Linux. Prise en charge de Windows prévue

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.