13 points par xguru 2023-05-02 | 1 commentaires | Partager sur WhatsApp
  • Prise en charge de la quantification entière (integer quantization) : possibilité de convertir les modèles Whisper ggml à partir des poids en virgule flottante 16 bits par défaut vers des poids entiers de 4, 6 ou 8 bits
    • Réduit la taille sur disque et l'utilisation mémoire, avec une exécution plus rapide sur certaines architectures
    • Rendu possible grâce au code contribué au projet llama.cpp
  • Prise en charge des GPU NVIDIA via cuBLAS