Amélioration de 10 à 100 fois de la vitesse de chargement des poids du modèle dans Llama.cpp

xguru · 2023-04-03T10:03:01+09:00

Grâce à un changement de format de fichier, l'utilisation de mmap() devient possible sans read(), ce qui accélère le chargement des poids de 10 à 100 fois La prise en charge des modèles 7B en fichier unique ainsi que des 13B en plusieurs fichiers a également été ajoutée, et le code de chargement est devenu beaucoup plus simple Ce changement permet aussi d'aligner les tenseurs sur des frontières de 32 octets, ce qui peut apporter des gains de performance supplémentaires sur certains processeurs

(github.com/ggerganov)

13 points par xguru 2023-04-03 | 1 commentaires | Partager sur WhatsApp

Grâce à un changement de format de fichier, l'utilisation de mmap() devient possible sans read(), ce qui accélère le chargement des poids de 10 à 100 fois
La prise en charge des modèles 7B en fichier unique ainsi que des 13B en plusieurs fichiers a également été ajoutée, et le code de chargement est devenu beaucoup plus simple
Ce changement permet aussi d'aligner les tenseurs sur des frontières de 32 octets, ce qui peut apporter des gains de performance supplémentaires sur certains processeurs

1 commentaires

xguru 2023-04-03

LLaMA - LLM de 65 milliards de paramètres publié par Meta
llama.cpp - inférer le modèle LLaMA de Facebook en pur C/C++

Amélioration de 10 à 100 fois de la vitesse de chargement des poids du modèle dans Llama.cpp

À lire aussi

1 commentaires