Amélioration de 10 à 100 fois de la vitesse de chargement des poids du modèle dans Llama.cpp
(github.com/ggerganov)- Grâce à un changement de format de fichier, l'utilisation de
mmap()devient possible sansread(), ce qui accélère le chargement des poids de 10 à 100 fois - La prise en charge des modèles 7B en fichier unique ainsi que des 13B en plusieurs fichiers a également été ajoutée, et le code de chargement est devenu beaucoup plus simple
- Ce changement permet aussi d'aligner les tenseurs sur des frontières de 32 octets, ce qui peut apporter des gains de performance supplémentaires sur certains processeurs
1 commentaires
LLaMA - LLM de 65 milliards de paramètres publié par Meta
llama.cpp - inférer le modèle LLaMA de Facebook en pur C/C++