LLaMA : édition INT8

xguru · 2023-03-10T11:02:01+09:00

Une version forkée qui permet d’exécuter le LLaMA-13B de Meta avec seulement 24 Gio de RAM Autrement dit, il peut fonctionner avec une seule RTX4090/3090 En théorie, il est possible d’exécuter LLaMA-65B sur un seul A100 de 80 Go Modifications apportées Suppression de la structure de traitement parallèle Quantification des weights de la machine hôte Chargement progressif des weights pour éviter les problèmes de mémoire Utilisation de bitsandbytes et de tqdm Réglage de la pénalité de répétition (valeur par défaut : 1,15) Sur une machine Ubuntu équipée d’une RTX4090 et de 64 Go de RAM, le chargement et la quantification du modèle prennent environ 25 secondes

(github.com/tloen)

8 points par xguru 2023-03-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une version forkée qui permet d’exécuter le LLaMA-13B de Meta avec seulement 24 Gio de RAM
- Autrement dit, il peut fonctionner avec une seule RTX4090/3090
En théorie, il est possible d’exécuter LLaMA-65B sur un seul A100 de 80 Go
Modifications apportées
- Suppression de la structure de traitement parallèle
- Quantification des weights de la machine hôte
- Chargement progressif des weights pour éviter les problèmes de mémoire
- Utilisation de bitsandbytes et de tqdm
- Réglage de la pénalité de répétition (valeur par défaut : 1,15)
Sur une machine Ubuntu équipée d’une RTX4090 et de 64 Go de RAM, le chargement et la quantification du modèle prennent environ 25 secondes

LLaMA : édition INT8

À lire aussi

Aucun commentaire pour le moment.