- Une version forkée qui permet d’exécuter le LLaMA-13B de Meta avec seulement 24 Gio de RAM
- Autrement dit, il peut fonctionner avec une seule RTX4090/3090
- En théorie, il est possible d’exécuter LLaMA-65B sur un seul A100 de 80 Go
- Modifications apportées
- Suppression de la structure de traitement parallèle
- Quantification des weights de la machine hôte
- Chargement progressif des weights pour éviter les problèmes de mémoire
- Utilisation de
bitsandbytes et de tqdm
- Réglage de la pénalité de répétition (valeur par défaut : 1,15)
- Sur une machine Ubuntu équipée d’une RTX4090 et de 64 Go de RAM, le chargement et la quantification du modèle prennent environ 25 secondes
Aucun commentaire pour le moment.