SlowLlama - Affiner Llama2-70b et CodeLlama sur M1/M2 sans quantification

xguru · 2023-10-09T10:32:01+09:00

Affiner des modèles comme Llama2-70B sur des puces Apple M1/M2 et des GPU nVidia grand public Au lieu d’utiliser la quantification, la méthode consiste à décharger une partie du modèle vers un SSD ou la mémoire principale pendant les passes forward et backward La version actuelle limite les mises à jour à un plus petit ensemble de paramètres en utilisant LoRA La première version permettait aussi l’affinage complet, mais cela a été retiré

(github.com/okuvshynov)

9 points par xguru 2023-10-09 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Affiner des modèles comme Llama2-70B sur des puces Apple M1/M2 et des GPU nVidia grand public
Au lieu d’utiliser la quantification, la méthode consiste à décharger une partie du modèle vers un SSD ou la mémoire principale pendant les passes forward et backward
La version actuelle limite les mises à jour à un plus petit ensemble de paramètres en utilisant LoRA
- La première version permettait aussi l’affinage complet, mais cela a été retiré

SlowLlama - Affiner Llama2-70b et CodeLlama sur M1/M2 sans quantification

À lire aussi

Aucun commentaire pour le moment.