SlowLlama - Affiner Llama2-70b et CodeLlama sur M1/M2 sans quantification
(github.com/okuvshynov)- Affiner des modèles comme Llama2-70B sur des puces Apple M1/M2 et des GPU nVidia grand public
- Au lieu d’utiliser la quantification, la méthode consiste à décharger une partie du modèle vers un SSD ou la mémoire principale pendant les passes forward et backward
- La version actuelle limite les mises à jour à un plus petit ensemble de paramètres en utilisant LoRA
- La première version permettait aussi l’affinage complet, mais cela a été retiré
Aucun commentaire pour le moment.