9 points par xguru 2023-10-09 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Affiner des modèles comme Llama2-70B sur des puces Apple M1/M2 et des GPU nVidia grand public
  • Au lieu d’utiliser la quantification, la méthode consiste à décharger une partie du modèle vers un SSD ou la mémoire principale pendant les passes forward et backward
  • La version actuelle limite les mises à jour à un plus petit ensemble de paramètres en utilisant LoRA
    • La première version permettait aussi l’affinage complet, mais cela a été retiré

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.