8 points par xguru 2023-03-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une version forkée qui permet d’exécuter le LLaMA-13B de Meta avec seulement 24 Gio de RAM
    • Autrement dit, il peut fonctionner avec une seule RTX4090/3090
  • En théorie, il est possible d’exécuter LLaMA-65B sur un seul A100 de 80 Go
  • Modifications apportées
    • Suppression de la structure de traitement parallèle
    • Quantification des weights de la machine hôte
    • Chargement progressif des weights pour éviter les problèmes de mémoire
    • Utilisation de bitsandbytes et de tqdm
    • Réglage de la pénalité de répétition (valeur par défaut : 1,15)
  • Sur une machine Ubuntu équipée d’une RTX4090 et de 64 Go de RAM, le chargement et la quantification du modèle prennent environ 25 secondes

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.