Unsloth : finetuner Llama 3 2x plus vite avec un contexte 6x plus long et 68 % de VRAM en moins

(unsloth.ai)

12 points par brainer 2024-04-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp

• Unsloth, un outil de fine-tuning pour les grands modèles de langage, prend désormais en charge les derniers modèles Llama 3 de Meta, permettant un fine-tuning 2 fois plus rapide et une réduction de 63 % de l'utilisation de la VRAM par rapport à Flash Attention 2 (FA2) et Hugging Face (HF).

• Avec Unsloth, la version 70B de Llama 3 effectue le fine-tuning 1,8 fois plus rapidement tout en utilisant 68 % de VRAM en moins, ce qui permet des longueurs de contexte bien plus importantes pendant le fine-tuning. Cela est particulièrement utile pour les tâches nécessitant un contexte étendu, comme les questions-réponses ou la génération de texte.

• Unsloth prend également en charge la quantification en 4 bits des modèles Llama 3, ce qui permet des téléchargements 4 fois plus rapides et réduit les besoins en mémoire. Des modèles 4 bits pré-quantifiés sont disponibles sur la page Hugging Face, à la fois pour les versions 70B instruct et base de Llama 3.

• Unsloth gère aussi certaines bizarreries et certains « bugs » propres à Llama 3, comme l'absence de token BOS dans le tokenizer et la présence, dans le modèle de base, de tokens qui n'ont pas été entraînés. Unsloth corrige automatiquement ces problèmes pendant le fine-tuning afin de garantir un entraînement précis et efficace.

Unsloth : finetuner Llama 3 2x plus vite avec un contexte 6x plus long et 68 % de VRAM en moins

À lire aussi

Aucun commentaire pour le moment.