Open-LLaMa - pipeline d’entraînement complet pour créer des LLM

xguru · 2023-05-16T10:02:01+09:00

Un projet open source qui couvre l’ensemble du pipeline, de la génération de jeux de données à la tokenisation, au prompt tuning, à LoRA et au RLHF Le modèle préentraîné Open-LLama-V2-pretrain est également disponible sur Hugging Face Selon la méthode d’évaluation de FastChat, il atteindrait environ 89 % des performances de GPT-3.5 (sur des questions en chinois) La vitesse d’entraînement est de 3 620 tokens/s, soit un peu plus rapide que les 3 370 de LLaMa original (modèle 7B) Un entraînement sur 500B de tokens nécessiterait 38 300 heures GPU Sur Google Cloud, utiliser 8 GPU A100-80G Spot pendant une heure coûte 12,6 dollars Le coût total est de 60 300 dollars

(github.com/s-JoL)

8 points par xguru 2023-05-16 | 2 commentaires | Partager sur WhatsApp

Un projet open source qui couvre l’ensemble du pipeline, de la génération de jeux de données à la tokenisation, au prompt tuning, à LoRA et au RLHF
Le modèle préentraîné Open-LLama-V2-pretrain est également disponible sur Hugging Face
Selon la méthode d’évaluation de FastChat, il atteindrait environ 89 % des performances de GPT-3.5 (sur des questions en chinois)
La vitesse d’entraînement est de 3 620 tokens/s, soit un peu plus rapide que les 3 370 de LLaMa original (modèle 7B)
Un entraînement sur 500B de tokens nécessiterait 38 300 heures GPU
- Sur Google Cloud, utiliser 8 GPU A100-80G Spot pendant une heure coûte 12,6 dollars
- Le coût total est de 60 300 dollars

2 commentaires

zer0ne 2023-05-16

Je me demande combien de temps cela prendrait si on l’entraînait sur un GPU grand public comme une 4090

xguru 2023-05-16

Le nom me disait quelque chose... En cherchant, je suis tombé sur
OpenLLaMA - la réplique open source de LLaMA
Il n’y a qu’un tiret de différence dans le nom, mais le contenu n’a absolument rien à voir : c’est un projet totalement différent.

Open-LLaMa - pipeline d’entraînement complet pour créer des LLM

À lire aussi

2 commentaires