Réimplémenter à bas coût le modèle GPT-2 avec llm.c

(github.com/karpathy)

12 points par GN⁺ 2024-05-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Explication de la méthode pour reproduire le modèle GPT-2 (124M) avec llm.c en 90 minutes pour 20 $
GPT-2 (124M) est le plus petit modèle publié par OpenAI en 2019
En utilisant un nœud Lambda équipé de 8X A100 80GB SXM, le coût est d’environ 14 $/heure, soit environ 20 $ au total
- L’entraînement est aussi possible sur un seul GPU, mais cela prend plus de temps (4 à 24 heures)

Sur le jeu de validation FineWeb, les performances sont meilleures que celles du checkpoint publié par OpenAI
- Cela dit, GPT-2 a été entraîné sur WebText, la comparaison n’est donc pas totalement équitable
La précision sur HellaSwag a également été mesurée, avec un score de 29,9, proche des 33,7 de GPT-3 Small (124M)
- Le score de GPT-2 (124M), à 29,4, est déjà dépassé
- Ici toutefois, l’entraînement a été fait sur 10B tokens, contre 300B tokens pour GPT-3

Avec 10B tokens d’entraînement et une taille de batch de 0.5M, environ 20K étapes sont prévues
Sur un GPU A100 40GB PCIe, le temps par étape, le MFU et le débit de traitement des tokens sont affichés
Au début de l’entraînement, un phénomène de gradient exploding apparaît, mais il est résolu par clipping

Un notebook Jupyter est fourni pour parser les logs et visualiser les courbes d’entraînement

Pour l’instant, ce n’est pas optimisé pour l’inférence
Avec quelques modifications de code, le sampling unconditional/conditional est possible

L’essentiel de l’implémentation se trouve dans le fichier train_gpt2.cu
Les 500 premières lignes concernent la configuration de MPI, NCCL, cuDNN, cuBLAS, etc.
Les 1500 lignes suivantes couvrent le forward/backward du Transformer
Les 1000 lignes suivantes implémentent le modèle GPT-2
Les 1000 dernières lignes couvrent la boucle d’entraînement, le parsing des arguments, etc.

Sampling possible ? : Oui, mais c’est inefficace.
Possibilité de chat ? : Pour l’instant, seul le préentraînement est possible ; le fine-tuning pour le chat n’est pas pris en charge.
Entraînement distribué multi-nœuds : Possible, mais pas encore testé.
Déterminisme au bit près : Presque déterministe, mais certains patchs de kernel sont nécessaires.
Entraînement en FP8 possible ? : Actuellement l’entraînement se fait en BF16, le support FP8 est prévu bientôt.
Prise en charge des GPU non NVIDIA ? : Pour l’instant, seul C/CUDA est pris en charge.

L’avis de GN⁺

GPT-2 est un modèle extrêmement important comme point de départ des LLM modernes. Par la suite, GPT-3 et les autres LLM ne diffèrent pas fondamentalement de GPT-2.
Ce projet permet à tout le monde d’entraîner directement un modèle de niveau GPT-2 à un coût raisonnable. Cela devrait beaucoup aider à mieux comprendre les LLM.
En revanche, comme ce n’est pas encore optimisé pour l’inférence, son utilisation dans un service réel reste limitée. Le fine-tuning en modèle conversationnel n’est pas non plus pris en charge.
À l’heure actuelle, seuls les GPU NVIDIA sont pris en charge, mais on peut espérer à l’avenir un support de plateformes variées comme AMD ou Apple Silicon.
Parmi les projets open source poursuivant des objectifs similaires, on peut citer Megatron-LM, DeepSpeed et FairSeq. Chacun a ses avantages et ses inconvénients, et le choix dépendra de l’usage visé.
C’est un projet très encourageant pour dynamiser l’écosystème de développement des LLM. La suite est très prometteuse.