- Guide expliquant visuellement le fonctionnement de grands modèles de langage comme GPT-2, nano-gpt et GPT-3
- Sommaire : introduction et connaissances préalables, embeddings, normalisation de couche, self-attention, projection, MLP, transformeur, Softmax, sortie
Résumé de l’introduction complète
- Dans le cas de
nano-gpt, il y a 85 000 paramètres
- L’objectif est de trier par ordre alphabétique une chaîne donnée de six caractères
- On peut prendre comme exemple le processus qui reçoit la chaîne
C B A B B C et la trie en ABBBCC.
- Chaque caractère de la chaîne est appelé un « token », et le vocabulaire du modèle est composé de différents tokens
- Chaque token se voit attribuer un indice numérique, qui est ensuite fourni au modèle
- Chaque nombre est converti en un vecteur de 48 éléments, appelé « embedding »
- Les embeddings traversent ensuite une série de couches appelée « transformeur »
- Au final, le modèle prédit la probabilité du token suivant pour la séquence donnée
- Le token prédit est réinjecté en haut du modèle, et l’ensemble du processus se répète
1 commentaires
Avis Hacker News
Un outil extrêmement utile pour comprendre fondamentalement les LLM
model.pyde minGPT.Surprise de voir la complexité algorithmique clairement représentée dans un espace 3D
Cette visualisation est vraiment stupéfiante.
C’est la méthode de visualisation cherchée depuis des mois
On pourrait presque l’intituler « disséquer la magie en multiplications de matrices et produits scalaires »
Le modèle 3D est incroyablement efficace sur le plan pédagogique
Encore plus d’étonnement quant à la façon dont les LLM parviennent à si bien fonctionner
L’explication de la puissance de la self-attention est souvent absente
Davantage de contexte sur ce travail a été partagé dans le thread Twitter de l’auteur
Pour ceux qui veulent une version basse dimension pour leur propre modèle, la bibliothèque Netron est recommandée
Ce n’est pas juste un simple modèle 3D, c’est un travail approfondi
Cette visualisation est vraiment stupéfiante.
Voilà pourquoi on aime Hacker News