- Présentation succincte du fonctionnement de nano-gpt, un grand modèle de langage basé sur GPT
- L’objectif de ce modèle est de prendre une séquence de 6 caractères et de les trier par ordre alphabétique
- Chaque caractère est considéré comme un token et chaque token possède un indice de token unique
- Chaque indice de token est converti en un vecteur d’embedding de dimension 48, puis traverse une série de couches de transformer
- Le modèle prédit le token suivant, et le résultat peut être réinjecté de façon répétée pour faire évoluer la séquence d’entrée
Introduction au modèle de langage GPT
- Ce document explique visuellement le fonctionnement d’un grand modèle de langage GPT
- Ici, il utilise un modèle très compact appelé nano-gpt (environ 85�00 paramètres)
- L’objectif du modèle est de recevoir une séquence de 6 caractères et de la trier par ordre alphabétique (par ex.
ABBBCC)
Tokens et vocabulaire
- Chaque caractère est défini comme un token, et l’ensemble de tous les tokens reconnus par le modèle est appelé vocabulaire (vocabulary)
- Dans le tableau, chaque token reçoit un numéro unique (indice de token)
- La séquence numérique de ces indices de token est utilisée comme entrée du modèle
Transformation de l’entrée et embeddings
- Dans la visualisation 3D, les cellules vertes représentent les nombres en cours de traitement, et les cellules bleues représentent les poids (weights) du modèle
- Chaque nombre d’entrée est converti en un vecteur d’embedding de dimension 48
- Cet embedding traverse successivement plusieurs couches de transformer dans l’architecture du modèle
Sortie et processus de prédiction
- La sortie du modèle se présente sous la forme des probabilités du token suivant prédit pour cette séquence
- À la 6e position d’entrée, il prédit la distribution de probabilité du prochain token parmi
A, B, C
- Dans l’exemple, le modèle prédit que
A a la probabilité la plus élevée
- En réinjectant cette prédiction en entrée et en répétant le processus, il génère progressivement la séquence complète
1 commentaires
Avis sur Hacker News
LLM Visualization - décembre 2023, 131 commentaires
https://poloclub.github.io/transformer-explainer/
Et je recommande aussi la célèbre ressource de visualisation intitulée « The Illustrated Transformer »
https://jalammar.github.io/illustrated-transformer/
Il y a également un billet de Sebastian Raschka, PhD, sur l’architecture
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Ce commentaire sur Hacker News permet aussi de voir diverses ressources au même endroit
https://news.ycombinator.com/item?id=35712334
https://alphacode.deepmind.com/
(sur mobile, il suffit d’appuyer sur lecture, de dézoomer complètement, puis de faire défiler vers le bas)