Introduction
- Cet article explore la manière dont les petits modèles de langage prédisent le token suivant.
- Au lieu de se focaliser sur le mécanisme de self-attention des modèles Transformer, il explique comment le résultat du calcul d’attention se transforme en une prédiction exacte du token suivant.
- L’auteur examine les états internes d’un petit Transformer fonctionnel et partage des résultats précieux issus de six mois d’exploration approfondie.
Structure des blocs Transformer
- Un bloc Transformer se compose d’une couche de self-attention multi-têtes et d’un réseau feedforward.
- La sortie du réseau feedforward est l’élément principal qui détermine la manière dont le bloc transforme l’entrée en sortie.
Proposition : comment fonctionne un Transformer
- Chaque bloc Transformer apprend des poids qui associent un prompt donné à une classe de chaînes de caractères présente dans les données d’entraînement.
- La distribution des tokens qui suivent cette classe de chaînes correspond approximativement à ce que le bloc produit comme prédiction du token suivant.
Implémentation : approximation de la sortie d’un Transformer à l’aide de la sortie du réseau feedforward
- L’auteur présente une procédure concrète qui utilise la sortie du réseau feedforward pour approximer la sortie du Transformer.
- Cette procédure commence par l’exécution du prompt dans le modèle et l’enregistrement de la sortie du réseau feedforward pour chaque bloc.
- On recherche ensuite dans les données d’entraînement des chaînes qui produisent des sorties de réseau feedforward similaires, puis on construit la distribution de fréquence des tokens qui suivent ces chaînes.
- Ces distributions sont additionnées avec pondération puis normalisées afin d’obtenir la distribution de probabilité finale.
Avis de GN⁺
- Cette étude apporte une compréhension approfondie du fonctionnement interne des modèles Transformer. En particulier, les éclairages sur les étapes qui suivent l’auto-attention sont importants pour comprendre le mécanisme de prédiction de ces modèles.
- L’approche de l’auteur fournit une explication claire de la manière dont les Transformers reconnaissent des motifs dans les données d’entraînement et s’en servent pour prédire le token suivant.
- Cet article peut constituer une ressource utile pour les personnes qui étudient ou développent des modèles Transformer, et contribuer à approfondir la compréhension du traitement du langage par l’IA.
1 commentaires
Commentaires Hacker News
Il ne faut pas être surpris par de nouveaux phénomènes. Si l’on ne lit pas la théorie déjà établie, on peut naturellement se retrouver déconcerté par des phénomènes qui émergent spontanément.
Réaction positive au fait qu’après que Google a signalé qu’en faisant répéter le même mot à ChatGPT, celui-ci finit par recracher textuellement ses données d’entraînement, quelqu’un l’ait effectivement mis en pratique.
Surprise face au phénomène où l’attention (Attention) et les réseaux FF (Feed Forward) pointent dans la même direction.
En entraînant un petit modèle en suivant le tutoriel NanoGPT d’Andrej Karpathy, il semblait comprendre dans une certaine mesure la grammaire russe complexe.
Question sur le fait de savoir si les LLM sont des générateurs de texte par chaîne de Markov.
Le modèle étudié est en réalité un simple modèle jouet, qui pourrait être approximé par un modèle encore plus simple.
Il est difficile de comprendre exactement ce que l’auteur cherche à affirmer.
La visualisation 3D du système LLM est utile et mérite d’être consultée en parallèle pour un effet maximal.
Publication étrange sur ce que font réellement les transformers.