Présentation du blog
- Il s’agit du huitième article d’une série de blog basée sur le livre de Sebastian Raschka, "Build a Large Language Model (from Scratch)".
- Cet article explique comment implémenter un "trainable self-attention".
Fonctionnement des LLM à base de transformeurs de type GPT, décodeur only
- Une chaîne de caractères est découpée en tokens, puis chaque token est mappé vers une séquence de vecteurs afin de créer des embeddings de tokens.
- Des embeddings positionnels sont générés pour former la séquence d’embeddings d’entrée.
- Les embeddings d’entrée sont utilisés pour générer des scores d’attention pour chaque token.
- Les scores d’attention sont normalisés afin de produire des poids d’attention.
- Un vecteur de contexte est généré pour chaque token.
Mécanisme d’attention à produit scalaire mis à l’échelle
- Les scores d’attention sont calculés en projetant la séquence d’entrée dans trois matrices (query, key, value).
- Les scores d’attention sont normalisés pour produire des poids d’attention, qui servent ensuite à calculer les vecteurs de contexte.
- L’ensemble de ce processus est réalisé via des multiplications de matrices efficaces.
Projection entre espaces à l’aide de matrices
- Les matrices servent à projeter des vecteurs dans des espaces de dimensions différentes.
- Les embeddings d’entrée sont projetés dans les espaces query, key et value afin de calculer les scores d’attention.
Normalisation des scores d’attention
- La fonction softmax est utilisée pour normaliser les scores d’attention.
- La normalisation en divisant par la racine carrée de la dimension permet de résoudre le problème des faibles gradients.
Génération des vecteurs de contexte
- Les poids d’attention sont utilisés pour calculer le vecteur de contexte de chaque token.
- Les embeddings d’entrée sont projetés dans l’espace value, puis combinés par somme pondérée avec les poids d’attention afin de produire les vecteurs de contexte.
Étapes suivantes
- Les prochains articles traiteront du self-attention causal et de l’attention multi-têtes.
- Une exploration du "pourquoi" du mécanisme de self-attention est également prévue.
Conclusion
- Cet article de blog peut aider à mieux comprendre le mécanisme de self-attention.
- Des questions ou remarques supplémentaires peuvent être laissées en commentaire.
Aucun commentaire pour le moment.