2 points par GN⁺ 2025-03-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Présentation du blog

  • Il s’agit du huitième article d’une série de blog basée sur le livre de Sebastian Raschka, "Build a Large Language Model (from Scratch)".
  • Cet article explique comment implémenter un "trainable self-attention".

Fonctionnement des LLM à base de transformeurs de type GPT, décodeur only

  • Une chaîne de caractères est découpée en tokens, puis chaque token est mappé vers une séquence de vecteurs afin de créer des embeddings de tokens.
  • Des embeddings positionnels sont générés pour former la séquence d’embeddings d’entrée.
  • Les embeddings d’entrée sont utilisés pour générer des scores d’attention pour chaque token.
  • Les scores d’attention sont normalisés afin de produire des poids d’attention.
  • Un vecteur de contexte est généré pour chaque token.

Mécanisme d’attention à produit scalaire mis à l’échelle

  • Les scores d’attention sont calculés en projetant la séquence d’entrée dans trois matrices (query, key, value).
  • Les scores d’attention sont normalisés pour produire des poids d’attention, qui servent ensuite à calculer les vecteurs de contexte.
  • L’ensemble de ce processus est réalisé via des multiplications de matrices efficaces.

Projection entre espaces à l’aide de matrices

  • Les matrices servent à projeter des vecteurs dans des espaces de dimensions différentes.
  • Les embeddings d’entrée sont projetés dans les espaces query, key et value afin de calculer les scores d’attention.

Normalisation des scores d’attention

  • La fonction softmax est utilisée pour normaliser les scores d’attention.
  • La normalisation en divisant par la racine carrée de la dimension permet de résoudre le problème des faibles gradients.

Génération des vecteurs de contexte

  • Les poids d’attention sont utilisés pour calculer le vecteur de contexte de chaque token.
  • Les embeddings d’entrée sont projetés dans l’espace value, puis combinés par somme pondérée avec les poids d’attention afin de produire les vecteurs de contexte.

Étapes suivantes

  • Les prochains articles traiteront du self-attention causal et de l’attention multi-têtes.
  • Une exploration du "pourquoi" du mécanisme de self-attention est également prévue.

Conclusion

  • Cet article de blog peut aider à mieux comprendre le mécanisme de self-attention.
  • Des questions ou remarques supplémentaires peuvent être laissées en commentaire.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.