1 points par GN⁺ 2024-04-15 | 1 commentaires | Partager sur WhatsApp

Réseaux de neurones

Visualiser l’attention, le cœur des Transformers | Chapitre 6, deep learning

  • Publié le 7 avril 2024
  • Cours de Grant Sanderson
  • Code source fourni

Remerciements

  • Remerciements particuliers aux personnes ci-dessous qui ont soutenu la vidéo originale, ainsi qu’aux mécènes qui financent le projet actuel.
  • Si vous pensez que ce cours a de la valeur, n’hésitez pas à envisager de participer.
  • bruce obergg, regostras, Marco, Anthony Eufemio, Molly Mackinlay, Joshua Ouellette et bien d’autres

L’avis de GN⁺

  • Le mécanisme d’attention est la technologie clé des modèles Transformer, et il provoque des innovations non seulement en NLP mais aussi dans des domaines variés comme la vision par ordinateur. Le fait de l’expliquer à l’aide de visualisations devrait grandement aider à comprendre son fonctionnement.

  • Les modèles Transformer ont dépassé les limites des modèles de type RNN et ont permis le traitement parallèle, améliorant fortement les performances, mais en raison de leur complexité, ils ont tendance à être considérés comme des boîtes noires difficiles à interpréter. Cette tentative de les expliquer par la visualisation contribuera à réduire les malentendus sur les Transformers et à élargir leur champ d’application.

  • Cela dit, si la visualisation aide à une compréhension intuitive, elle peut difficilement constituer une preuve rigoureuse. Il faut donc faire preuve de prudence dans l’interprétation des résultats. Il faut aussi tenir compte du fait que la visualisation peut entraîner une perte d’information, par exemple à cause de la réduction de dimension.

  • Parmi les projets similaires, on trouve OpenAI Microscope, un outil qui visualise les activations neuronales à l’intérieur des modèles de deep learning. Il serait souhaitable de voir davantage d’initiatives, comme celles de 3Blue1Brown, qui rendent les modèles de deep learning plus faciles à comprendre.

1 commentaires

 
GN⁺ 2024-04-15
Avis Hacker News
  • La vidéo de 3Blue1Brown « But what is a GPT? » explique clairement le mécanisme d’attention des modèles Transformer. Elle montre particulièrement bien comment l’opération de produit matriciel entre Query et Key devient un goulot d’étranglement.
  • Une nouvelle idée appelée Ring Attention est une bonne façon d’améliorer ce problème de goulot d’étranglement. Comme ressource connexe, l’article « How to Build a 10M+ Token Context » est recommandé.
  • Les vidéos de 3Blue1Brown sur les réseaux de neurones ont une certaine continuité, donc il est utile de les regarder ensemble. Elles sont disponibles sur la page thématique Neural Networks.
  • Le mécanisme d’attention est plus proche d’une sorte de méta-fonction que d’une fonction spécifique. La combinaison de l’attention et des poids appris permet au Transformer d’apprendre des fonctions quasi arbitraires.
  • L’exemple du token « was » à la fin du roman est une excellente explication, facile à comprendre même pour des personnes non techniques. (vidéo, passage 3:58 - 4:28)
  • Utiliser une factorisation de rang faible de la matrice Value est plus intuitif que d’utiliser la matrice Value+Output.
  • Il est impressionnant de voir à quel point Grant Sanderson (3Blue1Brown) explique toujours des sujets complexes de manière claire et facile à comprendre. Je n’avais pas complètement compris les Transformers avant de regarder cette vidéo.