2 points par GN⁺ 2024-02-05 | 1 commentaires | Partager sur WhatsApp

Introduction

  • Cet article explore la manière dont les petits modèles de langage prédisent le token suivant.
  • Au lieu de se focaliser sur le mécanisme de self-attention des modèles Transformer, il explique comment le résultat du calcul d’attention se transforme en une prédiction exacte du token suivant.
  • L’auteur examine les états internes d’un petit Transformer fonctionnel et partage des résultats précieux issus de six mois d’exploration approfondie.

Structure des blocs Transformer

  • Un bloc Transformer se compose d’une couche de self-attention multi-têtes et d’un réseau feedforward.
  • La sortie du réseau feedforward est l’élément principal qui détermine la manière dont le bloc transforme l’entrée en sortie.

Proposition : comment fonctionne un Transformer

  • Chaque bloc Transformer apprend des poids qui associent un prompt donné à une classe de chaînes de caractères présente dans les données d’entraînement.
  • La distribution des tokens qui suivent cette classe de chaînes correspond approximativement à ce que le bloc produit comme prédiction du token suivant.

Implémentation : approximation de la sortie d’un Transformer à l’aide de la sortie du réseau feedforward

  • L’auteur présente une procédure concrète qui utilise la sortie du réseau feedforward pour approximer la sortie du Transformer.
  • Cette procédure commence par l’exécution du prompt dans le modèle et l’enregistrement de la sortie du réseau feedforward pour chaque bloc.
  • On recherche ensuite dans les données d’entraînement des chaînes qui produisent des sorties de réseau feedforward similaires, puis on construit la distribution de fréquence des tokens qui suivent ces chaînes.
  • Ces distributions sont additionnées avec pondération puis normalisées afin d’obtenir la distribution de probabilité finale.

Avis de GN⁺

  • Cette étude apporte une compréhension approfondie du fonctionnement interne des modèles Transformer. En particulier, les éclairages sur les étapes qui suivent l’auto-attention sont importants pour comprendre le mécanisme de prédiction de ces modèles.
  • L’approche de l’auteur fournit une explication claire de la manière dont les Transformers reconnaissent des motifs dans les données d’entraînement et s’en servent pour prédire le token suivant.
  • Cet article peut constituer une ressource utile pour les personnes qui étudient ou développent des modèles Transformer, et contribuer à approfondir la compréhension du traitement du langage par l’IA.

1 commentaires

 
GN⁺ 2024-02-05
Commentaires Hacker News
  • Il ne faut pas être surpris par de nouveaux phénomènes. Si l’on ne lit pas la théorie déjà établie, on peut naturellement se retrouver déconcerté par des phénomènes qui émergent spontanément.

    • L’expérience semble rigoureuse, et l’attention portée aux détails est impressionnante.
    • Il est important de trouver un équilibre entre apprendre la théorie existante et la redécouvrir soi-même depuis zéro.
    • Le fait que le modèle maximise la log-vraisemblance à partir des données d’entraînement est une conséquence évidente.
    • Il est important de comprendre les bases, et la théorie de l’entropie de Shannon peut constituer un bon point de départ.
  • Réaction positive au fait qu’après que Google a signalé qu’en faisant répéter le même mot à ChatGPT, celui-ci finit par recracher textuellement ses données d’entraînement, quelqu’un l’ait effectivement mis en pratique.

    • Cela soulève des questions supplémentaires :
      1. L’approche « IA sans IA » est-elle plus économe en énergie que les méthodes classiques de compression de modèles ?
      2. Ce résultat pourrait-il être utilisé comme preuve dans les poursuites contre OpenAI et Stability AI ?
  • Surprise face au phénomène où l’attention (Attention) et les réseaux FF (Feed Forward) pointent dans la même direction.

    • Même si les réseaux FF peuvent effectuer une rotation arbitraire, on ne s’attendait pas à ce qu’ils se trouvent dans le même espace latent à travers plusieurs couches.
  • En entraînant un petit modèle en suivant le tutoriel NanoGPT d’Andrej Karpathy, il semblait comprendre dans une certaine mesure la grammaire russe complexe.

    • Le modèle n’est pas parfait, mais avec seulement trois minutes d’entraînement, il a pu inférer des règles complexes.
  • Question sur le fait de savoir si les LLM sont des générateurs de texte par chaîne de Markov.

    • Si c’est le cas, cela soulève la question de savoir si l’on pourrait construire une chaîne de Markov offrant des performances similaires à partir des données d’entraînement d’origine.
  • Le modèle étudié est en réalité un simple modèle jouet, qui pourrait être approximé par un modèle encore plus simple.

    • Cependant, ce modèle ne représente pas nécessairement la manière dont fonctionnent les LLM plus grands.
  • Il est difficile de comprendre exactement ce que l’auteur cherche à affirmer.

    • La section « Pourquoi l’approximation fonctionne » a été relue plusieurs fois, mais donne seulement l’impression d’une explication pas à pas du fonctionnement d’un transformer.
  • La visualisation 3D du système LLM est utile et mérite d’être consultée en parallèle pour un effet maximal.

  • Publication étrange sur ce que font réellement les transformers.

    • En suivant le code, on peut voir exactement ce que fait un transformer.