43 points par GN⁺ 2025-09-05 | 1 commentaires | Partager sur WhatsApp
  • Présentation succincte du fonctionnement de nano-gpt, un grand modèle de langage basé sur GPT
  • L’objectif de ce modèle est de prendre une séquence de 6 caractères et de les trier par ordre alphabétique
  • Chaque caractère est considéré comme un token et chaque token possède un indice de token unique
  • Chaque indice de token est converti en un vecteur d’embedding de dimension 48, puis traverse une série de couches de transformer
  • Le modèle prédit le token suivant, et le résultat peut être réinjecté de façon répétée pour faire évoluer la séquence d’entrée

Introduction au modèle de langage GPT

  • Ce document explique visuellement le fonctionnement d’un grand modèle de langage GPT
  • Ici, il utilise un modèle très compact appelé nano-gpt (environ 85�00 paramètres)
  • L’objectif du modèle est de recevoir une séquence de 6 caractères et de la trier par ordre alphabétique (par ex. ABBBCC)

Tokens et vocabulaire

  • Chaque caractère est défini comme un token, et l’ensemble de tous les tokens reconnus par le modèle est appelé vocabulaire (vocabulary)
  • Dans le tableau, chaque token reçoit un numéro unique (indice de token)
  • La séquence numérique de ces indices de token est utilisée comme entrée du modèle

Transformation de l’entrée et embeddings

  • Dans la visualisation 3D, les cellules vertes représentent les nombres en cours de traitement, et les cellules bleues représentent les poids (weights) du modèle
  • Chaque nombre d’entrée est converti en un vecteur d’embedding de dimension 48
  • Cet embedding traverse successivement plusieurs couches de transformer dans l’architecture du modèle

Sortie et processus de prédiction

  • La sortie du modèle se présente sous la forme des probabilités du token suivant prédit pour cette séquence
  • À la 6e position d’entrée, il prédit la distribution de probabilité du prochain token parmi A, B, C
  • Dans l’exemple, le modèle prédit que A a la probabilité la plus élevée
  • En réinjectant cette prédiction en entrée et en répétant le processus, il génère progressivement la séquence complète

1 commentaires

 
GN⁺ 2025-09-05
Avis sur Hacker News
  • C’est vraiment complexe et impressionnant, et la manière de visualiser le processus est vraiment excellente
  • Il y a aussi des ressources connexes, à consulter si vous voulez en voir d’autres
    LLM Visualization - décembre 2023, 131 commentaires
  • Il existe aussi une autre ressource de visualisation de transformer réalisée par des chercheurs de Georgia Tech
    https://poloclub.github.io/transformer-explainer/
    Et je recommande aussi la célèbre ressource de visualisation intitulée « The Illustrated Transformer »
    https://jalammar.github.io/illustrated-transformer/
    Il y a également un billet de Sebastian Raschka, PhD, sur l’architecture
    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    Ce commentaire sur Hacker News permet aussi de voir diverses ressources au même endroit
    https://news.ycombinator.com/item?id=35712334
  • La visualisation est vraiment fascinante ; il est ironique qu’on puisse voir visuellement l’ensemble du processus sans pour autant comprendre complètement les critères de décision internes du modèle ; la dernière fois que j’ai regardé, il y a environ un an, il n’y avait toujours pas de progrès sur ce point
  • Ce contenu de visualisation est vraiment excellent, au point que je prévois de le montrer aux enfants dans le club informatique que fréquente mon fils de 5 ans
    • Avec cette méthode, ça devrait être parfait pour les endormir à l’heure de la sieste
  • C’est vraiment remarquable, on dirait une œuvre d’art impressionnante ; merci pour ce travail
  • J’aime beaucoup cette ressource de visualisation depuis longtemps
    https://alphacode.deepmind.com/
    (sur mobile, il suffit d’appuyer sur lecture, de dézoomer complètement, puis de faire défiler vers le bas)
  • Ce serait vraiment formidable si les visualisations de LLM devenaient des outils pédagogiques de ce genre ; on pourrait par exemple montrer comment l’attention se déplace pendant le processus de génération, ou comment le prompt influence la sortie ; ce type de visualisation interactive aiderait vraiment à comprendre ce qui se passe réellement en arrière-plan
  • Je trouve cela vraiment excellent ; si j’ai le temps, j’aimerais l’explorer en profondeur ; combinée à des outils d’observation, cette ressource pourrait permettre aux scientifiques de sonder l’intérieur de modèles connus comme des « boîtes noires »
  • Maintenant seulement je comprends ; c’est une ressource vraiment remarquable, merci pour le temps et les efforts fournis