Visualisation des LLM

(bbycroft.net)

43 points par GN⁺ 2025-09-05 | 1 commentaires | Partager sur WhatsApp

Présentation succincte du fonctionnement de nano-gpt, un grand modèle de langage basé sur GPT
L’objectif de ce modèle est de prendre une séquence de 6 caractères et de les trier par ordre alphabétique
Chaque caractère est considéré comme un token et chaque token possède un indice de token unique
Chaque indice de token est converti en un vecteur d’embedding de dimension 48, puis traverse une série de couches de transformer
Le modèle prédit le token suivant, et le résultat peut être réinjecté de façon répétée pour faire évoluer la séquence d’entrée

Introduction au modèle de langage GPT

Ce document explique visuellement le fonctionnement d’un grand modèle de langage GPT
Ici, il utilise un modèle très compact appelé nano-gpt (environ 85�00 paramètres)
L’objectif du modèle est de recevoir une séquence de 6 caractères et de la trier par ordre alphabétique (par ex. ABBBCC)

Tokens et vocabulaire

Chaque caractère est défini comme un token, et l’ensemble de tous les tokens reconnus par le modèle est appelé vocabulaire (vocabulary)
Dans le tableau, chaque token reçoit un numéro unique (indice de token)
La séquence numérique de ces indices de token est utilisée comme entrée du modèle

Transformation de l’entrée et embeddings

Dans la visualisation 3D, les cellules vertes représentent les nombres en cours de traitement, et les cellules bleues représentent les poids (weights) du modèle
Chaque nombre d’entrée est converti en un vecteur d’embedding de dimension 48
Cet embedding traverse successivement plusieurs couches de transformer dans l’architecture du modèle

Sortie et processus de prédiction

La sortie du modèle se présente sous la forme des probabilités du token suivant prédit pour cette séquence
À la 6e position d’entrée, il prédit la distribution de probabilité du prochain token parmi A, B, C
Dans l’exemple, le modèle prédit que A a la probabilité la plus élevée
En réinjectant cette prédiction en entrée et en répétant le processus, il génère progressivement la séquence complète

1 commentaires

GN⁺ 2025-09-05

Avis sur Hacker News

C’est vraiment complexe et impressionnant, et la manière de visualiser le processus est vraiment excellente
Il y a aussi des ressources connexes, à consulter si vous voulez en voir d’autres
LLM Visualization - décembre 2023, 131 commentaires
Il existe aussi une autre ressource de visualisation de transformer réalisée par des chercheurs de Georgia Tech
https://poloclub.github.io/transformer-explainer/
Et je recommande aussi la célèbre ressource de visualisation intitulée « The Illustrated Transformer »
https://jalammar.github.io/illustrated-transformer/
Il y a également un billet de Sebastian Raschka, PhD, sur l’architecture
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Ce commentaire sur Hacker News permet aussi de voir diverses ressources au même endroit
https://news.ycombinator.com/item?id=35712334
La visualisation est vraiment fascinante ; il est ironique qu’on puisse voir visuellement l’ensemble du processus sans pour autant comprendre complètement les critères de décision internes du modèle ; la dernière fois que j’ai regardé, il y a environ un an, il n’y avait toujours pas de progrès sur ce point
Ce contenu de visualisation est vraiment excellent, au point que je prévois de le montrer aux enfants dans le club informatique que fréquente mon fils de 5 ans
- Avec cette méthode, ça devrait être parfait pour les endormir à l’heure de la sieste
C’est vraiment remarquable, on dirait une œuvre d’art impressionnante ; merci pour ce travail
J’aime beaucoup cette ressource de visualisation depuis longtemps
https://alphacode.deepmind.com/
(sur mobile, il suffit d’appuyer sur lecture, de dézoomer complètement, puis de faire défiler vers le bas)
Ce serait vraiment formidable si les visualisations de LLM devenaient des outils pédagogiques de ce genre ; on pourrait par exemple montrer comment l’attention se déplace pendant le processus de génération, ou comment le prompt influence la sortie ; ce type de visualisation interactive aiderait vraiment à comprendre ce qui se passe réellement en arrière-plan
Je trouve cela vraiment excellent ; si j’ai le temps, j’aimerais l’explorer en profondeur ; combinée à des outils d’observation, cette ressource pourrait permettre aux scientifiques de sonder l’intérieur de modèles connus comme des « boîtes noires »
Maintenant seulement je comprends ; c’est une ressource vraiment remarquable, merci pour le temps et les efforts fournis

Visualisation des LLM

Introduction au modèle de langage GPT

Tokens et vocabulaire

Transformation de l’entrée et embeddings

Sortie et processus de prédiction

À lire aussi

1 commentaires

Avis sur Hacker News