Résumé de la vidéo d’Andrej Karpathy « Analyse approfondie des LLM comme ChatGPT »

(anfalmushtaq.com)

2 points par GN⁺ 2025-02-11 | 1 commentaires | Partager sur WhatsApp

À qui s’adresse cette analyse approfondie ?

Comprendre le fonctionnement réel des LLM : pour celles et ceux qui veulent connaître les principes de fonctionnement des LLM au-delà d’une compréhension superficielle.
Comprendre une terminologie de fine-tuning déroutante : pour celles et ceux qui veulent comprendre des termes comme chat_template et ChatML.
Améliorer le prompt engineering : pour celles et ceux qui veulent comprendre quels prompts fonctionnent le mieux.
Réduire les hallucinations : pour celles et ceux qui veulent éviter que les LLM ne génèrent des informations erronées.
Comprendre l’importance de DeepSeek-R1 : pour celles et ceux qui veulent saisir l’importance de DeepSeek-R1, très remarqué actuellement.

Données de pré-entraînement

Internet

Les LLM crawlsent Internet pour constituer d’immenses jeux de données textuelles.
Les données brutes sont remplies de contenus dupliqués, de textes de faible qualité et d’informations non pertinentes, ce qui exige un filtrage rigoureux avant l’entraînement.
Par exemple, le jeu de données FineWeb comprend plus de 1,2 milliard de pages web.

Tokenisation

La tokenisation est la méthode qui consiste à découper le texte en petits éléments (tokens) avant que le modèle ne le traite.
Des techniques comme Byte Pair Encoding (BPE) sont utilisées.
GPT-4 utilise 100 277 tokens.

Entrées et sorties du réseau de neurones

Les données tokenisées sont fournies en entrée au réseau de neurones.
Le modèle prédit le token suivant à partir des motifs qu’il a appris.
Les poids sont ajustés pour réduire les erreurs.

À l’intérieur du réseau de neurones

À l’intérieur du modèle, des milliards de paramètres interagissent avec les tokens d’entrée pour produire une distribution de probabilité sur le token suivant.
L’architecture du modèle est conçue pour équilibrer vitesse, précision et parallélisation.

Inférence

Les LLM ne produisent pas une sortie déterministe ; ils sont probabilistes.
Le résultat diffère légèrement à chaque exécution.
Cette part d’aléatoire permet aux LLM d’être créatifs, mais les conduit aussi parfois à générer des informations incorrectes.

GPT-2

GPT-2, publié par OpenAI en 2019, est un exemple des premiers LLM basés sur les transformers.
Il a 1,6 milliard de paramètres, une longueur de contexte de 1024 tokens et a été entraîné sur environ 100 milliards de tokens.
Andrej Karpathy a reproduit GPT-2 pour 672 $ à l’aide de llm.c.

Modèles open source de base

Certaines entreprises entraînent des LLM à grande échelle et publient gratuitement leur modèle de base.
Les modèles de base sont entraînés sur du texte brut issu d’Internet, ce qui leur permet de générer des complétions sans pour autant comprendre l’intention humaine.
OpenAI a publié GPT-2 en open source.
Meta a publié Llama 3.1 (405B paramètres) en open source.

Du pré-entraînement au post-entraînement

Les modèles de base génèrent beaucoup d’hallucinations.
Le post-entraînement affine le modèle pour produire de meilleures réponses.
Le post-entraînement coûte bien moins cher que le pré-entraînement.

Fine-tuning supervisé (SFT)

Conversations de données

Après avoir été entraîné sur des données issues d’Internet, le modèle de base est post-entraîné sur des conversations humain/assistant.
Des templates de conversation sont utilisés pour aider le modèle à comprendre la structure d’un échange.

Hallucinations, usage d’outils et mémoire

Le principal problème des LLM est l’hallucination.
Meta explique dans l’article sur Llama 3 des méthodes pour améliorer la factualité.
Il existe aussi des moyens de réduire les hallucinations en utilisant des outils.

Apprentissage par renforcement

Après avoir été entraîné sur des données Internet, le modèle ne sait pas forcément utiliser efficacement ses connaissances.
L’apprentissage par renforcement (RL) améliore le modèle par essais et erreurs.

Fonctionnement du RL

Le RL permet au modèle d’expérimenter différentes solutions et de trouver la meilleure.
Par exemple, il peut générer 15 solutions et seulement 4 donnent la bonne réponse.

Apprentissage par renforcement à partir du feedback humain (RLHF)

Dans les domaines non vérifiables, il faut inclure des humains dans la boucle.
Le RLHF améliore le modèle à l’aide du feedback humain.

Perspectives

Capacités multimodales : comprendre et générer non seulement du texte, mais aussi des images, de l’audio et de la vidéo.
Modèles agentiques : aller au-delà d’une tâche unique avec mémoire à long terme, raisonnement et correction des erreurs.
IA universelle et invisible : s’intégrer naturellement dans les workflows.
IA utilisant l’ordinateur : interagir avec les logiciels et accomplir des tâches au-delà de la simple génération de texte.

Comment trouver un LLM

Modèles propriétaires : OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), etc.
Modèles à poids ouverts : DeepSeek, Meta (Llama), etc.
Exécution en local : utiliser Ollama ou LM Studio.
Modèles de base : explorer Hyperbolic.

1 commentaires

GN⁺ 2025-02-11

Commentaire Hacker News

Je cherche encore un bon endroit pour discuter après que la vidéo originale a disparu de la première page de Hacker News
Quelques questions me sont venues en regardant la vidéo
- Les maths et les LLMs
  - Je me demande pourquoi les exemples qu’Andrej a donnés pour les LLM sont en majorité des problèmes de calcul
  - Je pense que les capacités de calcul des LLM deviennent puissantes et utiles, mais que ce n’est pas une capacité fondamentale
  - J’aimerais qu’on distingue les prompts qui montrent les capacités essentielles des LLM des calculs mathématiques
  - J’aimerais avoir de bonnes références sur la discussion autour des capacités mathématiques ou sur la pertinence de faire faire des maths aux LLM
- Meta
  - Andrej mentionne brièvement les cas où des LLM servent à entraîner et évaluer d’autres LLM, mais il n’y a pas beaucoup de discussion à ce sujet
  - J’aimerais en savoir plus sur les limites et les risques liés à l’utilisation de LLM pour entraîner/évaluer d’autres LLM
  - J’ai l’impression que le fait que les premiers résultats et les avancées soient immédiatement réinjectés dans le développement de techniques plus puissantes ressemble au projet Manhattan et aux armes atomiques
L’approche de Meta pour résoudre le problème des hallucinations est intéressante
- Ils extraient une partie des données d’entraînement et utilisent Llama 3 pour générer des questions factuelles
- Llama 3 génère des réponses, puis elles sont comparées aux données d’origine pour être notées
- Si c’est faux, le modèle est entraîné à reconnaître la mauvaise réponse et à la rejeter
- Cela va à l’encontre de la tendance naturelle des ingénieurs ML, et il est important d’apprendre au modèle à reconnaître ce qu’il ne sait pas
La vidéo d’Andrej est excellente, mais l’explication de la partie RL me paraît un peu vague
- Je me demande comment l’entraînement sur les bonnes réponses est effectué
- Je me demande si l’on collecte le processus de raisonnement pour entraîner le modèle comme en apprentissage supervisé, ou si l’on calcule un score pour l’utiliser comme fonction de perte
- La récompense peut être très clairsemée, et je me demande ce qui se passe quand le problème est trop difficile pour que le LLM puisse générer la bonne réponse
- Je me demande comment l’entraînement des LLM peut être parallélisé alors que les mises à jour de paramètres sont séquentielles
À 53 minutes dans la vidéo originale, on voit la précision avec laquelle le LLM cite à partir du texte qu’il a appris
- Je me demande comment les grandes entreprises ont réussi à convaincre les tribunaux que cela ne constituait pas une violation du droit d’auteur
- Si j’entraînais un modèle à dessiner des personnages Disney, j’imagine que je serais attaqué en justice immédiatement
Pour qu’un modèle soit « complètement » open source, il faut non seulement le modèle lui-même et la manière de l’exécuter, mais aussi le programme permettant d’entraîner les données
- Voir la définition de l’IA open source de l’OSI
J’ai lu beaucoup d’articles sur les LLM et je comprends globalement comment ils fonctionnent, mais je me suis toujours demandé pourquoi d’autres modèles ne marchent pas aussi bien que les modèles SOTA
- Je suis curieux de connaître l’histoire et les raisons derrière l’architecture actuelle des modèles
J’ai vu un bon fil aujourd’hui : [lien]
C’est dommage que son LLC in C n’ait servi que de tremplin pour son cours
C’est probablement un excellent résumé d’un excellent cours
- J’hésite à suivre l’original
Je n’ai pas regardé la vidéo, mais j’étais curieux à propos de la partie sur la tokenisation dans le TL;DR
- Si l’on regarde le texte tokenisé dans l’article lié, ce n’est pas "I View" mais bien une barre verticale "|"
- À l’étape 3 du lien que @miletus a posté dans les commentaires Hacker News, le texte tokenisé est "|Viewing Single (Post From) . . ."
- L’usage des majuscules (View, Single) a plus de sens quand on regarde cette partie de la phrase

Résumé de la vidéo d’Andrej Karpathy « Analyse approfondie des LLM comme ChatGPT »

À qui s’adresse cette analyse approfondie ?

Données de pré-entraînement

Internet

Tokenisation

Entrées et sorties du réseau de neurones

À l’intérieur du réseau de neurones

Inférence

GPT-2

Modèles open source de base

Du pré-entraînement au post-entraînement

Fine-tuning supervisé (SFT)

Conversations de données

Hallucinations, usage d’outils et mémoire

Apprentissage par renforcement

Fonctionnement du RL

Apprentissage par renforcement à partir du feedback humain (RLHF)

Perspectives

Comment trouver un LLM

À lire aussi

1 commentaires

Commentaire Hacker News