À qui s’adresse cette analyse approfondie ?
- Comprendre le fonctionnement réel des LLM : pour celles et ceux qui veulent connaître les principes de fonctionnement des LLM au-delà d’une compréhension superficielle.
- Comprendre une terminologie de fine-tuning déroutante : pour celles et ceux qui veulent comprendre des termes comme
chat_template et ChatML.
- Améliorer le prompt engineering : pour celles et ceux qui veulent comprendre quels prompts fonctionnent le mieux.
- Réduire les hallucinations : pour celles et ceux qui veulent éviter que les LLM ne génèrent des informations erronées.
- Comprendre l’importance de DeepSeek-R1 : pour celles et ceux qui veulent saisir l’importance de DeepSeek-R1, très remarqué actuellement.
Données de pré-entraînement
Internet
- Les LLM crawlsent Internet pour constituer d’immenses jeux de données textuelles.
- Les données brutes sont remplies de contenus dupliqués, de textes de faible qualité et d’informations non pertinentes, ce qui exige un filtrage rigoureux avant l’entraînement.
- Par exemple, le jeu de données FineWeb comprend plus de 1,2 milliard de pages web.
Tokenisation
- La tokenisation est la méthode qui consiste à découper le texte en petits éléments (tokens) avant que le modèle ne le traite.
- Des techniques comme Byte Pair Encoding (BPE) sont utilisées.
- GPT-4 utilise 100 277 tokens.
Entrées et sorties du réseau de neurones
- Les données tokenisées sont fournies en entrée au réseau de neurones.
- Le modèle prédit le token suivant à partir des motifs qu’il a appris.
- Les poids sont ajustés pour réduire les erreurs.
À l’intérieur du réseau de neurones
- À l’intérieur du modèle, des milliards de paramètres interagissent avec les tokens d’entrée pour produire une distribution de probabilité sur le token suivant.
- L’architecture du modèle est conçue pour équilibrer vitesse, précision et parallélisation.
Inférence
- Les LLM ne produisent pas une sortie déterministe ; ils sont probabilistes.
- Le résultat diffère légèrement à chaque exécution.
- Cette part d’aléatoire permet aux LLM d’être créatifs, mais les conduit aussi parfois à générer des informations incorrectes.
GPT-2
- GPT-2, publié par OpenAI en 2019, est un exemple des premiers LLM basés sur les transformers.
- Il a 1,6 milliard de paramètres, une longueur de contexte de 1024 tokens et a été entraîné sur environ 100 milliards de tokens.
- Andrej Karpathy a reproduit GPT-2 pour 672 $ à l’aide de llm.c.
Modèles open source de base
- Certaines entreprises entraînent des LLM à grande échelle et publient gratuitement leur modèle de base.
- Les modèles de base sont entraînés sur du texte brut issu d’Internet, ce qui leur permet de générer des complétions sans pour autant comprendre l’intention humaine.
- OpenAI a publié GPT-2 en open source.
- Meta a publié Llama 3.1 (405B paramètres) en open source.
Du pré-entraînement au post-entraînement
- Les modèles de base génèrent beaucoup d’hallucinations.
- Le post-entraînement affine le modèle pour produire de meilleures réponses.
- Le post-entraînement coûte bien moins cher que le pré-entraînement.
Fine-tuning supervisé (SFT)
Conversations de données
- Après avoir été entraîné sur des données issues d’Internet, le modèle de base est post-entraîné sur des conversations humain/assistant.
- Des templates de conversation sont utilisés pour aider le modèle à comprendre la structure d’un échange.
Hallucinations, usage d’outils et mémoire
- Le principal problème des LLM est l’hallucination.
- Meta explique dans l’article sur Llama 3 des méthodes pour améliorer la factualité.
- Il existe aussi des moyens de réduire les hallucinations en utilisant des outils.
Apprentissage par renforcement
- Après avoir été entraîné sur des données Internet, le modèle ne sait pas forcément utiliser efficacement ses connaissances.
- L’apprentissage par renforcement (RL) améliore le modèle par essais et erreurs.
Fonctionnement du RL
- Le RL permet au modèle d’expérimenter différentes solutions et de trouver la meilleure.
- Par exemple, il peut générer 15 solutions et seulement 4 donnent la bonne réponse.
Apprentissage par renforcement à partir du feedback humain (RLHF)
- Dans les domaines non vérifiables, il faut inclure des humains dans la boucle.
- Le RLHF améliore le modèle à l’aide du feedback humain.
Perspectives
- Capacités multimodales : comprendre et générer non seulement du texte, mais aussi des images, de l’audio et de la vidéo.
- Modèles agentiques : aller au-delà d’une tâche unique avec mémoire à long terme, raisonnement et correction des erreurs.
- IA universelle et invisible : s’intégrer naturellement dans les workflows.
- IA utilisant l’ordinateur : interagir avec les logiciels et accomplir des tâches au-delà de la simple génération de texte.
Comment trouver un LLM
- Modèles propriétaires : OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), etc.
- Modèles à poids ouverts : DeepSeek, Meta (Llama), etc.
- Exécution en local : utiliser Ollama ou LM Studio.
- Modèles de base : explorer Hyperbolic.
1 commentaires
Commentaire Hacker News
Je cherche encore un bon endroit pour discuter après que la vidéo originale a disparu de la première page de Hacker News
Quelques questions me sont venues en regardant la vidéo
L’approche de Meta pour résoudre le problème des hallucinations est intéressante
La vidéo d’Andrej est excellente, mais l’explication de la partie RL me paraît un peu vague
À 53 minutes dans la vidéo originale, on voit la précision avec laquelle le LLM cite à partir du texte qu’il a appris
Pour qu’un modèle soit « complètement » open source, il faut non seulement le modèle lui-même et la manière de l’exécuter, mais aussi le programme permettant d’entraîner les données
J’ai lu beaucoup d’articles sur les LLM et je comprends globalement comment ils fonctionnent, mais je me suis toujours demandé pourquoi d’autres modèles ne marchent pas aussi bien que les modèles SOTA
J’ai vu un bon fil aujourd’hui : [lien]
C’est dommage que son LLC in C n’ait servi que de tremplin pour son cours
C’est probablement un excellent résumé d’un excellent cours
Je n’ai pas regardé la vidéo, mais j’étais curieux à propos de la partie sur la tokenisation dans le TL;DR