Revue annuelle 2025 des LLM par Andrej Karpathy

(karpathy.bearblog.dev)

21 points par GN⁺ 2025-12-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp

2025 a vu l’émergence de l’apprentissage par renforcement à partir de récompenses vérifiables (RLVR) comme nouvelle étape clé de l’entraînement des LLM, ajoutée au pipeline classique préentraînement-SFT-RLHF
Les LLM développent eux-mêmes des stratégies de raisonnement dans des environnements vérifiables comme les mathématiques et les puzzles de code, et acquièrent des modes de résolution de problèmes qui ressemblent à de la « pensée » du point de vue humain
Cursor a défini une nouvelle couche d’applications LLM, en montrant comment réaliser de l’ingénierie de contexte et une orchestration complexe d’appels LLM dans des verticaux spécifiques
Claude Code est apparu comme le premier exemple vraiment convaincant d’agent LLM s’exécutant sur l’ordinateur local de l’utilisateur, ouvrant un nouveau paradigme d’interaction avec l’IA
Le vibe coding permet même à des non-spécialistes de créer des programmes en anglais uniquement, annonçant une démocratisation du développement logiciel et une redéfinition des métiers

1. L’essor de l’apprentissage par renforcement à partir de récompenses vérifiables (RLVR)

Jusqu’au début de 2025, la stack de production des LLM reposait sur trois étapes : préentraînement (Pretraining), fine-tuning supervisé (SFT) et apprentissage par renforcement à partir de retours humains (RLHF)
Le RLVR (Reinforcement Learning from Verifiable Rewards) s’est ajouté comme nouvelle étape majeure, en entraînant les LLM sur des récompenses automatiquement vérifiables dans des domaines comme les mathématiques et les puzzles de code
Les LLM ont spontanément appris des comportements proches du « raisonnement », en décomposant eux-mêmes les problèmes en étapes de calcul intermédiaires et en développant diverses stratégies de résolution
- Ces stratégies étaient difficiles à obtenir dans le paradigme précédent, car il n’était pas clair à quoi devait ressembler une trace de raisonnement optimale
- Le LLM doit trouver par lui-même la manière qui lui convient via l’optimisation de la récompense
Contrairement au SFT/RLHF, le RLVR permet une optimisation beaucoup plus longue sur des fonctions de récompense objectives et impossibles à truquer
Grâce au rapport capacité/$ élevé du RLVR, des ressources de calcul initialement destinées au préentraînement ont été réallouées vers le RLVR
- Une grande partie des progrès en capacités en 2025 s’est définie par des runs RL plus longs appliqués à des LLM de taille comparable
Un nouveau levier est apparu, celui du compute au moment du test, ainsi qu’une nouvelle loi d’échelle permettant d’ajuster les capacités via des traces de raisonnement plus longues et davantage de « temps de pensée »
OpenAI o1 (fin 2024) a été la première démonstration d’un modèle RLVR, et la sortie de o3 (début 2025) a marqué un point d’inflexion où la différence est devenue intuitivement perceptible

2. Fantômes vs. animaux / intelligence irrégulière (Jagged Intelligence)

En 2025, on a commencé à mieux comprendre de manière intuitive la « forme » de l’intelligence des LLM
Créer des LLM, ce n’est pas « faire évoluer/faire grandir des animaux », mais « invoquer des fantômes »
- L’architecture neuronale, les données d’entraînement, les algorithmes d’apprentissage et les pressions d’optimisation étant tous différents, on obtient des entités très différentes dans l’espace des intelligences
Les réseaux neuronaux humains ont été optimisés pour la survie d’un groupe dans la jungle, tandis que ceux des LLM le sont pour imiter les textes de l’humanité, accumuler des récompenses sur des puzzles mathématiques et obtenir des upvotes sur LM Arena
Avec la possibilité du RLVR dans les domaines vérifiables, les capacités des LLM ont connu des « pics » dans ces zones, produisant un profil de performance irrégulier
- Ils peuvent à la fois agir comme des polymathes géniaux et comme des élèves de primaire désorientés, tout en pouvant être manipulés en quelques secondes pour divulguer des données
On observe une perte de confiance dans les benchmarks, ainsi qu’une forme d’indifférence à leur égard
- Les benchmarks sont presque par définition des environnements vérifiables, donc immédiatement vulnérables au RLVR et à des formes faibles de génération de données synthétiques
- Dans le processus de benchmaxxing, les équipes construisent des environnements à proximité de l’espace d’embedding des benchmarks pour les couvrir
- L’apprentissage sur le jeu de test est devenu une nouvelle technique
À quoi ressemblerait une situation où l’on réussit tous les benchmarks sans pour autant atteindre l’AGI ?
Articles liés

3. Cursor / une nouvelle couche d’applications LLM

Avec la croissance fulgurante de Cursor, une nouvelle couche des « applications LLM » est apparue
- L’expression « Cursor for X » a commencé à se répandre
Les applications LLM comme Cursor regroupent et orchestrent des appels LLM pour des verticaux spécifiques
1. Elles réalisent de l’ingénierie de contexte
2. Elles orchestrent plusieurs appels LLM sous forme de DAG de plus en plus complexes, en équilibrant performance et coût
3. Elles fournissent une interface graphique propre à l’application pour le human-in-the-loop
4. Elles proposent un « curseur d’autonomie »
Le débat est vif sur l’épaisseur de cette nouvelle couche applicative
- Certains se demandent si les laboratoires LLM finiront par capturer toutes les applications, ou s’il restera une vraie opportunité pour les applications LLM
Les laboratoires LLM tendent en général à produire l’équivalent d’étudiants de bon niveau, mais on s’attend à ce que les applications LLM, en fournissant dans des verticaux spécifiques des données privées, des capteurs, des actionneurs et des boucles de rétroaction, les organisent, les spécialisent et les activent comme de véritables experts

4. Claude Code / une IA résidente sur l’ordinateur

Claude Code (CC) s’est imposé comme la première démonstration convaincante d’un agent LLM
- Il relie l’usage d’outils et le raisonnement dans une boucle, ce qui permet une résolution de problèmes étendue
CC s’exécute sur l’ordinateur de l’utilisateur avec son environnement privé, ses données et son contexte
OpenAI a mal orienté ses premiers efforts autour de Codex et des agents en se concentrant sur des déploiements de conteneurs cloud orchestrés depuis ChatGPT
- L’accent a été mis sur le cloud plutôt que simplement sur localhost
Une nuée d’agents s’exécutant dans le cloud peut donner une impression de « endgame AGI », mais aujourd’hui nous sommes dans un monde intermédiaire de bonds lents et de capacités irrégulières
- Il est plus rationnel d’exécuter directement les agents sur l’ordinateur du développeur
La distinction importante n’est pas l’endroit où s’exécute le « travail IA », mais le fait de disposer d’un ordinateur déjà existant et déjà démarré, avec ses installations, son contexte, ses données, ses secrets, sa configuration et des interactions à faible latence
Anthropic a parfaitement compris cette priorité et a empaqueté CC dans un format CLI minimaliste
- Cela ouvre un nouveau paradigme d’interaction où l’IA n’est plus un site web que l’on visite comme Google, mais une petite âme/un petit fantôme « résidant » dans l’ordinateur

5. Vibe coding

2025 a été l’année où l’IA a franchi le seuil de capacité lui permettant de créer, en anglais uniquement, une variété impressionnante de programmes
- On peut programmer en oubliant presque que le code existe
Il avait forgé le terme « vibe coding » dans un tweet, sans imaginer à quel point il se répandrait
Le vibe coding transforme la programmation : elle n’est plus le domaine réservé de spécialistes hautement formés, mais une activité accessible à tous
Contrairement à presque toutes les autres technologies, les LLM constituent un cas où le grand public bénéficie bien davantage que les experts, les entreprises ou les gouvernements
Le vibe coding ne donne pas seulement accès à la programmation au grand public ; il permet aussi aux professionnels formés d’écrire beaucoup plus de logiciels qui, sinon, n’auraient jamais été écrits
Exemples concrets :
- Dans nanochat, création en vibe coding d’un tokenizer BPE personnalisé, très efficace, en Rust, sans adoption de bibliothèque existante ni apprentissage approfondi de Rust
- Vibe coding de démos d’apps rapides comme menugen, llm-council, reader3, HN time capsule, pour matérialiser des choses qu’il aurait aimé voir exister
- Vibe coding d’une application entière à usage unique pour trouver un seul bug : le code devient soudain gratuit, temporaire, flexible et jetable
Le vibe coding va terraformer le logiciel et redéfinir les métiers

6. Nano Banana / GUI pour LLM

Google Gemini Nano Banana est l’un des changements de paradigme les plus surprenants de 2025
Dans la vision du monde où les LLM constituent le prochain grand paradigme informatique, comparable aux ordinateurs des années 1970-80, des innovations du même type devraient émerger pour des raisons fondamentalement similaires
- On verra apparaître des équivalents à l’informatique personnelle, aux microcontrôleurs (cœurs cognitifs), à l’internet (des agents), etc.
Du point de vue UI/UX, discuter avec un LLM revient à donner des commandes à une console informatique des années 1980
Le texte est une représentation primitive des données privilégiée par les ordinateurs (et les LLM), mais ce n’est pas le format préféré des humains
- En particulier en entrée, les gens n’aiment pas lire du texte : c’est lent et demande un effort
Les humains préfèrent consommer l’information de manière visuelle et spatiale, d’où l’invention des GUI dans l’informatique classique
De la même manière, les LLM doivent communiquer dans les formats préférés des humains : images, infographies, slides, tableaux blancs, animations/vidéos, web apps, etc.
Les premières versions de cela sont aujourd’hui les émojis et le Markdown : titres, gras, italique, listes, tableaux, etc., qui permettent de « mettre en forme visuellement » le texte
Nano Banana donne un premier aperçu précoce de ce à quoi pourrait ressembler une GUI pour LLM
- Au-delà de la seule génération d’images, c’est la capacité combinée de génération de texte, de génération d’images et de connaissance du monde, toutes entremêlées dans les poids du modèle, qui compte

TLDR; synthèse

2025 a été une année passionnante et légèrement surprenante pour les LLM
Les LLM ont émergé comme un nouveau type d’intelligence, bien plus intelligents que prévu et en même temps bien plus stupides qu’attendu
Quoi qu’il en soit, les LLM sont extrêmement utiles, et il pense que l’industrie n’exploite pas encore ne serait-ce que 10 % de leur potentiel au niveau technologique actuel
Les idées à essayer sont innombrables, et conceptuellement, ce domaine semble encore avoir un long chemin à parcourir
Même si cela peut sembler paradoxal, il pense qu’il y aura encore des progrès rapides et continus, tout en considérant qu’il reste énormément de travail à faire

Revue annuelle 2025 des LLM par Andrej Karpathy

1. L’essor de l’apprentissage par renforcement à partir de récompenses vérifiables (RLVR)

2. Fantômes vs. animaux / intelligence irrégulière (Jagged Intelligence)

3. Cursor / une nouvelle couche d’applications LLM

4. Claude Code / une IA résidente sur l’ordinateur

5. Vibe coding

6. Nano Banana / GUI pour LLM

TLDR; synthèse

À lire aussi

Aucun commentaire pour le moment.