Revue annuelle 2025 des LLM par Andrej Karpathy
(karpathy.bearblog.dev)- 2025 a vu l’émergence de l’apprentissage par renforcement à partir de récompenses vérifiables (RLVR) comme nouvelle étape clé de l’entraînement des LLM, ajoutée au pipeline classique préentraînement-SFT-RLHF
- Les LLM développent eux-mêmes des stratégies de raisonnement dans des environnements vérifiables comme les mathématiques et les puzzles de code, et acquièrent des modes de résolution de problèmes qui ressemblent à de la « pensée » du point de vue humain
- Cursor a défini une nouvelle couche d’applications LLM, en montrant comment réaliser de l’ingénierie de contexte et une orchestration complexe d’appels LLM dans des verticaux spécifiques
- Claude Code est apparu comme le premier exemple vraiment convaincant d’agent LLM s’exécutant sur l’ordinateur local de l’utilisateur, ouvrant un nouveau paradigme d’interaction avec l’IA
- Le vibe coding permet même à des non-spécialistes de créer des programmes en anglais uniquement, annonçant une démocratisation du développement logiciel et une redéfinition des métiers
1. L’essor de l’apprentissage par renforcement à partir de récompenses vérifiables (RLVR)
- Jusqu’au début de 2025, la stack de production des LLM reposait sur trois étapes : préentraînement (Pretraining), fine-tuning supervisé (SFT) et apprentissage par renforcement à partir de retours humains (RLHF)
- Le RLVR (Reinforcement Learning from Verifiable Rewards) s’est ajouté comme nouvelle étape majeure, en entraînant les LLM sur des récompenses automatiquement vérifiables dans des domaines comme les mathématiques et les puzzles de code
- Les LLM ont spontanément appris des comportements proches du « raisonnement », en décomposant eux-mêmes les problèmes en étapes de calcul intermédiaires et en développant diverses stratégies de résolution
- Ces stratégies étaient difficiles à obtenir dans le paradigme précédent, car il n’était pas clair à quoi devait ressembler une trace de raisonnement optimale
- Le LLM doit trouver par lui-même la manière qui lui convient via l’optimisation de la récompense
- Contrairement au SFT/RLHF, le RLVR permet une optimisation beaucoup plus longue sur des fonctions de récompense objectives et impossibles à truquer
- Grâce au rapport capacité/$ élevé du RLVR, des ressources de calcul initialement destinées au préentraînement ont été réallouées vers le RLVR
- Une grande partie des progrès en capacités en 2025 s’est définie par des runs RL plus longs appliqués à des LLM de taille comparable
- Un nouveau levier est apparu, celui du compute au moment du test, ainsi qu’une nouvelle loi d’échelle permettant d’ajuster les capacités via des traces de raisonnement plus longues et davantage de « temps de pensée »
- OpenAI o1 (fin 2024) a été la première démonstration d’un modèle RLVR, et la sortie de o3 (début 2025) a marqué un point d’inflexion où la différence est devenue intuitivement perceptible
2. Fantômes vs. animaux / intelligence irrégulière (Jagged Intelligence)
- En 2025, on a commencé à mieux comprendre de manière intuitive la « forme » de l’intelligence des LLM
- Créer des LLM, ce n’est pas « faire évoluer/faire grandir des animaux », mais « invoquer des fantômes »
- L’architecture neuronale, les données d’entraînement, les algorithmes d’apprentissage et les pressions d’optimisation étant tous différents, on obtient des entités très différentes dans l’espace des intelligences
- Les réseaux neuronaux humains ont été optimisés pour la survie d’un groupe dans la jungle, tandis que ceux des LLM le sont pour imiter les textes de l’humanité, accumuler des récompenses sur des puzzles mathématiques et obtenir des upvotes sur LM Arena
- Avec la possibilité du RLVR dans les domaines vérifiables, les capacités des LLM ont connu des « pics » dans ces zones, produisant un profil de performance irrégulier
- Ils peuvent à la fois agir comme des polymathes géniaux et comme des élèves de primaire désorientés, tout en pouvant être manipulés en quelques secondes pour divulguer des données
- On observe une perte de confiance dans les benchmarks, ainsi qu’une forme d’indifférence à leur égard
- Les benchmarks sont presque par définition des environnements vérifiables, donc immédiatement vulnérables au RLVR et à des formes faibles de génération de données synthétiques
- Dans le processus de benchmaxxing, les équipes construisent des environnements à proximité de l’espace d’embedding des benchmarks pour les couvrir
- L’apprentissage sur le jeu de test est devenu une nouvelle technique
- À quoi ressemblerait une situation où l’on réussit tous les benchmarks sans pour autant atteindre l’AGI ?
- Articles liés
3. Cursor / une nouvelle couche d’applications LLM
- Avec la croissance fulgurante de Cursor, une nouvelle couche des « applications LLM » est apparue
- L’expression « Cursor for X » a commencé à se répandre
- Les applications LLM comme Cursor regroupent et orchestrent des appels LLM pour des verticaux spécifiques
1. Elles réalisent de l’ingénierie de contexte
2. Elles orchestrent plusieurs appels LLM sous forme de DAG de plus en plus complexes, en équilibrant performance et coût
3. Elles fournissent une interface graphique propre à l’application pour le human-in-the-loop
4. Elles proposent un « curseur d’autonomie » - Le débat est vif sur l’épaisseur de cette nouvelle couche applicative
- Certains se demandent si les laboratoires LLM finiront par capturer toutes les applications, ou s’il restera une vraie opportunité pour les applications LLM
- Les laboratoires LLM tendent en général à produire l’équivalent d’étudiants de bon niveau, mais on s’attend à ce que les applications LLM, en fournissant dans des verticaux spécifiques des données privées, des capteurs, des actionneurs et des boucles de rétroaction, les organisent, les spécialisent et les activent comme de véritables experts
4. Claude Code / une IA résidente sur l’ordinateur
- Claude Code (CC) s’est imposé comme la première démonstration convaincante d’un agent LLM
- Il relie l’usage d’outils et le raisonnement dans une boucle, ce qui permet une résolution de problèmes étendue
- CC s’exécute sur l’ordinateur de l’utilisateur avec son environnement privé, ses données et son contexte
- OpenAI a mal orienté ses premiers efforts autour de Codex et des agents en se concentrant sur des déploiements de conteneurs cloud orchestrés depuis ChatGPT
- L’accent a été mis sur le cloud plutôt que simplement sur
localhost
- L’accent a été mis sur le cloud plutôt que simplement sur
- Une nuée d’agents s’exécutant dans le cloud peut donner une impression de « endgame AGI », mais aujourd’hui nous sommes dans un monde intermédiaire de bonds lents et de capacités irrégulières
- Il est plus rationnel d’exécuter directement les agents sur l’ordinateur du développeur
- La distinction importante n’est pas l’endroit où s’exécute le « travail IA », mais le fait de disposer d’un ordinateur déjà existant et déjà démarré, avec ses installations, son contexte, ses données, ses secrets, sa configuration et des interactions à faible latence
- Anthropic a parfaitement compris cette priorité et a empaqueté CC dans un format CLI minimaliste
- Cela ouvre un nouveau paradigme d’interaction où l’IA n’est plus un site web que l’on visite comme Google, mais une petite âme/un petit fantôme « résidant » dans l’ordinateur
5. Vibe coding
- 2025 a été l’année où l’IA a franchi le seuil de capacité lui permettant de créer, en anglais uniquement, une variété impressionnante de programmes
- On peut programmer en oubliant presque que le code existe
- Il avait forgé le terme « vibe coding » dans un tweet, sans imaginer à quel point il se répandrait
- Le vibe coding transforme la programmation : elle n’est plus le domaine réservé de spécialistes hautement formés, mais une activité accessible à tous
- Contrairement à presque toutes les autres technologies, les LLM constituent un cas où le grand public bénéficie bien davantage que les experts, les entreprises ou les gouvernements
- Le vibe coding ne donne pas seulement accès à la programmation au grand public ; il permet aussi aux professionnels formés d’écrire beaucoup plus de logiciels qui, sinon, n’auraient jamais été écrits
- Exemples concrets :
- Dans nanochat, création en vibe coding d’un tokenizer BPE personnalisé, très efficace, en Rust, sans adoption de bibliothèque existante ni apprentissage approfondi de Rust
- Vibe coding de démos d’apps rapides comme menugen, llm-council, reader3, HN time capsule, pour matérialiser des choses qu’il aurait aimé voir exister
- Vibe coding d’une application entière à usage unique pour trouver un seul bug : le code devient soudain gratuit, temporaire, flexible et jetable
- Le vibe coding va terraformer le logiciel et redéfinir les métiers
6. Nano Banana / GUI pour LLM
- Google Gemini Nano Banana est l’un des changements de paradigme les plus surprenants de 2025
- Dans la vision du monde où les LLM constituent le prochain grand paradigme informatique, comparable aux ordinateurs des années 1970-80, des innovations du même type devraient émerger pour des raisons fondamentalement similaires
- On verra apparaître des équivalents à l’informatique personnelle, aux microcontrôleurs (cœurs cognitifs), à l’internet (des agents), etc.
- Du point de vue UI/UX, discuter avec un LLM revient à donner des commandes à une console informatique des années 1980
- Le texte est une représentation primitive des données privilégiée par les ordinateurs (et les LLM), mais ce n’est pas le format préféré des humains
- En particulier en entrée, les gens n’aiment pas lire du texte : c’est lent et demande un effort
- Les humains préfèrent consommer l’information de manière visuelle et spatiale, d’où l’invention des GUI dans l’informatique classique
- De la même manière, les LLM doivent communiquer dans les formats préférés des humains : images, infographies, slides, tableaux blancs, animations/vidéos, web apps, etc.
- Les premières versions de cela sont aujourd’hui les émojis et le Markdown : titres, gras, italique, listes, tableaux, etc., qui permettent de « mettre en forme visuellement » le texte
- Nano Banana donne un premier aperçu précoce de ce à quoi pourrait ressembler une GUI pour LLM
- Au-delà de la seule génération d’images, c’est la capacité combinée de génération de texte, de génération d’images et de connaissance du monde, toutes entremêlées dans les poids du modèle, qui compte
TLDR; synthèse
- 2025 a été une année passionnante et légèrement surprenante pour les LLM
- Les LLM ont émergé comme un nouveau type d’intelligence, bien plus intelligents que prévu et en même temps bien plus stupides qu’attendu
- Quoi qu’il en soit, les LLM sont extrêmement utiles, et il pense que l’industrie n’exploite pas encore ne serait-ce que 10 % de leur potentiel au niveau technologique actuel
- Les idées à essayer sont innombrables, et conceptuellement, ce domaine semble encore avoir un long chemin à parcourir
- Même si cela peut sembler paradoxal, il pense qu’il y aura encore des progrès rapides et continus, tout en considérant qu’il reste énormément de travail à faire
2 commentaires
« vibe coder » des démos d’apps rapides pour créer des choses que j’aimerais voir exister, comme menugen, llm-council, reader3, HN time capsule, etc.
Comme on pouvait s’y attendre du père du vibe coding, ce qu’il crée avec le vibe coding est à des années-lumière des petites bricoles que je fais de mon côté. 🤣
Commentaires sur Hacker News
Pour moi, l’innovation la plus marquante de l’année a été Claude Code
Cursor était une bonne preuve de concept, mais ce qui m’a vraiment amené à utiliser un LLM pour coder, c’est Claude Code
Le code généré par Claude ressemble presque exactement à celui que j’écrirais moi-même, comme s’il lisait dans mes pensées
Du coup, il est aussi facile de maintenir le code produit par Claude
Je peux prédire son style de code à 90–95 %, et il écrit bien plus vite que moi
Gemini est aussi impressionnant, et Nano Banana est particulièrement utile pour le graphisme
Je n’ai pas encore essayé Gemini pour le code. Claude Code fonctionne tellement bien que coder encore plus vite me donnerait presque une fatigue décisionnelle
Pour l’architecture ou l’UX, je préfère ne pas me précipiter, réfléchir un ou deux jours avant d’implémenter. Une fois engagé dans une direction, il est difficile de revenir en arrière, et on risque de s’entêter dans un mauvais choix à cause du biais des coûts irrécupérables
J’ai installé le plugin Claude Code dans IntelliJ IDEA, et je n’utilise l’IDE que pour explorer ou relire le code
Je ne me souviens plus de la dernière fois où j’ai écrit moi-même plus de deux lignes de code
Grâce à Claude Code, ma productivité a augmenté d’au moins 5×, et comme le coût d’écriture des tests est quasi nul, ma couverture de tests s’est aussi nettement améliorée
J’utilise un workflow complet d’agent IA avec Claude : planification, questions, implémentation, revue, puis demandes de corrections
Je ne fais plus du tout de codage manuel. Zéro absolu
J’ai encore du mal à croire qu’ils aient publié ça
Mais comme je demandais sans cesse à Claude de rendre le code plus élégant et plus lisible, j’ai fini par passer directement à Claude Code
Avec de bons prompts, GLM s’en approche pas mal, mais si je peux éviter ces soucis pour 0,6 dollar par jour, je ne vois pas l’intérêt d’hésiter
Je me demande ce que je rate alors qu’on utilise pourtant le même modèle
J’aime bien les textes de Karpathy, mais ces temps-ci, dès que je vois des tournures de phrase façon LLM du type « It’s not X, it’s Y », j’ai un mouvement de rejet instinctif
Il y a trois ans, ça ne m’aurait rien fait, mais maintenant ce style me paraît complètement ruiné
Des formulations comme « It’s not just a website… » relèvent pour moi du gras rhétorique
Si on enlève ce gras, on obtient des phrases plus plates mais plus claires
Surtout des expressions comme « little spirit », qui me paraissent tellement emphatiques qu’elles me font lever les yeux au ciel
Bien sûr, l’auteur cherche sans doute à souligner son propos avec un peu d’ornement, mais ça heurte tellement mon idéal d’écriture que ça me rebute
Des phrases comme « It’s not just about image generation… » créent une tension conceptuelle inutile
Je préfère largement écrire : « la génération d’images devient plus intéressante quand elle se combine à la génération de texte »
C’était une excellente revue, réaliste
Ce qui m’inquiète, c’est l’idée que « les LLM sont plus intelligents que prévu tout en étant stupides en même temps »
Comment savoir à l’avance sur quel versant on va tomber ?
En programmation, on repère facilement les erreurs, mais dans les domaines plus généraux, ce n’est pas évident
Et sur l’idée selon laquelle « les non-experts profitent davantage des LLM que les experts », on disait déjà des choses similaires à propos d’AppleScript, de VB ou de la programmation visuelle, mais au final l’IA sert surtout de moteur de recherche intelligent
Or c’est justement là que les hallucinations sont les plus problématiques. Je me demande quelle peut être la solution
J’aime l’optimisme d’Andrej, mais j’aimerais aussi entendre son point de vue sur l’évolution de la concentration du pouvoir industriel en 2025, ainsi que sur des sujets comme l’open source, l’inférence locale et les contraintes matérielles
Par exemple, il dit que Claude Code « tourne en local », alors qu’en réalité seul le TUI est local et l’inférence se fait dans le cloud
Je me demande comment ce type d’architecture va évoluer après 2026
Si les configurations cloud sont peu pratiques, ce n’est pas à cause du calcul lui-même, mais à cause de l’UI/UX et de la boucle utilisateur
On peut l’exécuter avec un modèle gpt-oss hébergé sur Ollama
Par exemple
codex --oss -m gpt-oss:20b, et on peut aussi utiliser un modèle plus grand (120b)Cet agent peut invoquer Bash, manipuler le système de fichiers et faire presque n’importe quoi sur l’OS
En gros, le modèle est le cerveau distant, et l’agent la combinaison mécanique
Il voulait sans doute dire non pas que l’inférence est locale, mais que l’agent s’exécute en local
Il semble vouloir souligner que, contrairement à OpenAI qui a conçu Codex autour du cloud, CC a adopté une approche d’abord locale
Mais cette distinction mériterait d’être expliquée beaucoup plus clairement
La métaphore de Karpathy sur le RLVR, « élever un animal » versus « invoquer un fantôme », me semble être un modèle parfait pour expliquer l’intelligence irrégulière (jagged intelligence) actuelle
Nous ne créons pas des survivants généralistes ; nous sur-optimisons seulement certains domaines en fonction de récompenses vérifiables
Et je me reconnais aussi dans l’idée d’un logiciel jetable produit par le vibe coding
Créer une appli temporaire juste pour déboguer un problème puis la supprimer immédiatement, ça ressemble vraiment à un changement de fond
Les humains et les animaux sont de véritables êtres intelligents, tandis que les LLM ne font que réverbérer la production humaine dans un cadre étroit
Pour parler de vraie intelligence artificielle, il faudrait des caractéristiques comme l’autonomie, l’apprentissage continu, la curiosité, une forme d’incarnation virtuelle
La plupart des animaux fonctionnent beaucoup à l’instinct, mais seuls des êtres capables d’apprentissage généralisé comme l’humain relèvent d’une véritable intelligence
Il faudra voir si ces applications jetables continueront à exister quand il faudra payer le coût réel
Je l’ai résumé dans mon billet : c’est une stack qui termine ce que Jupyter avait commencé
Elle repose sur une structure de fence fonctionnel, appelable et composable
C’est du même ordre que MCP, et il suffit d’en comprendre les motifs, sans apprentissage supplémentaire
Il existe même un foncteur qui relie les méthodes d’enseignement du piano du XVIIIe siècle et le context engineering
Le passage où Karpathy dit que les LLM devraient communiquer dans le format préféré de l’utilisateur — image, slide, tableau blanc, etc. — est intéressant
Mais si les LLM fabriquent à chaque fois une nouvelle UX propre à chaque utilisateur, on risque un enfer d’interfaces imprévisibles
On aura des situations du genre : « Dans cette appli, Command-W fait quoi au juste ? »
Dans le cas de Codex, c’est même fait avec plus de rigueur que par des humains
Le LLM lui-même est la meilleure UI
Comme il comprend plusieurs langues et des concepts abstraits, il n’y a pas besoin de générer des interfaces arbitraires
En tant qu’utilisateur non anglophone, je peux même mélanger des mots allemands et il me comprend très bien
Beaucoup d’influenceurs IA affirment avec certitude que « les interfaces textuelles vont disparaître », mais en pratique, l’interface texte reste centrale
Il était finalement caché dans un menu à trois points peu contrasté sur la carte du forfait, et quand j’ai cliqué, ça a ouvert une fenêtre de chat avec un chatbot IA
Il fallait taper le prompt « unsubscribe » pour que le bouton apparaisse
Je trouve terrible d’introduire dans les applis une UX de répondeur téléphonique automatisé
En tant qu’ingénieur frontend, cette tendance me fait peur
Je me demande ce qu’Andrej pense des modèles rapides de cette année (Gemini 3 Flash, Grok 4 Fast)
Des modèles aussi rapides, aussi peu chers et aussi bons sont apparus, et pourtant la communauté semble à peine y prêter attention
Il me semble que ce genre de modèle sera indispensable si la vision d’un LLM comme interface visuelle doit se concrétiser
J’imagine qu’ils ont été entraînés à partir de traces de raisonnement produites par les grands modèles
2025, c’est aussi l’année où des fantômes ont commencé à hanter les données d’entraînement
Désormais, la moitié de X (Twitter) consiste en des LLM qui répondent à d’autres LLM
Autrement dit, les appels ont désormais lieu à l’intérieur même du dataset
Je suis d’accord sur le fait que o3 a été un point de bascule
Certains ont dit que o3 ou o4-mini équivalaient en pratique à un gpt-5
Mais comme leurs noms étaient peu parlants, ils n’ont pas attiré l’attention, alors que gpt-5 a déçu en ne montrant qu’une amélioration progressive
o4-mini avait sans doute un langage conversationnel trop maladroit pour devenir le modèle par défaut, mais l’intégrer à l’offre à 20 dollars sous un nom comme « gpt-5 pro » aurait peut-être été une bonne idée
Avec le recul, je pense que c’était le bon moment pour une sortie majeure