21 points par GN⁺ 2025-12-21 | 2 commentaires | Partager sur WhatsApp
  • 2025 a vu l’émergence de l’apprentissage par renforcement à partir de récompenses vérifiables (RLVR) comme nouvelle étape clé de l’entraînement des LLM, ajoutée au pipeline classique préentraînement-SFT-RLHF
  • Les LLM développent eux-mêmes des stratégies de raisonnement dans des environnements vérifiables comme les mathématiques et les puzzles de code, et acquièrent des modes de résolution de problèmes qui ressemblent à de la « pensée » du point de vue humain
  • Cursor a défini une nouvelle couche d’applications LLM, en montrant comment réaliser de l’ingénierie de contexte et une orchestration complexe d’appels LLM dans des verticaux spécifiques
  • Claude Code est apparu comme le premier exemple vraiment convaincant d’agent LLM s’exécutant sur l’ordinateur local de l’utilisateur, ouvrant un nouveau paradigme d’interaction avec l’IA
  • Le vibe coding permet même à des non-spécialistes de créer des programmes en anglais uniquement, annonçant une démocratisation du développement logiciel et une redéfinition des métiers

1. L’essor de l’apprentissage par renforcement à partir de récompenses vérifiables (RLVR)

  • Jusqu’au début de 2025, la stack de production des LLM reposait sur trois étapes : préentraînement (Pretraining), fine-tuning supervisé (SFT) et apprentissage par renforcement à partir de retours humains (RLHF)
  • Le RLVR (Reinforcement Learning from Verifiable Rewards) s’est ajouté comme nouvelle étape majeure, en entraînant les LLM sur des récompenses automatiquement vérifiables dans des domaines comme les mathématiques et les puzzles de code
  • Les LLM ont spontanément appris des comportements proches du « raisonnement », en décomposant eux-mêmes les problèmes en étapes de calcul intermédiaires et en développant diverses stratégies de résolution
    • Ces stratégies étaient difficiles à obtenir dans le paradigme précédent, car il n’était pas clair à quoi devait ressembler une trace de raisonnement optimale
    • Le LLM doit trouver par lui-même la manière qui lui convient via l’optimisation de la récompense
  • Contrairement au SFT/RLHF, le RLVR permet une optimisation beaucoup plus longue sur des fonctions de récompense objectives et impossibles à truquer
  • Grâce au rapport capacité/$ élevé du RLVR, des ressources de calcul initialement destinées au préentraînement ont été réallouées vers le RLVR
    • Une grande partie des progrès en capacités en 2025 s’est définie par des runs RL plus longs appliqués à des LLM de taille comparable
  • Un nouveau levier est apparu, celui du compute au moment du test, ainsi qu’une nouvelle loi d’échelle permettant d’ajuster les capacités via des traces de raisonnement plus longues et davantage de « temps de pensée »
  • OpenAI o1 (fin 2024) a été la première démonstration d’un modèle RLVR, et la sortie de o3 (début 2025) a marqué un point d’inflexion où la différence est devenue intuitivement perceptible

2. Fantômes vs. animaux / intelligence irrégulière (Jagged Intelligence)

  • En 2025, on a commencé à mieux comprendre de manière intuitive la « forme » de l’intelligence des LLM
  • Créer des LLM, ce n’est pas « faire évoluer/faire grandir des animaux », mais « invoquer des fantômes »
    • L’architecture neuronale, les données d’entraînement, les algorithmes d’apprentissage et les pressions d’optimisation étant tous différents, on obtient des entités très différentes dans l’espace des intelligences
  • Les réseaux neuronaux humains ont été optimisés pour la survie d’un groupe dans la jungle, tandis que ceux des LLM le sont pour imiter les textes de l’humanité, accumuler des récompenses sur des puzzles mathématiques et obtenir des upvotes sur LM Arena
  • Avec la possibilité du RLVR dans les domaines vérifiables, les capacités des LLM ont connu des « pics » dans ces zones, produisant un profil de performance irrégulier
    • Ils peuvent à la fois agir comme des polymathes géniaux et comme des élèves de primaire désorientés, tout en pouvant être manipulés en quelques secondes pour divulguer des données
  • On observe une perte de confiance dans les benchmarks, ainsi qu’une forme d’indifférence à leur égard
    • Les benchmarks sont presque par définition des environnements vérifiables, donc immédiatement vulnérables au RLVR et à des formes faibles de génération de données synthétiques
    • Dans le processus de benchmaxxing, les équipes construisent des environnements à proximité de l’espace d’embedding des benchmarks pour les couvrir
    • L’apprentissage sur le jeu de test est devenu une nouvelle technique
  • À quoi ressemblerait une situation où l’on réussit tous les benchmarks sans pour autant atteindre l’AGI ?
  • Articles liés

3. Cursor / une nouvelle couche d’applications LLM

  • Avec la croissance fulgurante de Cursor, une nouvelle couche des « applications LLM » est apparue
    • L’expression « Cursor for X » a commencé à se répandre
  • Les applications LLM comme Cursor regroupent et orchestrent des appels LLM pour des verticaux spécifiques
    1. Elles réalisent de l’ingénierie de contexte
    2. Elles orchestrent plusieurs appels LLM sous forme de DAG de plus en plus complexes, en équilibrant performance et coût
    3. Elles fournissent une interface graphique propre à l’application pour le human-in-the-loop
    4. Elles proposent un « curseur d’autonomie »
  • Le débat est vif sur l’épaisseur de cette nouvelle couche applicative
    • Certains se demandent si les laboratoires LLM finiront par capturer toutes les applications, ou s’il restera une vraie opportunité pour les applications LLM
  • Les laboratoires LLM tendent en général à produire l’équivalent d’étudiants de bon niveau, mais on s’attend à ce que les applications LLM, en fournissant dans des verticaux spécifiques des données privées, des capteurs, des actionneurs et des boucles de rétroaction, les organisent, les spécialisent et les activent comme de véritables experts

4. Claude Code / une IA résidente sur l’ordinateur

  • Claude Code (CC) s’est imposé comme la première démonstration convaincante d’un agent LLM
    • Il relie l’usage d’outils et le raisonnement dans une boucle, ce qui permet une résolution de problèmes étendue
  • CC s’exécute sur l’ordinateur de l’utilisateur avec son environnement privé, ses données et son contexte
  • OpenAI a mal orienté ses premiers efforts autour de Codex et des agents en se concentrant sur des déploiements de conteneurs cloud orchestrés depuis ChatGPT
    • L’accent a été mis sur le cloud plutôt que simplement sur localhost
  • Une nuée d’agents s’exécutant dans le cloud peut donner une impression de « endgame AGI », mais aujourd’hui nous sommes dans un monde intermédiaire de bonds lents et de capacités irrégulières
    • Il est plus rationnel d’exécuter directement les agents sur l’ordinateur du développeur
  • La distinction importante n’est pas l’endroit où s’exécute le « travail IA », mais le fait de disposer d’un ordinateur déjà existant et déjà démarré, avec ses installations, son contexte, ses données, ses secrets, sa configuration et des interactions à faible latence
  • Anthropic a parfaitement compris cette priorité et a empaqueté CC dans un format CLI minimaliste
    • Cela ouvre un nouveau paradigme d’interaction où l’IA n’est plus un site web que l’on visite comme Google, mais une petite âme/un petit fantôme « résidant » dans l’ordinateur

5. Vibe coding

  • 2025 a été l’année où l’IA a franchi le seuil de capacité lui permettant de créer, en anglais uniquement, une variété impressionnante de programmes
    • On peut programmer en oubliant presque que le code existe
  • Il avait forgé le terme « vibe coding » dans un tweet, sans imaginer à quel point il se répandrait
  • Le vibe coding transforme la programmation : elle n’est plus le domaine réservé de spécialistes hautement formés, mais une activité accessible à tous
  • Contrairement à presque toutes les autres technologies, les LLM constituent un cas où le grand public bénéficie bien davantage que les experts, les entreprises ou les gouvernements
  • Le vibe coding ne donne pas seulement accès à la programmation au grand public ; il permet aussi aux professionnels formés d’écrire beaucoup plus de logiciels qui, sinon, n’auraient jamais été écrits
  • Exemples concrets :
    • Dans nanochat, création en vibe coding d’un tokenizer BPE personnalisé, très efficace, en Rust, sans adoption de bibliothèque existante ni apprentissage approfondi de Rust
    • Vibe coding de démos d’apps rapides comme menugen, llm-council, reader3, HN time capsule, pour matérialiser des choses qu’il aurait aimé voir exister
    • Vibe coding d’une application entière à usage unique pour trouver un seul bug : le code devient soudain gratuit, temporaire, flexible et jetable
  • Le vibe coding va terraformer le logiciel et redéfinir les métiers

6. Nano Banana / GUI pour LLM

  • Google Gemini Nano Banana est l’un des changements de paradigme les plus surprenants de 2025
  • Dans la vision du monde où les LLM constituent le prochain grand paradigme informatique, comparable aux ordinateurs des années 1970-80, des innovations du même type devraient émerger pour des raisons fondamentalement similaires
    • On verra apparaître des équivalents à l’informatique personnelle, aux microcontrôleurs (cœurs cognitifs), à l’internet (des agents), etc.
  • Du point de vue UI/UX, discuter avec un LLM revient à donner des commandes à une console informatique des années 1980
  • Le texte est une représentation primitive des données privilégiée par les ordinateurs (et les LLM), mais ce n’est pas le format préféré des humains
    • En particulier en entrée, les gens n’aiment pas lire du texte : c’est lent et demande un effort
  • Les humains préfèrent consommer l’information de manière visuelle et spatiale, d’où l’invention des GUI dans l’informatique classique
  • De la même manière, les LLM doivent communiquer dans les formats préférés des humains : images, infographies, slides, tableaux blancs, animations/vidéos, web apps, etc.
  • Les premières versions de cela sont aujourd’hui les émojis et le Markdown : titres, gras, italique, listes, tableaux, etc., qui permettent de « mettre en forme visuellement » le texte
  • Nano Banana donne un premier aperçu précoce de ce à quoi pourrait ressembler une GUI pour LLM
    • Au-delà de la seule génération d’images, c’est la capacité combinée de génération de texte, de génération d’images et de connaissance du monde, toutes entremêlées dans les poids du modèle, qui compte

TLDR; synthèse

  • 2025 a été une année passionnante et légèrement surprenante pour les LLM
  • Les LLM ont émergé comme un nouveau type d’intelligence, bien plus intelligents que prévu et en même temps bien plus stupides qu’attendu
  • Quoi qu’il en soit, les LLM sont extrêmement utiles, et il pense que l’industrie n’exploite pas encore ne serait-ce que 10 % de leur potentiel au niveau technologique actuel
  • Les idées à essayer sont innombrables, et conceptuellement, ce domaine semble encore avoir un long chemin à parcourir
  • Même si cela peut sembler paradoxal, il pense qu’il y aura encore des progrès rapides et continus, tout en considérant qu’il reste énormément de travail à faire

2 commentaires

 
laeyoung 2025-12-21

« vibe coder » des démos d’apps rapides pour créer des choses que j’aimerais voir exister, comme menugen, llm-council, reader3, HN time capsule, etc.


Comme on pouvait s’y attendre du père du vibe coding, ce qu’il crée avec le vibe coding est à des années-lumière des petites bricoles que je fais de mon côté. 🤣

 
GN⁺ 2025-12-21
Commentaires sur Hacker News
  • Pour moi, l’innovation la plus marquante de l’année a été Claude Code
    Cursor était une bonne preuve de concept, mais ce qui m’a vraiment amené à utiliser un LLM pour coder, c’est Claude Code
    Le code généré par Claude ressemble presque exactement à celui que j’écrirais moi-même, comme s’il lisait dans mes pensées
    Du coup, il est aussi facile de maintenir le code produit par Claude
    Je peux prédire son style de code à 90–95 %, et il écrit bien plus vite que moi
    Gemini est aussi impressionnant, et Nano Banana est particulièrement utile pour le graphisme
    Je n’ai pas encore essayé Gemini pour le code. Claude Code fonctionne tellement bien que coder encore plus vite me donnerait presque une fatigue décisionnelle
    Pour l’architecture ou l’UX, je préfère ne pas me précipiter, réfléchir un ou deux jours avant d’implémenter. Une fois engagé dans une direction, il est difficile de revenir en arrière, et on risque de s’entêter dans un mauvais choix à cause du biais des coûts irrécupérables

    • Je ne vois presque plus aucune raison d’utiliser Cursor maintenant
      J’ai installé le plugin Claude Code dans IntelliJ IDEA, et je n’utilise l’IDE que pour explorer ou relire le code
      Je ne me souviens plus de la dernière fois où j’ai écrit moi-même plus de deux lignes de code
      Grâce à Claude Code, ma productivité a augmenté d’au moins , et comme le coût d’écriture des tests est quasi nul, ma couverture de tests s’est aussi nettement améliorée
      J’utilise un workflow complet d’agent IA avec Claude : planification, questions, implémentation, revue, puis demandes de corrections
      Je ne fais plus du tout de codage manuel. Zéro absolu
    • Nano Banana Pro est un outil complètement dingue si on sait vraiment s’en servir
      J’ai encore du mal à croire qu’ils aient publié ça
    • Au début, j’ai découvert le codage agentique avec le plan coding de GLM (environ 2 dollars par mois)
      Mais comme je demandais sans cesse à Claude de rendre le code plus élégant et plus lisible, j’ai fini par passer directement à Claude Code
      Avec de bons prompts, GLM s’en approche pas mal, mais si je peux éviter ces soucis pour 0,6 dollar par jour, je ne vois pas l’intérêt d’hésiter
    • Je n’ai pas le temps d’évaluer un nouvel outil chaque mois, donc je suis resté sur Cursor
      Je me demande ce que je rate alors qu’on utilise pourtant le même modèle
  • J’aime bien les textes de Karpathy, mais ces temps-ci, dès que je vois des tournures de phrase façon LLM du type « It’s not X, it’s Y », j’ai un mouvement de rejet instinctif
    Il y a trois ans, ça ne m’aurait rien fait, mais maintenant ce style me paraît complètement ruiné

    • Oui, maintenant qu’on me l’a fait remarquer, je ne vois plus que ça moi aussi
    • Avant, j’utilisais souvent le tiret cadratin (—) dans mes phrases, mais on m’a dit que ça faisait « texte écrit par une IA », donc j’ai dû changer ma manière d’écrire
    • Je suis venu lire Karpathy, mais maintenant je me dis qu’il vaudrait peut-être mieux simplement demander directement au LLM
    • Je détestais déjà ce genre de phrases avant les LLM
      Des formulations comme « It’s not just a website… » relèvent pour moi du gras rhétorique
      Si on enlève ce gras, on obtient des phrases plus plates mais plus claires
      Surtout des expressions comme « little spirit », qui me paraissent tellement emphatiques qu’elles me font lever les yeux au ciel
      Bien sûr, l’auteur cherche sans doute à souligner son propos avec un peu d’ornement, mais ça heurte tellement mon idéal d’écriture que ça me rebute
      Des phrases comme « It’s not just about image generation… » créent une tension conceptuelle inutile
      Je préfère largement écrire : « la génération d’images devient plus intéressante quand elle se combine à la génération de texte »
    • Maintenant que je l’ai remarqué, ce style me saute tellement aux yeux qu’il devient difficile de profiter d’Internet
  • C’était une excellente revue, réaliste
    Ce qui m’inquiète, c’est l’idée que « les LLM sont plus intelligents que prévu tout en étant stupides en même temps »
    Comment savoir à l’avance sur quel versant on va tomber ?
    En programmation, on repère facilement les erreurs, mais dans les domaines plus généraux, ce n’est pas évident
    Et sur l’idée selon laquelle « les non-experts profitent davantage des LLM que les experts », on disait déjà des choses similaires à propos d’AppleScript, de VB ou de la programmation visuelle, mais au final l’IA sert surtout de moteur de recherche intelligent
    Or c’est justement là que les hallucinations sont les plus problématiques. Je me demande quelle peut être la solution

  • J’aime l’optimisme d’Andrej, mais j’aimerais aussi entendre son point de vue sur l’évolution de la concentration du pouvoir industriel en 2025, ainsi que sur des sujets comme l’open source, l’inférence locale et les contraintes matérielles
    Par exemple, il dit que Claude Code « tourne en local », alors qu’en réalité seul le TUI est local et l’inférence se fait dans le cloud
    Je me demande comment ce type d’architecture va évoluer après 2026

    • L’idée centrale de CC, c’est le contexte des données et de l’environnement, pas l’endroit où s’exécute le calcul
      Si les configurations cloud sont peu pratiques, ce n’est pas à cause du calcul lui-même, mais à cause de l’UI/UX et de la boucle utilisateur
    • llama.cpp prend désormais en charge le format de messages Anthropic, donc on peut l’utiliser avec Claude Code
    • L’un des agents de code intéressants qui peuvent tourner en local est OpenAI Codex
      On peut l’exécuter avec un modèle gpt-oss hébergé sur Ollama
      Par exemple codex --oss -m gpt-oss:20b, et on peut aussi utiliser un modèle plus grand (120b)
    • Quand Karpathy parle d’« agent tournant en local », il ne parle pas d’un service web comme LangChain, mais d’un wrapper logiciel (harness) qui appelle une API de LLM
      Cet agent peut invoquer Bash, manipuler le système de fichiers et faire presque n’importe quoi sur l’OS
      En gros, le modèle est le cerveau distant, et l’agent la combinaison mécanique
    • Je trouve que le passage sur Claude Code est formulé de manière un peu ambiguë
      Il voulait sans doute dire non pas que l’inférence est locale, mais que l’agent s’exécute en local
      Il semble vouloir souligner que, contrairement à OpenAI qui a conçu Codex autour du cloud, CC a adopté une approche d’abord locale
      Mais cette distinction mériterait d’être expliquée beaucoup plus clairement
  • La métaphore de Karpathy sur le RLVR, « élever un animal » versus « invoquer un fantôme », me semble être un modèle parfait pour expliquer l’intelligence irrégulière (jagged intelligence) actuelle
    Nous ne créons pas des survivants généralistes ; nous sur-optimisons seulement certains domaines en fonction de récompenses vérifiables
    Et je me reconnais aussi dans l’idée d’un logiciel jetable produit par le vibe coding
    Créer une appli temporaire juste pour déboguer un problème puis la supprimer immédiatement, ça ressemble vraiment à un changement de fond

    • Cela dit, je ne trouve pas la métaphore « animal vs fantôme » si profonde que ça
      Les humains et les animaux sont de véritables êtres intelligents, tandis que les LLM ne font que réverbérer la production humaine dans un cadre étroit
      Pour parler de vraie intelligence artificielle, il faudrait des caractéristiques comme l’autonomie, l’apprentissage continu, la curiosité, une forme d’incarnation virtuelle
      La plupart des animaux fonctionnent beaucoup à l’instinct, mais seuls des êtres capables d’apprentissage généralisé comme l’humain relèvent d’une véritable intelligence
    • Cela dit, l’usage actuel des LLM n’est possible qu’à cause des subventions
      Il faudra voir si ces applications jetables continueront à exister quand il faudra payer le coût réel
    • Moi, j’utilise déjà ce mode depuis plusieurs mois. C’est vraiment amusant
      Je l’ai résumé dans mon billet : c’est une stack qui termine ce que Jupyter avait commencé
      Elle repose sur une structure de fence fonctionnel, appelable et composable
      C’est du même ordre que MCP, et il suffit d’en comprendre les motifs, sans apprentissage supplémentaire
      Il existe même un foncteur qui relie les méthodes d’enseignement du piano du XVIIIe siècle et le context engineering
  • Le passage où Karpathy dit que les LLM devraient communiquer dans le format préféré de l’utilisateur — image, slide, tableau blanc, etc. — est intéressant
    Mais si les LLM fabriquent à chaque fois une nouvelle UX propre à chaque utilisateur, on risque un enfer d’interfaces imprévisibles
    On aura des situations du genre : « Dans cette appli, Command-W fait quoi au juste ? »

    • À l’inverse, certains agents récents commencent à prendre en compte l’accessibilité
      Dans le cas de Codex, c’est même fait avec plus de rigueur que par des humains
    • Si on regarde la manière dont les humains communiquent réellement, le n°1 est sans doute le texte / la voix, et le n°2 l’image
    • En réalité, les LLM ont déjà résolu ce problème
      Le LLM lui-même est la meilleure UI
      Comme il comprend plusieurs langues et des concepts abstraits, il n’y a pas besoin de générer des interfaces arbitraires
      En tant qu’utilisateur non anglophone, je peux même mélanger des mots allemands et il me comprend très bien
  • Beaucoup d’influenceurs IA affirment avec certitude que « les interfaces textuelles vont disparaître », mais en pratique, l’interface texte reste centrale

    • Il y a quelques jours, j’ai voulu résilier un abonnement à un outil de modélisation 3D par IA et j’ai passé cinq minutes sans trouver le bouton
      Il était finalement caché dans un menu à trois points peu contrasté sur la carte du forfait, et quand j’ai cliqué, ça a ouvert une fenêtre de chat avec un chatbot IA
      Il fallait taper le prompt « unsubscribe » pour que le bouton apparaisse
      Je trouve terrible d’introduire dans les applis une UX de répondeur téléphonique automatisé
      En tant qu’ingénieur frontend, cette tendance me fait peur
    • Au cours de ma vie, j’ai l’impression que les gens se sont mis à taper de plus en plus plutôt qu’à parler
  • Je me demande ce qu’Andrej pense des modèles rapides de cette année (Gemini 3 Flash, Grok 4 Fast)
    Des modèles aussi rapides, aussi peu chers et aussi bons sont apparus, et pourtant la communauté semble à peine y prêter attention
    Il me semble que ce genre de modèle sera indispensable si la vision d’un LLM comme interface visuelle doit se concrétiser

    • Il est probable que ces petits modèles soient des versions distillées de grands modèles
      J’imagine qu’ils ont été entraînés à partir de traces de raisonnement produites par les grands modèles
    • Je recommande de regarder les travaux de Sasha Luccioni
  • 2025, c’est aussi l’année où des fantômes ont commencé à hanter les données d’entraînement
    Désormais, la moitié de X (Twitter) consiste en des LLM qui répondent à d’autres LLM
    Autrement dit, les appels ont désormais lieu à l’intérieur même du dataset

    • Si quelqu’un a des astuces pour repérer ces comptes LLM, ça m’intéresse. Je n’ai pas envie de débattre avec des bots
  • Je suis d’accord sur le fait que o3 a été un point de bascule
    Certains ont dit que o3 ou o4-mini équivalaient en pratique à un gpt-5
    Mais comme leurs noms étaient peu parlants, ils n’ont pas attiré l’attention, alors que gpt-5 a déçu en ne montrant qu’une amélioration progressive
    o4-mini avait sans doute un langage conversationnel trop maladroit pour devenir le modèle par défaut, mais l’intégrer à l’offre à 20 dollars sous un nom comme « gpt-5 pro » aurait peut-être été une bonne idée

    • Je suis d’accord aussi. Presque personne n’avait essayé o3 à l’époque, et son nom était trop étrange pour susciter l’intérêt
      Avec le recul, je pense que c’était le bon moment pour une sortie majeure