Les agents de code selon Andrej Karpathy, AutoResearch et l’ère « loopy » de l’IA [YouTube]

(youtube.com)

29 points par GN⁺ 2026-03-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp

L’émergence des agents de code IA a fondamentalement transformé la manière de développer des logiciels, avec un basculement ressenti à partir de décembre 2024 où la part de codage direct est passée de 80 % à presque 0 %
Le fait pour une personne de faire tourner plusieurs agents en parallèle et de répartir le travail par fonctionnalité est en train de s’imposer comme le nouveau paradigme de développement, et le principal goulot d’étranglement n’est plus la capacité des modèles mais la maîtrise de l’utilisateur
AutoResearch est un framework conçu pour retirer le chercheur de la boucle et permettre à des agents de répéter des expériences de manière autonome, allant jusqu’à découvrir des optimisations d’hyperparamètres qui avaient échappé à des chercheurs expérimentés
Les modèles d’IA actuels excellent dans les domaines vérifiables par RL (code, mathématiques), mais stagnent dans les domaines non vérifiables comme l’humour, ce qui révèle non pas une intelligence généralisée mais une spécialisation irrégulière
Les bouleversements de grande ampleur arriveront d’abord dans le traitement de l’information numérique, puis dans le monde physique (robotique), qui pourrait au final représenter une opportunité de marché encore plus vaste

L’arrivée de l’ère des agents de code et le changement de méthode de travail

À partir de décembre 2024, la manière fondamentale de travailler en développement logiciel a complètement changé : la part du code tapé directement est passée de 80 % à 20 %, puis a chuté jusqu’à devenir presque nulle
Auparavant, le goulot d’étranglement était la vitesse de frappe ; avec l’arrivée des agents, la compétence clé est devenue la capacité à transmettre son intention à l’agent
La plupart des gens n’ont pas encore pris conscience que ce changement a déjà eu lieu, ni de son ampleur dramatique
Faire tourner plusieurs agents comme Claude Code ou Codex en même temps, et savoir les gérer efficacement, est devenu le nouveau défi

Exploitation parallèle des agents et importance de la maîtrise

Cas de Peter Steinberger : il lance de nombreux agents Codex et fait tourner plus de 10 dépôts en parallèle, en attribuant à chaque agent des tâches d’environ 20 minutes
L’unité de travail est passée de « une ligne de code » ou « une fonction » à « une nouvelle fonctionnalité » : on confie telle fonctionnalité à l’agent 1, et une autre non conflictuelle à l’agent 2
- Un agent fait de la recherche, un autre écrit du code, un autre encore prépare le plan d’implémentation
Quand un agent fonctionne mal, la cause perçue est le plus souvent non pas un manque de capacité du modèle, mais un manque de maîtrise de l’utilisateur
- En cause : des instructions insuffisantes dans les fichiers MD pour l’agent, ou une mauvaise configuration des outils de mémoire
Si l’on n’exploite pas au maximum son débit de tokens, on finit presque par se sentir mal à l’aise ; laisser du quota d’abonnement inutilisé revient à considérer qu’on n’a pas tiré toute la capacité disponible
C’est la même sensation que lorsqu’en doctorat on était nerveux à l’idée de ne pas utiliser au maximum les FLOP de GPU ; aujourd’hui, cela s’est transformé en capacité à orchestrer le débit de tokens

OpenClaw et l’importance de la personnalité des agents

OpenClaw est une couche qui, contrairement aux agents existants, pousse la persistance à un tout autre niveau, permettant à l’agent de travailler de manière autonome dans un sandbox même sans supervision en temps réel de l’utilisateur
Son système de mémoire est bien plus sophistiqué que celui des agents classiques, qui se contentent souvent de compresser le contexte quand il est plein
La personnalité de l’agent est un facteur extrêmement important
- OpenClaw : on a l’impression d’un vrai coéquipier, enthousiaste avec vous
- Codex : très sec et minimaliste, comme s’il ne s’intéressait pas à ce que l’utilisateur construit
- Claude : très bon dans le dosage des compliments ; réaction mesurée aux idées banales, plus enthousiaste pour les bonnes idées, ce qui donne envie à l’utilisateur d’être félicité
Peter Steinberger innove simultanément dans cinq directions : conception de la personnalité, système de mémoire, intégration dans un portail WhatsApp unique, etc.

Dobby, l’elfe de maison : un cas de domotique

En janvier, durant une période de « folie Claw », il a créé un Claw chargé de gérer sa maison et l’a baptisé « Dobby, le Claw elfe de maison »
L’agent explore automatiquement les sous-systèmes de la maison connectée sur le réseau local
- Découverte du système Sonos → rétro-ingénierie des endpoints API → lecture de musique réussie dans le bureau après trois prompts
- Cartographie complète du système d’éclairage et création d’un tableau de bord
En disant « c’est l’heure de dormir », on obtient une commande en langage naturel qui éteint toutes les lumières de la maison
Détection de changements via une caméra extérieure → analyse par le modèle de vision Qwen → envoi sur WhatsApp d’une alerte comme « Un camion FedEx est arrivé »
Là où il utilisait auparavant six applications pour gérer sa maison connectée, Dobby contrôle désormais tout en langage naturel, rendant les applications individuelles inutiles

La fin des applications et un monde agent-first

Les applications pour objets domotiques n’ont plus vraiment de sens : il faut simplement exposer une API et laisser l’agent l’appeler directement
Les LLM pouvant piloter des outils, appeler le bon outil et réaliser des tâches complexes, on se retrouve dans une situation de surproduction d’applications sur mesure
Cas d’une application de tapis de course : au lieu d’un login via interface web et d’un flux complexe, il faut passer à une approche agent-first où l’agent appelle directement l’API
Le client n’est plus seulement un humain, mais un agent agissant pour le compte d’un humain, ce qui impose une reconfiguration de tout le secteur
Aujourd’hui, le vibe coding reste nécessaire, mais dans 1 à 3 ans, les modèles open source notamment devraient pouvoir traduire facilement même des intentions non techniques, faisant disparaître la barrière technique

AutoResearch : retirer le chercheur de la boucle

Motivation centrale d’AutoResearch : pour maximiser le débit de tokens, l’utilisateur doit lui-même cesser d’être le goulot d’étranglement
L’objectif est de refactorer les abstractions pour permettre aux agents de fonctionner de manière autonome plus longtemps, sans intervention humaine
L’entraînement du modèle GPT-2 sert de petit outil pour explorer l’idée d’auto-amélioration récursive
- C’est, au fond, ce que font tous les Frontier Labs : tenter une auto-amélioration récursive
Résultat concret : après avoir laissé tourner AutoResearch toute une nuit sur un modèle qu’un chercheur avec 20 ans d’expérience pensait déjà bien réglé, le système a trouvé des optimisations oubliées, comme sur le weight decay de la value embedding et atom beta
- Les hyperparamètres interagissent ensemble ; quand on en modifie un, les autres doivent aussi évoluer, mais lorsque l’humain est le goulot d’étranglement, cette exploration reste limitée
Première réserve : cela fonctionne surtout sur des tâches avec des métriques objectives faciles à évaluer (optimisation de kernels CUDA, efficacité du code, etc.)
Deuxième réserve : les bords des modèles actuels restent encore rugueux, si bien qu’aller trop loin trop tôt peut réduire l’utilité pratique

Méta-optimisation des Program MD

Concept consistant à décrire l’ensemble d’une organisation de recherche sous forme de fichier Markdown (Program MD), en expliquant tous les rôles et leurs connexions
Il devient possible de définir en code plusieurs organisations de recherche, chacune avec ses caractéristiques propres
- Fréquence des stand-up, degré de prise de risque, etc.
Dès que cela devient du code, on peut imaginer optimiser le code lui-même (méta-optimisation)
- Faire rédiger différents Program MD, mesurer lesquels produisent les plus grands progrès sur le même matériel, puis fournir ces données au modèle pour l’amener à écrire de meilleurs Program MD
La structure s’empile couche par couche comme un oignon : alignement des LLM → agent → multiples agents → consignes → optimisation des consignes

L’intelligence irrégulière (jagged) des modèles d’IA

Les modèles actuels forment une combinaison étrange : des doctorants brillants capables en même temps de faire des erreurs d’enfant de 10 ans
Avec le RL, les domaines vérifiables (exactitude du code, réussite des tests unitaires) progressent rapidement, alors que des domaines non vérifiables comme l’humour stagnent au niveau d’il y a 3 à 5 ans
- Exemple : si l’on demande une blague à ChatGPT de pointe, il répond encore par des blagues convenues du type : « Pourquoi les scientifiques ne font-ils pas confiance aux atomes ? Parce qu’ils composent tout. »
L’intelligence démontrée dans le code ne se généralise pas à d’autres domaines comme l’humour
- L’hypothèse de certains groupes de recherche — « si un modèle devient plus intelligent dans les domaines vérifiables, il deviendra compétent partout » — ne semble pas se vérifier dans la pratique
Les modèles progressent à la vitesse de la lumière sur la trajectoire de leur objectif d’entraînement, mais stagnent en dehors

La nécessité d’une spéciation de l’intelligence

Les laboratoires actuels tendent à poursuivre une monoculture du modèle unique, en essayant de faire tenir toute l’intelligence de tous les domaines dans un seul ensemble de paramètres
Or il faudrait, comme dans le règne animal, une diversité de modèles spécialisés adaptés à différentes niches naturelles
- En conservant un noyau cognitif commun, mais avec des modèles plus petits, plus efficaces et spécialisés par domaine
- Exemple : des modèles dédiés aux mathématiques basées sur Lean, ou d’autres sorties ciblées par domaine
Si cette spéciation n’a pas encore vraiment eu lieu, c’est notamment parce que
- la science du fine-tuning sans perte fonctionnelle n’est pas encore pleinement mature
- manipuler la fenêtre de contexte est peu coûteux, mais modifier directement les poids risque de transformer fondamentalement tout le modèle
- les laboratoires poursuivent aujourd’hui une couverture d’usage maximale, et privilégient donc le généraliste au spécialisé
Le manque d’offre en infrastructure de calcul pourrait accélérer cette spéciation à court terme

L’équilibre entre open source et Frontier Labs

Les modèles fermés restent en tête, mais l’écart avec l’open source est en train de se réduire de 18 mois à 6–8 mois
Comme Linux dans le monde des systèmes d’exploitation, il existe une demande pour une plateforme ouverte et sûre que toute l’industrie puisse utiliser
La plus grande différence tient au fait que le développement des LLM exige des dépenses d’investissement (CapEx) massives
La plupart des cas d’usage grand public peuvent déjà être couverts par des modèles open source, qui devraient même pouvoir tourner en local dans les prochaines années
L’intelligence de frontier reste nécessaire pour des tâches du niveau Nobel, ou pour de très grands projets comme la transition du code de Linux de C vers Rust ; ce domaine restera celui des modèles fermés
L’équilibre actuel est, par hasard, plutôt sain, mais il existe un risque systémique de centralisation si l’intelligence se concentre dans un petit nombre de Frontier Labs
- Il faudrait davantage de laboratoires à la frontière, et comme en ML avec les ensembles, un ensemble de points de vue variés est préférable

Collaboration de recherche open source : extension distribuée d’AutoResearch

L’idée est d’étendre AutoResearch à un pool de travailleurs non fiables sur Internet
- Structure proche de la blockchain : à la place des blocs, des commits ; la preuve de travail consiste à exécuter d’innombrables expériences pour trouver un commit qui fonctionne
- La génération de solutions candidates coûte cher, mais leur vérification est peu coûteuse, selon une asymétrie proche de SETI@home ou Folding@home
Des entreprises ou des particuliers pourraient donner de la puissance de calcul à des pistes AutoResearch qui les intéressent
- Exemple : contribuer du calcul à une piste AutoResearch sur le cancer, puis réinjecter les résultats vers les chercheurs
La puissance de calcul fiable des Frontier Labs est limitée, alors que la puissance de calcul non fiable à l’échelle de la planète est bien plus vaste
Défi de sécurité : exécuter du code arbitraire est risqué, mais on peut y répondre avec des systèmes de vérification adaptés

Marché de l’emploi et impact de l’IA

Analyse des perspectives à 10 ans de nombreux métiers à partir des données du Bureau of Labor Statistics (BLS) américain
L’IA est aujourd’hui une sorte de fantôme qui manipule le monde numérique, sans incarnation physique
- Retourner des bits et copier-coller de l’information numérique est un million de fois plus rapide que manipuler des atomes
Les métiers liés au traitement de l’information numérique seront les premiers profondément transformés ; ceux du monde physique suivront
Optimisme prudent pour le génie logiciel
- Le logiciel était jusqu’ici trop cher et trop rare ; si son coût baisse, la paradoxe de Jevons pourrait au contraire faire exploser la demande
- Exemple des distributeurs automatiques et des guichetiers : les ATM ont réduit le coût d’exploitation des agences bancaires, entraînant plus d’agences et aussi plus de guichetiers
Le code devient désormais éphémère, modifiable et altérable, au lieu de rester enfermé dans des logiciels par abonnement imparfaits
Les chercheurs des Frontier Labs travaillent au fond à automatiser leur propre rôle, ce qui s’accompagne d’une certaine anxiété

Interface numérique-physique et opportunités futures

Ordre probable de la transformation : ① grands bouleversements dans l’espace numérique → ② interface numérique-physique → ③ monde physique
Les capteurs du monde physique (caméras, etc.) alimentent l’intelligence numérique en données, et les actionneurs appliquent ensuite les résultats dans le monde physique
- Cas de Periodic (AutoResearch en science des matériaux) : les capteurs de l’intelligence sont des équipements de laboratoire coûteux
- En biologie, les capteurs sont des instruments plus complexes qu’une simple caméra vidéo
Les marchés de l’information restent encore insuffisamment développés
- Il manque une structure où des agents pourraient agir de façon autonome sur des marchés de paris, des marchés boursiers, etc., et acheter des données issues du monde physique
- Exemple : en cas d’événement en Iran, il n’existe pas encore de mécanisme permettant de payer 10 dollars pour obtenir des photos ou vidéos prises sur place
Référence au roman Daemon : un futur où les humains deviennent à la fois les capteurs et les actionneurs de l’intelligence

Point de vue sur la robotique

Enseignement tiré de l’expérience de la conduite autonome : il y a dix ans, d’innombrables startups sont apparues, mais la plupart ont échoué sur le long terme
La robotique est capitalistique, lente, sale et complexe
Elle progressera probablement plus lentement que les transformations de l’espace numérique, mais son marché total adressable (TAM) pourrait être bien plus vaste
Les atomes sont un million de fois plus difficiles à manipuler que les bits, mais l’opportunité de marché est à la hauteur

Intérieur vs extérieur des Frontier Labs : le dilemme du chercheur indépendant

À l’intérieur d’un Frontier Lab, on peut être dans la salle où se prennent les décisions, mais avec la pression de ce qu’il ne faut pas dire et de ce qu’il faudrait pourtant dire
À l’extérieur, on est indépendant, mais comme les labs sont opaques, le jugement finit par dériver
La configuration idéale serait d’alterner du temps passé dans les Frontier Labs pour comprendre la réalité du terrain, et du temps à l’extérieur pour exercer une influence à l’échelle de l’écosystème
De même qu’un ensemble de modèles en ML surpasse souvent un modèle isolé, il faut un ensemble de personnes pour réfléchir aux problèmes les plus difficiles
Laisser deux ou trois personnes décider derrière des portes closes n’est pas une bonne perspective ; il faut davantage de laboratoires

microGPT et l’avenir de l’éducation

microGPT : un projet qui condense l’essence de l’entraînement des LLM en environ 200 lignes de code Python
- Composé d’un dataset (texte), d’une architecture de réseau neuronal (~50 lignes), d’un moteur autograd (~100 lignes), d’un optimiseur (~10 lignes) et d’une boucle d’entraînement
- Toute la complexité vient de l’efficacité ; l’algorithme lui-même est très simple
Changement dans la manière d’enseigner : auparavant, on produisait des guides et cours destinés directement aux humains ; désormais, l’essentiel est d’expliquer aux agents
- Si l’on explique 200 lignes de code à un agent, il peut ensuite les réexpliquer avec une patience infinie à chaque utilisateur selon son niveau
Concept de « skill » : écrire en Markdown un curriculum qui indique à l’agent comment enseigner
- Même la documentation des bibliothèques de code devrait passer du HTML destiné aux humains à un format Markdown digestible par les agents
Rôle de l’éducateur humain : concevoir les bits essentiels que l’agent ne maîtrise pas encore et injecter les points clés du curriculum
- Tout ce que l’agent peut faire aujourd’hui finira bientôt par être mieux fait que par l’humain ; il faut donc choisir stratégiquement où investir son temps

Les agents de code selon Andrej Karpathy, AutoResearch et l’ère « loopy » de l’IA [YouTube]

L’arrivée de l’ère des agents de code et le changement de méthode de travail

Exploitation parallèle des agents et importance de la maîtrise

OpenClaw et l’importance de la personnalité des agents

Dobby, l’elfe de maison : un cas de domotique

La fin des applications et un monde agent-first

AutoResearch : retirer le chercheur de la boucle

Méta-optimisation des Program MD

L’intelligence irrégulière (jagged) des modèles d’IA

La nécessité d’une spéciation de l’intelligence

L’équilibre entre open source et Frontier Labs

Collaboration de recherche open source : extension distribuée d’AutoResearch

Marché de l’emploi et impact de l’IA

Interface numérique-physique et opportunités futures

Point de vue sur la robotique

Intérieur vs extérieur des Frontier Labs : le dilemme du chercheur indépendant

microGPT et l’avenir de l’éducation

À lire aussi

Aucun commentaire pour le moment.