29 points par GN⁺ 2026-03-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • L’émergence des agents de code IA a fondamentalement transformé la manière de développer des logiciels, avec un basculement ressenti à partir de décembre 2024 où la part de codage direct est passée de 80 % à presque 0 %
  • Le fait pour une personne de faire tourner plusieurs agents en parallèle et de répartir le travail par fonctionnalité est en train de s’imposer comme le nouveau paradigme de développement, et le principal goulot d’étranglement n’est plus la capacité des modèles mais la maîtrise de l’utilisateur
  • AutoResearch est un framework conçu pour retirer le chercheur de la boucle et permettre à des agents de répéter des expériences de manière autonome, allant jusqu’à découvrir des optimisations d’hyperparamètres qui avaient échappé à des chercheurs expérimentés
  • Les modèles d’IA actuels excellent dans les domaines vérifiables par RL (code, mathématiques), mais stagnent dans les domaines non vérifiables comme l’humour, ce qui révèle non pas une intelligence généralisée mais une spécialisation irrégulière
  • Les bouleversements de grande ampleur arriveront d’abord dans le traitement de l’information numérique, puis dans le monde physique (robotique), qui pourrait au final représenter une opportunité de marché encore plus vaste

L’arrivée de l’ère des agents de code et le changement de méthode de travail

  • À partir de décembre 2024, la manière fondamentale de travailler en développement logiciel a complètement changé : la part du code tapé directement est passée de 80 % à 20 %, puis a chuté jusqu’à devenir presque nulle
  • Auparavant, le goulot d’étranglement était la vitesse de frappe ; avec l’arrivée des agents, la compétence clé est devenue la capacité à transmettre son intention à l’agent
  • La plupart des gens n’ont pas encore pris conscience que ce changement a déjà eu lieu, ni de son ampleur dramatique
  • Faire tourner plusieurs agents comme Claude Code ou Codex en même temps, et savoir les gérer efficacement, est devenu le nouveau défi

Exploitation parallèle des agents et importance de la maîtrise

  • Cas de Peter Steinberger : il lance de nombreux agents Codex et fait tourner plus de 10 dépôts en parallèle, en attribuant à chaque agent des tâches d’environ 20 minutes
  • L’unité de travail est passée de « une ligne de code » ou « une fonction » à « une nouvelle fonctionnalité » : on confie telle fonctionnalité à l’agent 1, et une autre non conflictuelle à l’agent 2
    • Un agent fait de la recherche, un autre écrit du code, un autre encore prépare le plan d’implémentation
  • Quand un agent fonctionne mal, la cause perçue est le plus souvent non pas un manque de capacité du modèle, mais un manque de maîtrise de l’utilisateur
    • En cause : des instructions insuffisantes dans les fichiers MD pour l’agent, ou une mauvaise configuration des outils de mémoire
  • Si l’on n’exploite pas au maximum son débit de tokens, on finit presque par se sentir mal à l’aise ; laisser du quota d’abonnement inutilisé revient à considérer qu’on n’a pas tiré toute la capacité disponible
  • C’est la même sensation que lorsqu’en doctorat on était nerveux à l’idée de ne pas utiliser au maximum les FLOP de GPU ; aujourd’hui, cela s’est transformé en capacité à orchestrer le débit de tokens

OpenClaw et l’importance de la personnalité des agents

  • OpenClaw est une couche qui, contrairement aux agents existants, pousse la persistance à un tout autre niveau, permettant à l’agent de travailler de manière autonome dans un sandbox même sans supervision en temps réel de l’utilisateur
  • Son système de mémoire est bien plus sophistiqué que celui des agents classiques, qui se contentent souvent de compresser le contexte quand il est plein
  • La personnalité de l’agent est un facteur extrêmement important
    • OpenClaw : on a l’impression d’un vrai coéquipier, enthousiaste avec vous
    • Codex : très sec et minimaliste, comme s’il ne s’intéressait pas à ce que l’utilisateur construit
    • Claude : très bon dans le dosage des compliments ; réaction mesurée aux idées banales, plus enthousiaste pour les bonnes idées, ce qui donne envie à l’utilisateur d’être félicité
  • Peter Steinberger innove simultanément dans cinq directions : conception de la personnalité, système de mémoire, intégration dans un portail WhatsApp unique, etc.

Dobby, l’elfe de maison : un cas de domotique

  • En janvier, durant une période de « folie Claw », il a créé un Claw chargé de gérer sa maison et l’a baptisé « Dobby, le Claw elfe de maison »
  • L’agent explore automatiquement les sous-systèmes de la maison connectée sur le réseau local
    • Découverte du système Sonos → rétro-ingénierie des endpoints API → lecture de musique réussie dans le bureau après trois prompts
    • Cartographie complète du système d’éclairage et création d’un tableau de bord
  • En disant « c’est l’heure de dormir », on obtient une commande en langage naturel qui éteint toutes les lumières de la maison
  • Détection de changements via une caméra extérieure → analyse par le modèle de vision Qwen → envoi sur WhatsApp d’une alerte comme « Un camion FedEx est arrivé »
  • Là où il utilisait auparavant six applications pour gérer sa maison connectée, Dobby contrôle désormais tout en langage naturel, rendant les applications individuelles inutiles

La fin des applications et un monde agent-first

  • Les applications pour objets domotiques n’ont plus vraiment de sens : il faut simplement exposer une API et laisser l’agent l’appeler directement
  • Les LLM pouvant piloter des outils, appeler le bon outil et réaliser des tâches complexes, on se retrouve dans une situation de surproduction d’applications sur mesure
  • Cas d’une application de tapis de course : au lieu d’un login via interface web et d’un flux complexe, il faut passer à une approche agent-first où l’agent appelle directement l’API
  • Le client n’est plus seulement un humain, mais un agent agissant pour le compte d’un humain, ce qui impose une reconfiguration de tout le secteur
  • Aujourd’hui, le vibe coding reste nécessaire, mais dans 1 à 3 ans, les modèles open source notamment devraient pouvoir traduire facilement même des intentions non techniques, faisant disparaître la barrière technique

AutoResearch : retirer le chercheur de la boucle

  • Motivation centrale d’AutoResearch : pour maximiser le débit de tokens, l’utilisateur doit lui-même cesser d’être le goulot d’étranglement
  • L’objectif est de refactorer les abstractions pour permettre aux agents de fonctionner de manière autonome plus longtemps, sans intervention humaine
  • L’entraînement du modèle GPT-2 sert de petit outil pour explorer l’idée d’auto-amélioration récursive
    • C’est, au fond, ce que font tous les Frontier Labs : tenter une auto-amélioration récursive
  • Résultat concret : après avoir laissé tourner AutoResearch toute une nuit sur un modèle qu’un chercheur avec 20 ans d’expérience pensait déjà bien réglé, le système a trouvé des optimisations oubliées, comme sur le weight decay de la value embedding et atom beta
    • Les hyperparamètres interagissent ensemble ; quand on en modifie un, les autres doivent aussi évoluer, mais lorsque l’humain est le goulot d’étranglement, cette exploration reste limitée
  • Première réserve : cela fonctionne surtout sur des tâches avec des métriques objectives faciles à évaluer (optimisation de kernels CUDA, efficacité du code, etc.)
  • Deuxième réserve : les bords des modèles actuels restent encore rugueux, si bien qu’aller trop loin trop tôt peut réduire l’utilité pratique

Méta-optimisation des Program MD

  • Concept consistant à décrire l’ensemble d’une organisation de recherche sous forme de fichier Markdown (Program MD), en expliquant tous les rôles et leurs connexions
  • Il devient possible de définir en code plusieurs organisations de recherche, chacune avec ses caractéristiques propres
    • Fréquence des stand-up, degré de prise de risque, etc.
  • Dès que cela devient du code, on peut imaginer optimiser le code lui-même (méta-optimisation)
    • Faire rédiger différents Program MD, mesurer lesquels produisent les plus grands progrès sur le même matériel, puis fournir ces données au modèle pour l’amener à écrire de meilleurs Program MD
  • La structure s’empile couche par couche comme un oignon : alignement des LLM → agent → multiples agents → consignes → optimisation des consignes

L’intelligence irrégulière (jagged) des modèles d’IA

  • Les modèles actuels forment une combinaison étrange : des doctorants brillants capables en même temps de faire des erreurs d’enfant de 10 ans
  • Avec le RL, les domaines vérifiables (exactitude du code, réussite des tests unitaires) progressent rapidement, alors que des domaines non vérifiables comme l’humour stagnent au niveau d’il y a 3 à 5 ans
    • Exemple : si l’on demande une blague à ChatGPT de pointe, il répond encore par des blagues convenues du type : « Pourquoi les scientifiques ne font-ils pas confiance aux atomes ? Parce qu’ils composent tout. »
  • L’intelligence démontrée dans le code ne se généralise pas à d’autres domaines comme l’humour
    • L’hypothèse de certains groupes de recherche — « si un modèle devient plus intelligent dans les domaines vérifiables, il deviendra compétent partout » — ne semble pas se vérifier dans la pratique
  • Les modèles progressent à la vitesse de la lumière sur la trajectoire de leur objectif d’entraînement, mais stagnent en dehors

La nécessité d’une spéciation de l’intelligence

  • Les laboratoires actuels tendent à poursuivre une monoculture du modèle unique, en essayant de faire tenir toute l’intelligence de tous les domaines dans un seul ensemble de paramètres
  • Or il faudrait, comme dans le règne animal, une diversité de modèles spécialisés adaptés à différentes niches naturelles
    • En conservant un noyau cognitif commun, mais avec des modèles plus petits, plus efficaces et spécialisés par domaine
    • Exemple : des modèles dédiés aux mathématiques basées sur Lean, ou d’autres sorties ciblées par domaine
  • Si cette spéciation n’a pas encore vraiment eu lieu, c’est notamment parce que
    • la science du fine-tuning sans perte fonctionnelle n’est pas encore pleinement mature
    • manipuler la fenêtre de contexte est peu coûteux, mais modifier directement les poids risque de transformer fondamentalement tout le modèle
    • les laboratoires poursuivent aujourd’hui une couverture d’usage maximale, et privilégient donc le généraliste au spécialisé
  • Le manque d’offre en infrastructure de calcul pourrait accélérer cette spéciation à court terme

L’équilibre entre open source et Frontier Labs

  • Les modèles fermés restent en tête, mais l’écart avec l’open source est en train de se réduire de 18 mois à 6–8 mois
  • Comme Linux dans le monde des systèmes d’exploitation, il existe une demande pour une plateforme ouverte et sûre que toute l’industrie puisse utiliser
  • La plus grande différence tient au fait que le développement des LLM exige des dépenses d’investissement (CapEx) massives
  • La plupart des cas d’usage grand public peuvent déjà être couverts par des modèles open source, qui devraient même pouvoir tourner en local dans les prochaines années
  • L’intelligence de frontier reste nécessaire pour des tâches du niveau Nobel, ou pour de très grands projets comme la transition du code de Linux de C vers Rust ; ce domaine restera celui des modèles fermés
  • L’équilibre actuel est, par hasard, plutôt sain, mais il existe un risque systémique de centralisation si l’intelligence se concentre dans un petit nombre de Frontier Labs
    • Il faudrait davantage de laboratoires à la frontière, et comme en ML avec les ensembles, un ensemble de points de vue variés est préférable

Collaboration de recherche open source : extension distribuée d’AutoResearch

  • L’idée est d’étendre AutoResearch à un pool de travailleurs non fiables sur Internet
    • Structure proche de la blockchain : à la place des blocs, des commits ; la preuve de travail consiste à exécuter d’innombrables expériences pour trouver un commit qui fonctionne
    • La génération de solutions candidates coûte cher, mais leur vérification est peu coûteuse, selon une asymétrie proche de SETI@home ou Folding@home
  • Des entreprises ou des particuliers pourraient donner de la puissance de calcul à des pistes AutoResearch qui les intéressent
    • Exemple : contribuer du calcul à une piste AutoResearch sur le cancer, puis réinjecter les résultats vers les chercheurs
  • La puissance de calcul fiable des Frontier Labs est limitée, alors que la puissance de calcul non fiable à l’échelle de la planète est bien plus vaste
  • Défi de sécurité : exécuter du code arbitraire est risqué, mais on peut y répondre avec des systèmes de vérification adaptés

Marché de l’emploi et impact de l’IA

  • Analyse des perspectives à 10 ans de nombreux métiers à partir des données du Bureau of Labor Statistics (BLS) américain
  • L’IA est aujourd’hui une sorte de fantôme qui manipule le monde numérique, sans incarnation physique
    • Retourner des bits et copier-coller de l’information numérique est un million de fois plus rapide que manipuler des atomes
  • Les métiers liés au traitement de l’information numérique seront les premiers profondément transformés ; ceux du monde physique suivront
  • Optimisme prudent pour le génie logiciel
    • Le logiciel était jusqu’ici trop cher et trop rare ; si son coût baisse, la paradoxe de Jevons pourrait au contraire faire exploser la demande
    • Exemple des distributeurs automatiques et des guichetiers : les ATM ont réduit le coût d’exploitation des agences bancaires, entraînant plus d’agences et aussi plus de guichetiers
  • Le code devient désormais éphémère, modifiable et altérable, au lieu de rester enfermé dans des logiciels par abonnement imparfaits
  • Les chercheurs des Frontier Labs travaillent au fond à automatiser leur propre rôle, ce qui s’accompagne d’une certaine anxiété

Interface numérique-physique et opportunités futures

  • Ordre probable de la transformation : ① grands bouleversements dans l’espace numérique → ② interface numérique-physique → ③ monde physique
  • Les capteurs du monde physique (caméras, etc.) alimentent l’intelligence numérique en données, et les actionneurs appliquent ensuite les résultats dans le monde physique
    • Cas de Periodic (AutoResearch en science des matériaux) : les capteurs de l’intelligence sont des équipements de laboratoire coûteux
    • En biologie, les capteurs sont des instruments plus complexes qu’une simple caméra vidéo
  • Les marchés de l’information restent encore insuffisamment développés
    • Il manque une structure où des agents pourraient agir de façon autonome sur des marchés de paris, des marchés boursiers, etc., et acheter des données issues du monde physique
    • Exemple : en cas d’événement en Iran, il n’existe pas encore de mécanisme permettant de payer 10 dollars pour obtenir des photos ou vidéos prises sur place
  • Référence au roman Daemon : un futur où les humains deviennent à la fois les capteurs et les actionneurs de l’intelligence

Point de vue sur la robotique

  • Enseignement tiré de l’expérience de la conduite autonome : il y a dix ans, d’innombrables startups sont apparues, mais la plupart ont échoué sur le long terme
  • La robotique est capitalistique, lente, sale et complexe
  • Elle progressera probablement plus lentement que les transformations de l’espace numérique, mais son marché total adressable (TAM) pourrait être bien plus vaste
  • Les atomes sont un million de fois plus difficiles à manipuler que les bits, mais l’opportunité de marché est à la hauteur

Intérieur vs extérieur des Frontier Labs : le dilemme du chercheur indépendant

  • À l’intérieur d’un Frontier Lab, on peut être dans la salle où se prennent les décisions, mais avec la pression de ce qu’il ne faut pas dire et de ce qu’il faudrait pourtant dire
  • À l’extérieur, on est indépendant, mais comme les labs sont opaques, le jugement finit par dériver
  • La configuration idéale serait d’alterner du temps passé dans les Frontier Labs pour comprendre la réalité du terrain, et du temps à l’extérieur pour exercer une influence à l’échelle de l’écosystème
  • De même qu’un ensemble de modèles en ML surpasse souvent un modèle isolé, il faut un ensemble de personnes pour réfléchir aux problèmes les plus difficiles
  • Laisser deux ou trois personnes décider derrière des portes closes n’est pas une bonne perspective ; il faut davantage de laboratoires

microGPT et l’avenir de l’éducation

  • microGPT : un projet qui condense l’essence de l’entraînement des LLM en environ 200 lignes de code Python
    • Composé d’un dataset (texte), d’une architecture de réseau neuronal (~50 lignes), d’un moteur autograd (~100 lignes), d’un optimiseur (~10 lignes) et d’une boucle d’entraînement
    • Toute la complexité vient de l’efficacité ; l’algorithme lui-même est très simple
  • Changement dans la manière d’enseigner : auparavant, on produisait des guides et cours destinés directement aux humains ; désormais, l’essentiel est d’expliquer aux agents
    • Si l’on explique 200 lignes de code à un agent, il peut ensuite les réexpliquer avec une patience infinie à chaque utilisateur selon son niveau
  • Concept de « skill » : écrire en Markdown un curriculum qui indique à l’agent comment enseigner
    • Même la documentation des bibliothèques de code devrait passer du HTML destiné aux humains à un format Markdown digestible par les agents
  • Rôle de l’éducateur humain : concevoir les bits essentiels que l’agent ne maîtrise pas encore et injecter les points clés du curriculum
    • Tout ce que l’agent peut faire aujourd’hui finira bientôt par être mieux fait que par l’humain ; il faut donc choisir stratégiquement où investir son temps

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.