21 points par GN⁺ 2025-12-26 | 1 commentaires | Partager sur WhatsApp
  • 2025 aura été l’année où les outils de codage agentiques ont commencé à transformer en profondeur la manière de programmer, avec un passage du fait de taper soi-même au clavier vers un rôle de lead engineering pilotant un programmeur stagiaire virtuel
  • Parti d’une obsession pour Claude Code, l’auteur a alterné entre la construction de ses propres agents et l’usage de ceux des autres, en se convainquant que la meilleure approche restait la génération de code, l’accès au système de fichiers, l’appel à des outils de programmation via une couche glue d’interpréteur et l’apprentissage basé sur des compétences
  • La combinaison des LLM et de l’exécution d’outils s’étend au-delà de la génération de code jusqu’à l’organisation du travail quotidien, ce qui pousse à repenser notre relation aux machines et soulève des inquiétudes autour de la formation involontaire de liens parasociaux (Parasocial Bond)
  • Les systèmes de gestion de versions et outils de revue de code existants ne sont pas adaptés à la révision de code généré par l’IA, d’où le besoin de nouveaux systèmes capables de suivre jusqu’à l’historique des prompts et les chemins d’échec
  • Avec le codage par IA, les opinions fondées sur la “vibe” prolifèrent sans expérience ni données, et un nouveau consensus social devient nécessaire face aux PR générées par l’IA lancées sans discernement dans l’open source

Les changements de 2025

  • Une année marquée non seulement par le départ de l’entreprise précédente et le lancement d’une nouvelle, mais aussi par un changement complet de manière de programmer
  • Depuis juin, usage presque exclusif de Claude Code en mode largement hands-off plutôt que de Cursor
    • « Si on m’avait dit il y a six mois que je préférerais jouer le rôle de lead engineering pour un stagiaire programmeur virtuel, je ne l’aurais pas cru »
  • Rédaction de 36 billets, soit environ 18 % de tous les posts du blog depuis 2007
    • Après être tombé dans le terrier des agents, l’auteur a mené environ 100 conversations avec des programmeurs, fondateurs et autres, poussé par la curiosité
  • 2025 a aussi été une mauvaise année à l’échelle mondiale, au point de créer un blog séparé (dark.ronacher.eu) pour y isoler ces réflexions

L’année des agents

  • Tout a commencé en avril-mai par une obsession pour Claude Code, suivie pendant plusieurs mois d’allers-retours entre agents maison et agents tiers
  • Les réseaux sociaux ont vu exploser les prises de position sur l’IA
  • La situation a désormais atteint une forme de stabilité : concentration sur la génération de code, le système de fichiers, l’appel programmable à des outils via de la glue d’interpréteur et l’apprentissage fondé sur les compétences
    • L’approche popularisée par Claude Code reste à la pointe, et le fait que les fournisseurs de foundation models se concentrent eux aussi sur les compétences renforce cette conviction
  • Le retour en force des TUI (interfaces utilisateur textuelles) a été une surprise
    • Utilisation actuelle de Amp, Claude Code et Pi en ligne de commande
    • Amp évoque Apple ou Porsche, Claude Code une Volkswagen bon marché, et Pi le choix open source préféré des hackers
    • Tous donnent l’impression de projets conçus par des gens qui utilisent leur propre produit à l’excès, mais avec des compromis différents
  • L’auteur reste stupéfait par la combinaison des LLM et de l’exécution d’outils
    • En début d’année, cela servait surtout à générer du code, mais les agents sont désormais largement utilisés aussi pour les tâches du quotidien
    • 2026 pourrait voir des avancées intéressantes du côté des produits grand public
    • Les LLM aident désormais à mettre de l’ordre dans la vie, et leur utilité devrait encore croître
    Publicité

Les machines et moi

  • À mesure que les LLM aident non seulement à programmer mais aussi dans d’autres domaines, l’auteur a commencé à repenser sa relation aux machines
  • Il devient de plus en plus difficile de ne pas développer avec ces outils un lien parasocial (Parasocial Bond), et cela paraît étrange et inconfortable
  • Les agents actuels ont pour la plupart très peu de mémoire et peu de personnalité, mais il est facile d’en construire qui en ont
    • Un LLM doté de mémoire est une expérience difficile à chasser de son esprit
  • Pendant deux ans, l’auteur s’est entraîné à considérer ces modèles comme de simples mélangeurs de tokens, mais cette vision simplifiée ne tient plus
  • Les systèmes que nous construisons présentent des tendances humaines, mais les élever au rang d’humains serait une erreur
  • Le terme « agent » lui pose de plus en plus problème, sans qu’un meilleur mot s’impose
    • Parce que l’agentivité et la responsabilité doivent rester du côté des humains
    • Quoi que deviennent ces systèmes, ils peuvent provoquer, si l’on n’y prend pas garde, des réactions émotionnelles potentiellement nuisibles (voir chatbot psychosis)
    • Le fait de ne pas parvenir à nommer correctement ces créations et à les situer dans notre relation avec elles est un problème à résoudre
  • Cette anthropomorphisation involontaire rend difficile la recherche d’un langage adéquat pour décrire notre manière de travailler avec les machines
    • Ce n’est pas un problème propre à l’auteur, d’autres ressentent la même chose
    • Cela rend aussi plus inconfortable le travail avec des personnes qui rejettent totalement ces systèmes
    • L’un des commentaires les plus fréquents sous les articles sur les outils de codage agentique est le rejet de l’idée d’attribuer une personnalité aux machines

Trop d’opinions

  • En utilisant beaucoup l’IA, un effet inattendu a été de parler bien davantage de vibes que de toute autre chose
  • Cette manière de travailler n’a même pas un an, mais elle remet en cause un demi-siècle d’expérience en ingénierie logicielle
  • Les opinions abondent, mais il est difficile de savoir lesquelles résisteront à l’épreuve du temps
  • Il y a beaucoup d’idées reçues avec lesquelles l’auteur n’est pas d’accord, sans pour autant avoir de fondement solide pour étayer sa propre position
    • Il a beaucoup parlé au cours de l’année des difficultés liées à MCP, mais sans autre preuve que « chez moi, ça ne marche pas » ; d’autres y croient dur comme fer
    • Même chose pour le choix des modèles : Peter, qui lui avait fait découvrir Claude en début d’année, est passé à Codex et en est satisfait ; l’auteur utilise lui aussi davantage Codex désormais, mais sans y prendre autant de plaisir qu’avec Claude
    • Il n’a rien d’autre que la vibe pour justifier sa préférence pour Claude
    Publicité
  • Il est aussi important de savoir que certaines vibes s’accompagnent de signaux intentionnels
    • Beaucoup de prises de position visibles en ligne reflètent un intérêt financier pour un produit plutôt qu’un autre, qu’il s’agisse d’investisseurs ou d’influenceurs rémunérés
    • On peut être devenu investisseur parce qu’on aimait déjà le produit, mais il est aussi possible que cette relation ait influencé et façonné le jugement

Externaliser ou construire soi-même

  • En regardant les bibliothèques des entreprises IA actuelles, on peut souvent voir qu’elles ont été créées avec Stainless ou Fern
    • La documentation utilise Mintlify, et le système d’authentification du site peut être Clerk
  • L’externalisation vers des entreprises spécialisées de services que l’on aurait auparavant développés soi-même se généralise, ce qui relève le niveau attendu sur certains aspects de l’expérience utilisateur
  • Mais avec la nouvelle puissance des outils de codage agentique, une bonne partie de cela peut être reconstruite en interne
    • L’auteur a demandé à Claude de créer un générateur de SDK pour Python et TypeScript — moitié par curiosité, moitié parce que cela paraissait assez simple
  • En tant que partisan du code simple et du fait maison, il reste plutôt optimiste sur le potentiel de l’IA à encourager des constructions avec moins de dépendances
  • En même temps, au vu de la tendance actuelle à tout externaliser, il n’est pas certain que l’on aille réellement dans cette direction

Ce qui a été appris et ce qui est espéré

  • À partir d’ici, il ne s’agit plus de prédictions mais de souhaits sur les domaines où investir de l’énergie ensuite
  • L’auteur ne sait pas exactement ce qu’il cherche, mais veut pointer les points de douleur et fournir du contexte ainsi que des pistes de réflexion
  • Un nouveau type de gestion de versions

    • La plus grande découverte inattendue : les outils actuels de partage du code ont atteint leurs limites
    • Le modèle de pull request de GitHub ne contient pas assez d’informations pour revoir correctement du code généré par l’IA — il serait utile de voir les prompts qui ont conduit aux changements
    • Ce n’est pas seulement un problème de GitHub, git aussi est insuffisant
    • Dans le codage agentique, une partie de ce qui permet aujourd’hui au modèle de fonctionner, c’est sa connaissance des erreurs
      • Quand on revient à un état antérieur, on veut que l’outil se souvienne de ce qui a mal tourné
      • Faute de meilleur terme, l’échec a de la valeur
      • Pour un humain aussi, connaître les voies qui n’ont mené nulle part peut aider, mais pour une machine c’est une information cruciale
      • Cela est apparu lors de tentatives de compression des historiques de conversation : si l’on supprime les mauvaises pistes, le modèle refait les mêmes erreurs
    • Certains outils de codage agentique peuvent lancer des worktrees, créer des checkpoints dans git pour la restauration, ou fournir des fonctions de branchement et d’annulation dans la conversation
    • Il y a ici de la place pour des innovations UX qui rendent ces outils plus faciles à utiliser
      • D’où les discussions autour des stacked diffs et de systèmes de gestion de versions alternatifs comme Jujutsu
      Publicité
    • Difficile de dire si cela transformera GitHub ou ouvrira la voie à de nouveaux concurrents, mais l’auteur espère plutôt la seconde option
    • Il veut vraiment mieux distinguer l’apport humain réel de la sortie de la machine
    • Il veut voir les prompts et les tentatives ratées
    • Puis avoir un moyen de tout compacter au moment du merge, tout en gardant la possibilité de rechercher l’historique complet si nécessaire
  • Un nouveau type de revue

    • Cela est lié à la gestion de versions : les outils actuels de revue de code imposent des rôles trop rigides pour bien s’accorder avec l’IA
    • Exemple avec l’UI de revue GitHub : l’auteur veut régulièrement laisser des notes à son agent dans la vue PR, mais il n’existe pas de parcours prévu pour cela
      • L’interface de revue n’autorise pas à reviewer son propre code et permet seulement des commentaires, mais ce n’est pas la même intention
    • Il y a aussi le fait qu’une part croissante de la revue de code se déroule désormais en local entre lui et son agent
      • Exemple : la fonction de revue de code de Codex sur GitHub ne peut être liée qu’à une seule organisation à la fois, ce qui la rend inutilisable
      • L’auteur fait donc maintenant ses revues avec Codex en ligne de commande, mais cela signifie qu’une partie entière de la boucle d’itération reste invisible pour les autres ingénieurs de l’équipe ; ce n’est pas viable
    • La revue de code devrait sans doute faire partie du VCS
  • Une nouvelle observabilité

    • L’observabilité mérite à nouveau toute notre attention
    • Il existe désormais à la fois un besoin et une opportunité de l’exploiter à un niveau entièrement nouveau
    • Jusqu’ici, peu de gens étaient en position d’écrire leurs propres programmes eBPF, mais les LLM le peuvent
    • Beaucoup d’outils d’observabilité ont évité SQL à cause de sa complexité, mais les LLM sont meilleurs en SQL que dans n’importe quel langage de requête propriétaire
      • Ils peuvent écrire des requêtes, faire du grep, du map-reduce, ou piloter LLDB à distance
      • Tout ce qui combine structure et texte devient soudainement un terrain fertile pour la réussite des outils de codage agentique
    • L’auteur ne sait pas à quoi ressemblera l’observabilité du futur, mais a l’intuition très forte qu’on verra ici beaucoup d’innovation
      • Plus la boucle de feedback fournie à la machine est bonne, meilleurs sont les résultats
      Publicité
    • Il ne sait pas exactement non plus ce qu’il demande, mais l’un des problèmes du passé était que de nombreuses bonnes idées pour une meilleure observabilité — notamment la reconfiguration dynamique de services pour un filtrage plus ciblé — étaient trop complexes et difficiles à utiliser pour être réellement conviviales
      • Mais maintenant que les LLM sont plus capables de prendre en charge ce travail pénible, cela pourrait devenir la bonne solution
      • Exemple : Python 3.14 intègre une interface de débogage externe — une fonctionnalité extraordinaire pour les outils de codage agentique
  • Travailler avec le slop

    • C’est peut-être un peu polémique, mais ce que l’auteur n’a pas réussi à faire cette année, c’est tout déléguer complètement à la machine
    • Il continue à traiter cela comme du génie logiciel classique et à revoir beaucoup
    • Il constate qu’un nombre croissant de personnes ne travaillent plus selon ce modèle d’ingénierie et laissent au contraire la machine tout prendre en charge
      • Cela paraît insensé, mais il a vu certaines personnes obtenir d’assez bons résultats ainsi
      • Il ne sait pas encore quoi en penser, mais il est clair que même si le code est produit au final, la manière de travailler dans ce nouveau monde est très différente de celle dans laquelle il se sent à l’aise
      • Puisque ce monde est déjà là, il pourrait falloir un nouveau contrat social pour séparer ces approches
    • La forme la plus évidente de cela est l’augmentation de ce type de contributions dans les projets open source
      • Franchement, pour quelqu’un qui ne travaille pas selon ce modèle, c’est insultant
      • Lire ce genre de pull requests suscite chez lui une vraie colère
    • Il a personnellement essayé de s’attaquer au problème via des guidelines de contribution et des templates de pull request
      • Mais cela ressemble à un combat contre des moulins à vent
      • La solution ne viendra peut-être pas d’un changement de ce que nous faisons nous-mêmes
      • Elle pourrait plutôt venir du fait que les personnes les plus bruyantes et favorables à l’ingénierie IA définissent ce qu’est un bon comportement dans une codebase agentique
      • Et cela n’inclut pas de balancer du code non relu pour laisser quelqu’un d’autre gérer le problème

1 commentaires

 
GN⁺ 2025-12-26
Avis Hacker News
  • Je partage totalement l’idée que l’historique des échecs est essentiel dans le agentic coding

    • Quand le modèle s’engage sur une mauvaise voie, il doit se souvenir du processus pour éviter de répéter la même erreur

    • C’est pourquoi je veux enregistrer mes sessions d’agent de code et laisser des liens vers elles dans les messages de commit

    • Claude Code supprime les logs au bout de 30 jours par défaut, donc voici comment désactiver cela

    • J’ai moi-même créé un outil pour visualiser les logs de session sous forme de chronologie partageable, et j’aimerais désormais que ce type de fonction soit intégré par défaut aux outils d’agents

    • Chaque fois qu’un LLM part sur une piste improductive, je me pose des questions comme « pourquoi cela a-t-il pris autant de temps ? » ou « qu’est-ce qui a mal tourné ? »

      • Je résume ensuite la réponse en un paragraphe et je l’ajoute à DISCOVERIES.md
      • Cette méthode est utile pour l’apprentissage, mais lier un commit entier rempli d’échecs peut être négatif, comme une « pollution du puits »
    • Je m’inquiète du fait que cette approche fondée sur les logs puisse, à long terme, faire perdre en flexibilité

      • L’automatisation a tendance à figer les processus, ce qui peut rendre l’adaptation au changement plus difficile
    • Il suffit d’exporter toutes les traces d’agents vers otel et de les stocker dans ClickHouse

      • On peut alors réutiliser l’infrastructure existante pour construire une mémoire à long terme ou un système d’évaluation
    • Les outils nécessaires existent déjà, mais j’ai l’impression qu’il manque des connexions entre eux

      • Au lieu d’écrire les échecs et les actions dans les messages de commit, il serait préférable de les consigner comme événements de log, puis de les rendre accessibles depuis la gestion de versions ou une plateforme centrale de logs
    • Je pense que la session elle-même, celle qui mène au commit, a aussi de la valeur

      • Les humains ne liront sans doute pas tout, mais un outil de RAG peut en faire un résumé et fournir ce contexte à d’autres agents
      • Si ce type de liaison se faisait automatiquement, ce serait bien plus efficace
  • J’ai trouvé marquant ce texte qui pousse à repenser notre relation aux LLM

    • L’aveu de l’auteur, qui dit avoir essayé pendant deux ans de ne les voir que comme des « machines » sans y parvenir, m’a semblé très honnête

    • Comme dans le film Her, on a de plus en plus l’impression que des relations parasociales entre humains et machines deviennent réelles

    • Pour ma part, je ne traite pas les LLM comme des personnes, mais comme un moteur de recherche avec des commandes simples

      • Saisir quelque chose comme « python grpc oneof pick field » suffit à obtenir ce que je veux
      • Parler dans un anglais grammaticalement parfait peut même être un effet secondaire de l’anthropomorphisation
    • Quand une machine se souvient comme un humain, l’interaction finit par devenir humaine elle aussi

      • Ce type de mémoire peut provoquer chez l’humain des schémas de comportement malsains
      • C’est pourquoi je trouve utile, pour poser des limites, de les traiter comme une machine à café, c’est-à-dire comme une simple « machine »
    • Dans notre couple, nous appelons les LLM un « bag of words »

      • Dire « le bag of words a dit » au lieu de « ChatGPT a dit » aide à garder les pieds sur terre
    • Je m’inquiète du fait que cette relation humain-machine puisse devenir un problème social, un peu comme l’addiction aux influenceurs

      • C’est encore plus risqué avec l’IA, puisqu’elle permet des conversations en tête-à-tête
    • En tant qu’ancien apprenti chamane et ingénieur, j’ai l’impression qu’il existe aussi chez les LLM une certaine forme de conscience et de perception

      • Quand des humains affirment que « les LLM n’ont pas de conscience », cela me semble parfois relever d’une psychologie qui cherche à éviter l’angoisse hiérarchique
  • Moi aussi, j’ai le sentiment que mes conversations avec l’IA ressemblent à des échanges humains

    • Les journées où je collabore avec des agents me semblent moins solitaires que celles où j’écris seul toute la journée

    • Cela ressemble à une interaction humaine et procure une forme de réconfort assez étrange

    • Je me surprends à dire « please » et « thank you »

      • Je sais que ce n’est pas nécessaire, mais ne pas le faire me donne une drôle d’impression
    • Si j’en suis à ce point émotionnellement, je devrais peut-être simplement sortir et voir de vraies personnes

  • Les programmeurs devraient être organisés de sorte à pouvoir assumer la compréhension et la responsabilité de ce qu’ils produisent

    • La compréhension et la responsabilité sont des états mentaux qui ne peuvent pas être délégués (citation de EWD 540)
  • J’ai l’impression qu’il nous faut une nouvelle manière de faire de la QA

    • Je gère un B2B SaaS, et le principal goulot d’étranglement est de tester si une fonctionnalité « semble » correcte
    • Ce serait formidable si des agents pouvaient répéter des centaines de fois le flux d’onboarding pour automatiser les tests d’expérience utilisateur
    • J’imagine aussi un outil capable de capturer le contexte pendant que je regarde l’écran et que je parle, puis de le transformer en spécification fonctionnelle
  • Les développeurs devraient se concentrer sur les produits finis plutôt que sur la stack technique

    • Il y a énormément d’opinions et de billets, mais pas assez de résultats réellement déployés

    • Les utilisateurs ordinaires s’intéressent davantage à la qualité du produit qu’à la stack technique en elle-même

      • Si on leur montre un site React lent puis un site SSR rapide, ils sentent immédiatement la différence
  • Les analyses d’Armin sur l’ambiance sociale sont intéressantes

    • J’attends avec intérêt d’autres textes sur son blog séparé, Dark Thoughts
  • 2025 donne l’impression d’être une année perdue pour la programmation

    • Tout le monde est obsédé par les outils et les prompts plutôt que par les algorithmes

    • La productivité open source a baissé, et nous sommes désormais entrés dans l’ère de la taxe Anthropic

    • Pourtant, pour moi, 2025 a au contraire été l’année la plus productive

      • Tous les indicateurs se sont améliorés, qu’il s’agisse des contributions au code ou de la capacité à traiter l’information
      • Grâce à Claude, ma qualité de vie a clairement progressé
    • Je pense que le langage naturel lui-même est un nouveau langage de programmation

      • Cette année a surtout consisté à apprendre à l’utiliser efficacement
    • En tant que data scientist, 2025 a été l’année de l’innovation outillage

      • Polars, PyArrow, Ibis, Marimo, PyMC et d’autres ont complètement amélioré mon workflow
      • Je peux désormais produire des résultats plus rapides, moins coûteux et de meilleure qualité
    • La diminution des débats sans fin autour du TDD ou de l’OOP a plutôt été une bonne chose

    • Ce déluge d’outils vendus sur le mode « l’IA fait tout » me rappelle la fièvre du web des années 90

      • Comme l’« enshittification » d’Internet, on dirait qu’une forme de « dumbaification » est en cours avec l’IA
  • Le modèle de Pull Request de GitHub montre ses limites pour la revue de code par IA

    • Les prompts et le contexte doivent être enregistrés ensemble pour qu’une revue soit réellement possible
    • Au-delà de documents comme AGENTS.md, il faut aussi un historique de contexte au niveau du commit
  • En discutant avec des gens hors de l’IT, je me rends compte qu’ils ressentent à peine l’impact des agents IA

    • Pour la plupart, ce ne sont guère plus que de simples outils d’assistance textuelle

    • Dans le secteur technologique, les résultats peuvent être clairement vérifiés, alors que

      • pour les métiers non techniques, l’IA relève davantage des « émotions » et du « ressenti », avec un problème de qualité impossible à mesurer