Ask HN : le code agentique est-il réellement efficace ?
(news.ycombinator.com)- J’ai essayé le codage par agent, mais le décalage entre ce que je vois en ligne et les résultats que j’obtiens réellement en l’implémentant me donne mal à la tête. Existe-t-il des preuves que cela produit réellement des résultats positifs ?
- Au-delà du battage marketing, si quelqu’un a mis en œuvre avec succès le codage par agent, merci de partager en détail comment vous avez procédé
- « Le mettre en œuvre avec succès » signifie :
- créer plus de valeur que de dette technique
- écrire un code structurellement robuste qu’un responsable d’architecture pourrait approuver
- Récemment, on voit une tendance à réduire au minimum, voire à supprimer complètement les revues de code, avec l’idée qu’il faudrait passer de la « validation de l’architecture » à la « validation du fonctionnement »
- En pratique, cela semble vouloir dire déployer dès lors que les tests et la CI passent, sans regarder le code, et je me demande si cette approche peut être durable à long terme
- À mon avis, avec Codex, on obtient facilement quelque chose qui fonctionne sur le chemin nominal, mais qui risque de devenir du « code spaghetti » accumulant avec le temps des erreurs subtiles et difficiles à déboguer
- Quand j’ai essayé d’appliquer Codex à une base de code existante, avec ou sans directives, la moitié de mon temps a été consacrée à corriger des erreurs subtiles ou du code dupliqué générés par Codex
- Le week-end dernier, j’ai essayé de recréer depuis zéro une app iOS de rappel pour la nourriture de mon animal :
- j’ai d’abord demandé à Codex d’étudier et de proposer un plan d’architecture basé sur SwiftUI, puis j’ai rédigé avec Codex une spécification expliquant quoi implémenter et comment
- la première implémentation avait quelques bugs, mais elle était étonnamment correcte ; ensuite, la situation s’est rapidement dégradée
- pendant le reste du week-end, j’ai essayé de faire en sorte que Codex fonctionne correctement, corrige les bugs sans en créer de nouveaux, et étudie les bonnes pratiques au lieu d’écrire du code au hasard
- j’ai demandé à Codex de consigner chaque nouvelle directive et recommandation découverte, mais la situation ne s’est pas améliorée, et j’ai fini par abandonner
- Personnellement, déployer du code non revu est inacceptable
- Quelque chose semble clocher. Le produit doit bien fonctionner, mais la qualité du code doit aussi être élevée
1 commentaires
Avis sur Hacker News
Les LLM sont considérés comme la clé de la réduction des coûts, donc des sommes énormes sont en jeu
Même des influenceurs ou experts connus exagèrent parfois leurs propos pour conserver une image « à la pointe »
Mais en réalité, la meilleure approche du développement basé sur les LLM n’est pas encore établie
À ce stade, il me semble plus important d’examiner directement leur fonctionnement interne que d’y croire comme à une religion
Le fait que ce type de proposition arrive jusqu’à des utilisateurs pris au hasard montre qu’une campagne marketing d’ampleur est déjà en cours
C’est agréable pour les tâches CRUD simples, mais sur des projets complexes cela devient au contraire frustrant
En ce moment, entre la course aux benchmarks et l’afflux d’argent des VC, c’est une période où un débat lucide est difficile
Les preuves quantitatives manquent encore, mais même si les développeurs ne vont pas complètement disparaître, la manière de développer a changé pour toujours
Un Principal Engineer de Google a tweeté que « Claude Code a fait en 1 heure ce qui aurait pris 1 an »
Mais on a découvert plus tard que ce que l’IA avait produit n’était qu’une simple « version jouet »
Ce genre de déclarations exagérées déforme les attentes et provoque de la déception
Lien vers le tweet concerné
Avec le recul sur les six derniers mois, j’ai obtenu un gain de productivité de 10x sur le code d’infrastructure (par ex. Terraform)
Mais le développement de fonctionnalités spécialisées reste encore très irrégulier
Malgré tout, le temps gagné sur les tâches répétitives m’a permis d’améliorer la qualité des tests et de la sécurité
Et surtout, j’ai retrouvé le plaisir de coder
et l’approche la plus efficace a été le codage assisté (assisted coding)
Lien du projet
Pour moi, ce genre de projet personnel est un vrai game changer
J’ai eu beaucoup de succès en ajoutant des agents à une application existante
Les agents sont faibles en conception d’architecture, mais fonctionnent très bien sur du code déjà structuré
Plus le système de types est strict et la couverture de tests large, plus c’est efficace
J’avance en me basant sur les fichiers ROADMAP.md, TASKS.md et STATUS.md rédigés par Claude,
et, étonnamment, le projet est déjà à environ 20 % d’avancement
À l’inverse, Python ou JS sont difficiles à fiabiliser à cause de leur système de types plus faible
Partir de zéro est difficile, mais avec des spécifications claires, l’efficacité grimpe
À l’inverse, le typage optionnel de Python tend plutôt à propager les erreurs
J’ai écrit à 100 % avec Claude Code un moniteur temps réel de fréquence cardiaque Bluetooth pour Linux
Lien du projet
Il est écrit en C pur, et j’ai terminé en une journée jusqu’à l’interface web et au graphe en temps réel
Cette fois, j’ai réussi à implémenter la communication dBus–blueZ sur laquelle j’avais auparavant échoué
La documentation parle de SSE, mais en interne le programme renvoie simplement une réponse HTTP classique
J’utilise tous les jours Augment + Claude Opus 4.5
Je n’écris presque plus de code moi-même, et je termine mes projets par un travail itératif fondé sur les spécifications
Faire tourner plusieurs agents en parallèle puis les relire est particulièrement efficace
La clé, c’est de rédiger des specs claires et de donner un feedback étape par étape
C’est, de mes 30 ans de carrière, le changement le plus révolutionnaire que j’aie vu, et je suis convaincu que toute l’industrie va en être transformée
En ce moment, j’avance sur un projet de dictionnaire japonais–anglais avec Claude
Lien GitHub, site web
En tant que développeur avec 20 ans d’expérience, les LLM ont complètement faussé mes prévisions de durée de travail
Ce qui me prenait autrefois deux semaines se termine maintenant en deux jours
Il faut toujours de la revue de code et de l’interaction, mais j’ai l’impression que c’est meilleur que la plupart des développeurs humains
Discuter avec un LLM ressemble davantage à une collaboration avec un développeur senior,
et mon expérience de longue date en revue de code et en répartition du travail m’aide énormément
La méthode la plus fiable que j’aie testée consiste à confier à Claude des unités de travail petites et bien définies
On itère en planifiant, en relisant, en implémentant puis en revoyant le résultat
Ce n’est pas parfait, mais c’est très utile pour débloquer les points où l’on coince
En revanche, comme il suit mal les guidelines, la vérification et la remise en ordre manuelles sont indispensables
Je lui confie une fonction à la fois, puis je m’appuie sur le résultat pour trouver de meilleures idées
Mais dès qu’on va vers des problèmes centrés sur le design, leurs limites deviennent évidentes
Beaucoup de gens se trompent sur ce qu’est le codage assisté par l’IA
L’IA n’est pas un coéquipier, c’est un assistant
L’essentiel n’est pas de voir les bugs ou dysfonctionnements comme un échec, mais de comprendre que le rôle du développeur expérimenté est de remettre de l’ordre dans ce chaos
Moi aussi, j’utilise Claude tous les jours, mais le code de test généré par l’IA est souvent catastrophique
En pratique, cela produit à la chaîne des tests dénués de sens du type
expect(true).to.be(true)Si on confie à la fois l’implémentation et les tests, on crée des erreurs d’auto-évaluation