11 points par brainer 2026-04-15 | 66 commentaires | Partager sur WhatsApp

Depuis quelques mois, en observant le milieu du développement en Corée, je vois circuler des affirmations étranges du genre « la quantité de tokens utilisée est synonyme de compétence ».
Et avec ça, certains soutiennent de manière complètement irréfléchie qu’un seul PRD bien rédigé suffit pour que l’IA résolve tout.

Au début, je pensais que ce n’était qu’une exagération habituelle qu’on voit souvent dans les communautés, mais en voyant ces affirmations revenir sans cesse comme si elles étaient vraies, je me suis demandé un instant si je n’étais pas à la traîne.
(En voyant des choses comme Oh-my-OpenCode, encore plus.)

Mais même en cherchant, il était difficile de trouver ne serait-ce qu’un seul exemple solide, et la reproduction était en pratique impossible.

Dans la communauté frontier aux États-Unis, ce genre d’affirmation n’existait pas du tout, et quand OpenClaw est arrivé, a rencontré le succès, puis qu’OpenAI a immédiatement recruté son fondateur, j’en ai été encore plus convaincu.
(En voyant que la philosophie principale d’OpenClaw est le HITL (Human In The Loop).)

Ah, donc ce n’est pas moi qui suis en retard, ce sont les exagérations quasi religieuses et les illusions de la communauté coréenne qui circulent.

Hier encore, le fondateur d’OpenClaw disait lui aussi :

On peut générer du code et le faire tourner toute la nuit, mais le résultat finit simplement par être le meilleur des déchets.
Et,

le CEO de YC, Garry Tan, dit être d’accord à 100 %.

https://x.com/garrytan/status/2043738478220062813?s=20

En voyant, ces derniers mois, les dégâts que ce type d’affirmations illusoires me cause directement et indirectement, j’ai désormais du mal à continuer à me taire.

J’aimerais que les gens qui défendent ce genre d’idées soient remis à leur place.

Je suis quelqu’un de très optimiste sur l’IA, et j’utilise Codex depuis cinq ans.

Je pense qu’un jour, une automatisation complète comme celle-là arrivera. Je pense même que, comme on l’entend souvent, cela pourrait être l’an prochain.

Mais au moins pour aujourd’hui, ce n’est pas le cas.

66 commentaires

 
choam2426 2026-04-30

Si cette affirmation était vraie, anthropic, google et openai auraient déjà largement remplacé tous les logiciels existants.

 
winkagn 2026-04-24

Même en interne, il s’est installé une drôle d’ambiance où il faut maintenant beaucoup consommer de tokens
pour être bien évalué sur les performances.
Franchement, je me demande bien de quelle tête ça a pu sortir...

 
mayihelpyou 2026-04-16

Chaque fois que je vois cet article collectif, ça me donne littéralement de l’urticaire.

 
jyoung105 2026-04-15

On a l’impression que ce texte a été écrit volontairement de cette manière.
Mais il y a aussi cet aspect.
Il y a trois ans, ce dont nous parlions tous, c’était que le coût de l’IA finirait par baisser.
Mais ce n’était pas le cas. Il devient plus élevé. Même les modèles d’IA chinois suivent la même tendance.
C’est pourquoi, récemment, des méthodes commencent à faire parler d’elles pour réduire les coûts, par exemple en remplaçant et en utilisant plusieurs niveaux de modèles au sein d’une même tâche, ou encore en faisant tourner en local de l’open source, en particulier gemma 4 (avec des reasoning trace bien plus courts), afin de l’exploiter dans des agents. Au départ, tout le monde s’y opposait, mais aujourd’hui cela paraît extrêmement rationnel, et beaucoup de mouvements liés à cela apparaissent. De la même manière, l’IA reste aujourd’hui un combat sans réponse définitive, mais qui finit par se transformer en une industrie portée par la conviction que le vainqueur remportera énormément.

En conclusion, je pense que c’est dans ce sens qu’il faut le comprendre.

Le bruit, cela apparaît aussi de manière très marquée dans les activités de promotion des entreprises d’IA de pointe. Faut-il alors ne pas utiliser ces entreprises parce qu’elles ont mal agi ? Non, bien sûr qu’on utilisera l’IA. Il faut simplement apprendre à filtrer les informations parasitées par ce bruit. C’est encore plus vrai quand on est mécontent.

Les actions inutiles, c’est pareil dans l’investissement. Les personnes qui obtiennent des résultats en investissement ont souvent déjà connu l’échec. Avec l’état d’esprit « je ne subirai jamais de pertes », il est difficile de commencer à investir, et pendant un marché baissier, on ne ressentira que le soulagement de ne pas avoir investi et la compassion envers ceux qui l’ont fait, puis, dans un vrai marché haussier, on ne ressentira que de la frustration. De la même façon, avec l’IA aussi, ceux qui continuent à observer, à l’utiliser et à essayer diverses choses finissent par avoir un avantage. Je le ressens encore plus fortement chez les non-développeurs. Certaines personnes n’avaient pas de connaissances en développement, mais en continuant à l’utiliser, à explorer, à apprendre ces connaissances, elles finissent par créer de meilleurs logiciels. Il est plus difficile qu’on ne le pense de battre quelqu’un qui a cette « ardeur ». Je le ressens énormément moi aussi, et j’ai l’impression de faire des efforts à chaque instant pour que cette ardeur ne disparaisse pas.

En conclusion, ralph n’est pas non plus un concept illusoire, mais plutôt une sorte de concept d’industrial engineering, une approche dont l’avantage du point de vue du test-time computing a été démontré. Bien sûr, on peut aussi dire que c’est une illusion, mais malgré cela, je pense que l’expérience d’avoir essayé de s’y intéresser et de le reproduire vous restera comme un grand atout.

 
apkas 2026-04-15

Je pense qu’il est juste de dire qu’il faut savoir filtrer le bruit, mais qu’il faut se méfier des discours du type « si ça te dérange, corrige simplement ta posture ». Je pense que remettre en cause jusqu’au fait d’exprimer une insatisfaction, avec un message du genre « ne te comporte pas comme un inadapté, adapte-toi vite et deviens un gagnant », mène au résultatisme aveugle que l’on voit aujourd’hui. Bien sûr, je ne pense pas que c’était l’intention de ces propos.

Et qu’il s’agisse d’un looping à la Ralph, d’une approche d’ensemble où l’on interroge plusieurs modèles à tour de rôle, ou d’une subagent orchestration, les avantages de ces méthodes de test-time computing ne sont pas démontrés. À la base, les LLM actuels ont été imprégnés de comportements de people pleasing, donc si l’on examine bien les résultats qui émergent de ce genre de processus, on voit souvent qu’au lieu de corriger ce qui mérite réellement de l’être, ils inventent des problèmes inexistants simplement parce qu’on leur a demandé de corriger quelque chose.

Je suis d’accord pour dire que l’accumulation rapide d’expérience est probablement l’idée qui traverse le mieux notre époque, mais je pense qu’utiliser cela non seulement comme un outil au service d’intérêts privés, mais en allant jusqu’à en abuser, mérite clairement d’être critiqué. Et il me semble que le sujet du billet d’origine est aussi quelque chose comme : « Je n’aime pas qu’on survende [vite, beaucoup, avant tout le monde] comme si c’était le scénario gagnant du développement basé sur l’IA ».

 
jyoung105 2026-04-15

Je viens seulement de voir votre commentaire.
Les commentaires ne se sont visiblement pas bien mis à jour.
Merci pour votre avis pertinent.

Je voudrais d’abord partager mon propre point de vue.

Plutôt que de considérer comme problématique le fait d’avoir exprimé un mécontentement — personnellement, je ne le vois pas comme un mécontentement —, j’aimerais que cela soit compris comme le fait que moi aussi, j’ai voulu donner mon avis sur ce phénomène. Comme il est impossible de créer une situation qui satisfasse tout le monde, je respecte aussi bien l’avis de l’auteur du message initial que celui de la personne qui a commenté. Mais je pense aussi que mon point de vue mérite d’être respecté.

À mon avis, le test-time computing est déjà un cas démontré par la recherche. En revanche, je considère que la méthode d’ensemble relève moins du concept de test-time computing que d’une manière d’éviter les limites de la taille de la fenêtre de contexte. « Au lieu de corriger ce qui mérite de l’être, il arrive souvent qu’on crée un problème inexistant simplement parce qu’on nous a dit de le corriger, puis qu’on le “corrige”. » Ce problème se produit clairement, et il me semble qu’à l’heure actuelle, la meilleure solution est d’essayer de le bloquer autant que possible avec un harness.

Enfin, concernant le terme « viral », je suis moi aussi d’accord pour dire qu’il y a beaucoup de bruit autour de cela et que beaucoup de gens n’aiment pas ça. En revanche, comme ceux qui fabriquent les harness sont justement ceux qui les ont diffusés en open source, je me demande sincèrement s’il y a vraiment là quelque chose qui relève de l’intérêt personnel. Je me demande même, dans une situation où ils les mettent gratuitement à disposition alors que certaines personnes n’aiment pas ça, et où ils se font malgré tout critiquer, s’il y a vraiment quoi que ce soit qu’on puisse qualifier de bénéfice personnel. Bien sûr, s’il s’agissait d’attiser la peur pour vendre, ce serait un comportement inapproprié et je suis d’accord sur le fait que cela mériterait des critiques.

Merci encore une fois pour votre avis !

 
brainer 2026-04-15

C’est en réalité devenu bien moins cher qu’il y a 3 ans.
À l’époque de GPT-4, même en payant, on recevait un message disant de réessayer quelques heures plus tard, mais aujourd’hui, même avec une formule à 22 dollars, ça n’arrive plus.

Les capacités intellectuelles par token ont augmenté à un niveau difficilement comparable.

Mais le plus important, c’est qu’on utilise encore plus de tokens tout en donnant encore plus d’argent aux fournisseurs de LLM (paradoxe de Jevons).

Ce n’est pas comme si je n’avais jamais essayé Ralph Loop.
J’ai même essayé un développement piloté par des sous-agents encore meilleur que ça.
Mais au final, mon expérience rejoint quand même ce qu’a dit le fondateur d’OpenClaw.

Si on arrivait à une vraie automatisation complète, on n’aurait sans doute même plus besoin de forçages comme Ralph Loop.

Le point le plus important, c’est qu’en pratique, ça n’arrive pas à produire ni du code correct, ni un service correct.

 
jyoung105 2026-04-15

Je partage en partie l’avis de l’auteur.
Je suis d’accord sur les capacités intellectuelles par token unitaire, ainsi que sur le prix comparé à GPT-4.

Cela dit, après avoir baissé, le prix des tokens est de nouveau à la hausse, et si l’on considère les tokens de raisonnement, le volume de tokens consommés par tâche et la consommation par utilisateur, l’impact devient assez difficile à supporter, tant pour les utilisateurs individuels que pour les opérateurs de services d’IA. C’est la raison pour laquelle Cursor, Intercom, Shopify, Chroma et d’autres ont commencé à créer leurs propres modèles basés sur l’open source. Le point est qu’ils ne peuvent tout simplement plus rester compétitifs sur les prix.

En réalité, plutôt qu’un concept artificiellement forcé, ralph était un script bash basé sur while. Sa structure était donc d’autant plus simple. Ce que nous devons comprendre ici, c’est qu’au fond la question est de savoir si l’on peut le transformer en système. L’automatisation aussi consiste à extraire précisément l’intent, à ne pas bâcler la division des tâches, à la faire correctement, puis à exécuter le tout avec précision pour aboutir à une implémentation parfaite sans erreur, ou, si ce n’est pas possible, à déterminer quelle partie doit être prise en charge.

En revanche, je suis d’accord sur un point : ce serait bien si tout cela pouvait se faire en un simple « clic », mais vous avez sans doute ressenti que ce n’est absolument pas le cas. Au contraire, le problème actuel donne même l’impression qu’il faut faire plus de réglages que pour un simple travail de code. Et, en général, les services eux-mêmes n’apportent pas grand-chose de perceptible.

En revanche, ce que je ressens très clairement, c’est que la plupart des gens ne savent pas si bien que ça faire de la documentation. Comme ils n’arrivent pas très bien à structurer les choses, il leur est difficile de rendre quoi que ce soit systémique, et j’ai souvent constaté qu’ils peinent énormément à mener ce type de travail. Et l’IA n’est pas parfaite non plus. Dans ce contexte, j’y vois une opportunité. Je pense que cela créera un écart assez important entre ceux qui ont poursuivi ce travail dans la durée et ceux qui ne l’ont pas fait. Ceux qui ont une certaine résistance s’adapteront vite, tandis que ceux qui, pour diverses raisons, n’ont pas pu le faire prendront encore du retard et risqueront d’être paralysés par la peur. En réalité, comme vous le dites, il vaudrait mieux se demander : est-ce vraiment quelque chose qui mérite d’inspirer de la « peur » ?

 
brainer 2026-04-15

Ce que je veux dire, c’est que la while loop est un bricolage forcé.
À l’origine, si elle est apparue, c’est parce que les LLM n’étaient pas doués pour les tâches agentiques et s’arrêtaient prématurément (retour du jeton EOS).
Si un modèle vraiment à la hauteur d’une AGI ultime voyait le jour, on n’aurait sans doute plus besoin d’utiliser une while loop.

Mes capacités de documentation sont peut-être limitées, mais ce n’est probablement pas le cas de Garry Tan ou de Peter Steinberger.
Si le problème vient du fait que le LLM ne fonctionne pas correctement, il suffirait alors de montrer une démo de best practice réellement reproductible.
Mais je n’ai encore jamais vu quelque chose comme ça, pas une seule fois.

 
cloverhearts 2026-04-15

Je partage moi aussi l’avis de l’auteur.
Il me semble qu’il y a aussi une part de distorsion due à l’aspect empirique selon lequel les LLM sont perçus comme des systèmes capables de discuter et de communiquer.

 
jyoung105 2026-04-15

Merci pour votre avis.
Dans ce cas, quel type de best practice demo serait selon vous nécessaire ?
J’aimerais vous demander votre avis éclairé sur le type de mise en œuvre et de tâche qui permettrait de juger si la Ralph loop est une illusion ou non.

 
brainer 2026-04-15

L’idée, c’est de faire tourner la Ralph Loop avec un seul PRD presque parfait pour achever le développement à un niveau prêt pour la production
De façon à ce que, pour n’importe qui, ça n’ait pas l’air d’un AI Sloop

 
jyoung105 2026-04-15

Ah, donc, si l’on fait tourner Ralph Loop avec un seul PRD presque parfait, est-ce qu’on peut créer un produit d’un certain niveau ?
Est-ce qu’on pourrait, par exemple, créer le chat IA de Channel Talk ?

Et j’aimerais aussi vous poser une autre question.
Je me demande s’il est possible d’avancer en configurant ce qu’on appelle un harness.

 
brainer 2026-04-15

Oui, peu importe que ce soit un harness, du multi-agent ou des sub-agents.

 
jyoung105 2026-04-15

Merci pour votre avis !
Oui, ce serait bien de créer ce genre d’exemple haha

 
minislively 2026-04-18

Honnêtement, j’ai trouvé que c’était moins la problématique soulevée que la manière dont l’argumentation est construite qui laissait à désirer.

Des formulations comme « la quantité de tokens utilisée, c’est la compétence », ou « un seul PRD bien conçu et l’IA résout tout » sont des affirmations extrêmement fortes, mais on voit mal, au juste, qui a dit cela, où, et dans quel contexte. Du coup, à la lecture, cela ressemble moins à une critique d’une tendance réelle qu’à une réfutation de quelques positions extrêmes à la représentativité incertaine, rassemblées ensemble comme dans un argument de l’homme de paille.

En particulier, y compris parmi les personnes qui construisent réellement des outils et affinent des workflows, notamment dans la série om, je n’ai presque jamais vu quelqu’un dire quelque chose du genre « un seul PRD suffit à tout résoudre ». Au contraire, ils enchaînent les releases, les corrections et les vérifications. En soi, cela part justement du principe qu’à ce stade, le jugement et l’intervention humains restent indispensables.

C’est pourquoi il faut être d’autant plus prudent : si ce type de formulation est mal lu, cela peut donner l’impression que certains builders ou développeurs ont tenu des propos qu’ils n’ont en réalité jamais tenus. Cette manière de faire me semble moins relever d’une critique saine que d’une attaque contre un cadre exagéré préalablement construit.

Il en va de même pour la consommation de tokens. Ce n’est pas un indicateur absolu de compétence, mais il est tout aussi difficile de dire que c’est un chiffre totalement dénué de sens. Si l’écart d’usage devient très important, cela peut refléter non pas un simple gaspillage, mais une différence dans le volume d’exploration, d’expérimentation et de vérification, qui peut aussi se traduire par une différence de densité de travail réelle. Jensen Huang lui-même a d’ailleurs dit qu’il fallait utiliser plus de la moitié de son salaire en tokens.
https://www.youtube.com/shorts/XBnFPuru4xA

Un bon PRD, lui aussi, n’est pas une solution miracle, mais un levier. Au final, la vraie question importante n’est donc pas un schéma simpliste du type « les tokens sont-ils ou non la compétence ? », mais plutôt de savoir selon quels critères on évaluera à l’avenir la capacité à résoudre des problèmes avec l’aide de l’IA.

 
shaun0927 2026-04-18

Je suis entièrement d’accord avec ce que vous avez écrit.
En réalité, l’idée que « l’usage des tokens est synonyme de compétence » est clairement erronée et relève d’un cadre de pensée déformé.

Au contraire, il faut voir les choses sous l’angle suivant : c’est au moment où l’on comprend que la seule véritable contrainte est la limite des ressources de calcul (humaines comprises) que l’on prend conscience de l’importance de l’usage des tokens.

 
brainer 2026-04-18

Je sais de quel groupe il s’agit, mais je ne l’ai pas mentionné explicitement parce que cela pourrait poser des problèmes juridiques.
Parmi les entreprises connues, il y en a qui vont jusqu’à mesurer l’usage des tokens, et il y a aussi en bas quelqu’un qui en parle anonymement.

Même sur GeekNews, on peut voir des messages où des gens affirment presque avec fierté leur consommation de tokens.

Les personnes qui avancent ce genre d’arguments ne sont pas majoritaires.
Mais dans le milieu de l’IA en Corée, certaines figures assez bruyantes tiennent ce discours, et le fait que Garry Tan critique sans arrêt le fat harness ces derniers jours est sans doute la preuve que cette rhétorique quasi religieuse venue de Corée a fini par atteindre les États-Unis.

Brandir les propos de Jensen Huang comme s’il s’agissait de la vérité, c’est précisément une manière de parler typiquement autoritaire.
Jensen Huang était un ingénieur qui fabriquait des cartes graphiques il y a plusieurs décennies ; aujourd’hui, il n’est plus ingénieur, ni un expert de l’IA.
Je suis d’accord sur la corrélation, mais l’argument du groupe dont je parle ne sert finalement qu’à faire tourner un Ralph inutile.

Pour dire la vérité, même dans le papier original de OpenAI sur o1, qui a lancé l’idée du test-time compute, il est clairement indiqué qu’augmenter sans cesse n’améliore pas forcément les résultats, ou que cela ne fonctionne ainsi que dans certains cas.
Et encore, cela concerne le reasoning effort, pas le fait de faire tourner une boucle Ralph, évidemment.
Le guide de prompts de GPT-5.4 précise lui aussi qu’un reasoning effort plus élevé n’est pas toujours meilleur.

https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance

En plus, pour le design, il est au contraire recommandé de réduire le reasoning effort.

https://developers.openai.com/blog/…

Je le dis parce qu’il y a des gens qui présentent le PRD comme une solution universelle alors que ce n’en est pas une.

 
minislively 2026-04-19

Le titre demande clairement ce que l’on pense de l’illusion appelée Ralph loop, mais en réalité le corps du texte, plutôt que de traiter ce sujet de manière concrète, se disperse dans des récits beaucoup plus larges et relevant d’autres contextes, ce qui m’a donné l’impression que l’ensemble de l’article ne s’articulait pas vraiment avec son titre.

Donc, je ne disais pas qu’il fallait déterminer si « ce genre de personne existe réellement ou non », mais que le texte adopte une structure qui regroupe des affirmations extrêmes dont la source et le contexte ne sont pas clairs pour ensuite les réfuter, ce qui le fait ressembler à une critique d’homme de paille.

Or, la réponse à mon commentaire, elle aussi, au lieu d’expliquer directement ce point, a continué à faire venir d’autres personnes, d’autres discours et d’autres exemples, si bien que, franchement, cela m’a davantage semblé relever d’un brouillage du débat.

En particulier, vous critiquez le recours à des citations de célébrités comme une rhétorique d’autorité, mais dans votre réponse vous revenez pourtant à Garry Tan, à la documentation d’OpenAI et à des guides GPT comme éléments d’appui, ce qui m’a paru quelque peu sélectif.

Je peux comprendre que la culture consistant à se vanter excessivement de sa consommation de tokens puisse être gênante. Mais indépendamment de cela, mettre dans le même cadre des personnes qui, en pratique, affinent réellement leurs outils et leurs workflows à travers des cycles répétés d’expérimentation, de vérification et de correction me semble être une autre forme d’exagération.

 
brainer 2026-04-19

Jugez-vous un texte uniquement à son titre ?
Alors, que pensez-vous de l’article "Attention Is All You Need" ?

Garry Tan a récemment montré sa maîtrise de l’usage de l’IA en créant de bonnes compétences LLM comme GStack.
Le fondateur d’OpenClaw, c’est pareil, et OpenAI est le guide officiel de l’entreprise qui mène la recherche et l’industrie des LLM.

À l’inverse, qu’en est-il de Jensen Huang ? J’espère que vous n’allez pas dire que, sous prétexte qu’il dirige une entreprise qui vend des pioches, il s’y connaît bien en or.
Au fond, Jensen Huang aussi ne fait que répéter les propos de quelqu’un d’autre.
Si vous considérez que c’est brouiller le débat, je n’ai rien à ajouter.

Je pense que mettre dans le même cadre jusqu’aux gens qui peaufinent les outils et les workflows est une autre forme d’exagération.

Je suis justement l’une de ces personnes qui peaufinent les outils et les workflows ; voulez-vous dire que je me suis moi-même rabaissé ?

 
minislively 2026-04-19

Je ne me suis pas contenté de juger à partir du seul titre ; je parlais de la cohérence entre le titre et le contenu du texte.

Et ce que je disais n’était pas de savoir si Garry Tan ou OpenAI ont plus d’autorité que Jensen Huang, mais que critiquer les citations d’autrui comme relevant de l’argument d’autorité, puis s’appuyer de nouveau sur une autre autorité dans sa propre réponse, ne me paraissait pas cohérent.

Enfin, l’expression « mettre dans le même cadre jusqu’aux personnes qui peaufinent les outils et le workflow » ne visait pas une personne en particulier ; je voulais dire que la manière dont le texte est rédigé peut se lire ainsi. L’interpréter aussitôt comme « est-ce que vous disiez que c’était une auto-critique ? » me semble aller un peu au-delà de la portée de mon commentaire.

 
minislively 2026-04-19

Et si vous estimez que le titre et le corps du texte peuvent différer, puis-je comprendre que cet article, plutôt qu’une analyse de la boucle Ralph elle-même, vise en réalité l’ensemble du groupe spécifique que vous avez mentionné ?

 
brainer 2026-04-19

C’est parce que vous avez cité les propos de Jensen Huang, qui n’est même pas un expert en IA/LLM.

Oui, c’est bien un texte visant un groupe en particulier.
Parmi eux, j’ai mentionné le PRD + Ralph loop, qui est à la fois l’exemple le plus représentatif et celui qui dit les choses les plus étranges.

Je ne sais pas si c’est parce que vous ignorez l’existence d’un tel groupe, ou si vous en faites partie et feignez de ne pas le savoir.
S’il est continuellement critiqué en Corée comme à l’étranger, ce n’est pas sans raison.
Il n’y a pas de fumée sans feu.

 
minislively 2026-04-19

Et personnellement, j’ai trouvé cet article assez décevant.
J’ai toujours apprécié GeekNews parce qu’on peut y découvrir des informations que je ne connaissais pas, de nouveaux points de vue et des articles qui élargissent la réflexion, plutôt que des textes visant quelqu’un ou un groupe en particulier.
C’est pourquoi, cette fois, j’ai trouvé d’autant plus regrettable la manière dont le propos se développe en partant du présupposé d’un groupe spécifique.

Pour moi, GeekNews n’a jamais vraiment été un espace où l’on enferme certains dans une grille de lecture pour les prendre pour cible, mais plutôt un lieu qui permet d’élargir sa pensée grâce à des informations plus concrètes et à davantage de contexte. C’est pourquoi, plus que la thèse elle-même, c’est la manière de la développer qui m’a laissé un sentiment de regret. Je m’arrêterai là.

 
brainer 2026-04-19

Combien de fois faudra-t-il que je le dise ?

De mon point de vue, il n’est pas souhaitable de viser directement un groupe ou une personne en particulier.

Le CEO de YC et le fondateur d’OpenClaw sont des personnes qui ont elles-mêmes prouvé qu’elles méritent d’être qualifiées d’experts en IA.
Jensen Huang, c’est différent.

Je n’ai jamais dit que le PRD était une illusion. Regardez un peu le contexte.

Maintenant que ce genre d’affirmations illusoires a pris de l’ampleur, cela dépasse simplement ma colère personnelle : c’est lié au développement de l’IA en Corée du Sud, voire au progrès de l’humanité.
Ne faudrait-il pas corriger cette alchimie avant que ces gens ne prennent encore plus d’ampleur et n’acquièrent de l’influence ailleurs ?

Si cela ne vous concerne pas, il suffit de passer votre chemin.
Dans les autres commentaires de ce billet, il y a déjà des gens qui sont d’accord, ou des membres du groupe dont je parle qui sont venus m’attaquer.

 
minislively 2026-04-20

Et j’ajouterais encore une chose : des expressions comme « l’IA de la Corée du Sud », « le progrès de l’humanité » ou « il faut remettre l’alchimie sur les rails » m’ont donné l’impression que de grands principes passaient un peu avant le reste. Je pense qu’on peut tout à fait avoir ce type de préoccupation. En revanche, ce genre de propos me semble bien plus convaincant lorsqu’ils s’accompagnent de cas concrets, de travaux réels ou de critères de vérification plus précis, plutôt que de critiquer quelqu’un en le rangeant de manière très large dans une catégorie au sein d’une communauté.

Par ailleurs, le fait de considérer les propos du CEO de YC ou du fondateur d’OpenClaw comme des éléments probants, tout en ne traitant que la citation de Jensen Huang comme une forme d’argument d’autorité, ne m’a pas semblé très cohérent non plus. Au final, j’ai eu l’impression que le critère qui décide quelles paroles constituent un fondement valable et lesquelles deviennent insignifiantes variait selon la personne qui parle plutôt qu’en fonction de l’affirmation elle-même. Les propos de Jensen Huang ne sont peut-être pas une preuve décisive, mais traiter uniquement cette citation comme si elle était particulièrement dénuée de valeur m’a paru être une interprétation un peu excessive.

En fin de compte, pour que ce type d’argument parle aussi à d’autres personnes, je pense qu’il faut présenter, en plus de la critique répétée, des cas ou des travaux que l’on puisse consulter et vérifier directement. C’est ainsi que l’orientation que vous défendez pourra être lue non comme une simple réaction de rejet, mais comme une mise en question réellement convaincante. S’il existe ce type de résultat concret, je le lirai volontiers de manière active à ce moment-là et, si nécessaire, j’essaierai même de l’utiliser moi-même.

 
brainer 2026-04-20

Arrêtez les répétitions tautologiques. Vous me prêtez des propos que je n’ai pas tenus, et vous soulevez à nouveau des doutes sur des points auxquels j’ai déjà répondu.

 
minislively 2026-04-20

Honnêtement, plus je lis le billet et les réponses ensemble, plus j’ai l’impression qu’il s’agit moins d’un texte destiné à informer ou à analyser que d’un texte porté avant tout par l’envie de blâmer un certain courant.

Si vous vouliez vraiment formuler une critique précise, il aurait sans doute fallu apporter plus clairement quels messages avaient réellement été publiés dans la communauté, qui avait soutenu quoi et dans quel contexte. Or, au lieu de cas concrets de ce type, vous commencez par tout regrouper sous de grandes formules comme « le milieu coréen du développement », « ce genre de groupe » ou « une exagération quasi religieuse », si bien que, du point de vue du lecteur, ce sont davantage les associations d’idées et le cadrage qui restent que les thèses réelles.

En particulier, le fait de lancer des expressions qui font penser à la sphère om tout en affirmant ensuite ne pas viser directement un groupe ou une personne en particulier donne davantage l’impression d’un désir de blâmer largement quelqu’un que d’un texte informatif.

De plus, répondre aux personnes qui réagissent par des formules du type « si ce n’est pas vous, passez simplement votre chemin » ou « soit vous êtes d’accord, soit ce sont les gens du groupe dont je parle qui sont venus attaquer » me paraît plus proche d’une manière d’étiqueter les gens que d’une véritable discussion. Dès lors qu’on ouvre d’emblée le texte avec un cadrage aussi fort, il est naturel que cela suscite des réticences et des désaccords ; mais si ces réactions sont ensuite à nouveau interprétées comme relevant d’un groupe particulier, alors toute contradiction finit par être absorbée dans ce cadre.

À mes yeux, cette manière de faire relève bien davantage d’une logique qui fabrique une opposition de type communautaire que d’une écriture visant à partager des informations et du contexte. Et, honnêtement, même si ce genre de texte peut sembler familier dans des espaces comme X ou Threads, cela m’attriste d’autant plus que cela me paraît assez éloigné de l’atmosphère de GeekNews que j’espérais, au moins pour ma part.

J’ai toujours eu le sentiment que GeekNews se rapprochait moins d’un endroit où l’on regroupe largement des gens pour les blâmer que d’un espace où l’on partage des expériences directes, des informations concrètes et un contexte qui élargit l’horizon de réflexion. C’est pourquoi, dans ce billet, c’est moins la thèse elle-même que la manière de la traiter qui me laisse le plus de regrets.

 
minislively 2026-04-19

Dans ce cas, au fond, il semble que ce texte soit à comprendre non pas comme une analyse de la Ralph loop elle-même, mais plutôt comme un texte visant l’ensemble du groupe particulier que vous évoquez.

Cela dit, justement pour ce type de texte, je pense que la définition de la cible doit être d’autant plus rigoureuse. Avec des formulations comme « il existe un tel groupe » ou « il est continuellement critiqué en Corée comme à l’étranger », il devient difficile de bien distinguer les affirmations réelles d’un cadrage exagéré, et cela se lit facilement comme une manière de regrouper en un seul bloc des personnes et des contextes pourtant différents. Le simple critère de « groupe particulier » constitue déjà un cadre très fort ; si ses contours restent flous, répondre en faisant entrer l’autre dans cette catégorie me semble rendre la discussion plus brutale plutôt que plus précise.

Par ailleurs, le fait de continuer à invoquer les propos et les cas d’autres personnes comme fondements, tout en traitant uniquement la citation de Jensen Huang comme relevant de l’argument d’autorité, ne m’a pas non plus paru très cohérent. Le fondateur d’OpenClaw comme le CEO de YC sont eux aussi des figures disposant de leur propre contexte et de leur propre autorité ; si la citation de l’un devient un fondement légitime tandis que celle de l’autre est aussitôt vidée de sa valeur, on ne peut qu’avoir l’impression que le critère varie selon le locuteur plus que selon l’argument lui-même. En pratique, il est d’ailleurs fort probable que ces personnes expérimentent elles aussi sur la base d’un volume non négligeable de calcul et d’usage ; si, d’un côté, cela se lit comme une preuve de compétence et, de l’autre, comme le symbole d’une illusion, alors je pense qu’il faut d’abord clarifier davantage le critère qui permet de les distinguer.

Le PRD non plus n’est pas une solution miracle, mais cela ne signifie pas pour autant qu’il faille balayer jusqu’à son rôle comme s’il relevait lui aussi de l’illusion ; cela s’accorde mal avec le processus réel de développement fait de releases itératives, de validation et de corrections. Qu’il puisse exister une culture pesante, oui, mais je ne pense pas que cette réaction de rejet constitue à elle seule un fondement suffisant pour une généralisation aussi large. Je vais m’arrêter là.

 
apkas 2026-04-15

Je pense que des choses comme oh-my-whatever, les classements de tokens et tout le reste ne sont que du bruit marketing.

Plutôt que de créer un harness qui produise quelque chose d’utile, on voit bien plus souvent apparaître des harness simplement plus complexes et optimisés pour brûler des tokens ; et comme c’est ce qui a le plus de visibilité et attire le plus facilement l’attention à court terme, j’ai l’impression que beaucoup de gens s’enthousiasment pour ça.

J’en ai même vu certains dire que ne pas réussir à s’adapter à ce genre de choses, c’est exactement une mentalité de loser. Certains s’en servent aussi pour affirmer que la Corée va vite et que SF est lente.

Cela dit, que ce soit le Ralph Loop, les harness ou quoi que ce soit d’autre, tout cela finira par être absorbé dans les capacités internes des modèles ; et à ce moment-là, le fait qu’une IA puisse tout résoudre avec un seul PRD bien conçu ne me paraîtra pas exagéré.

En revanche, emballer et recycler dès maintenant des contorsions de harness comme si cela permettait de faire quelque chose d’extraordinaire, je ne pense pas que ce soit très différent d’un accro aux clicker games obsédé par le "number go up".

https://x.com/WillManidis/status/2021655191901155534 Ça date un peu, mais ce texte allait dans un sens similaire.

 
tangokorea 2026-04-15

Le fait qu’une chose soit très populaire ne veut-il pas dire qu’elle se rapproche d’autant plus de la moyenne ? Pas d’un niveau élevé, mais d’un niveau ordinaire dont on peut se satisfaire... Mais si cela s’aggrave, l’outil finit par être délaissé. Il y a encore des gens qui débattent sans fin pour savoir si c’est C ou Java.

 
apkas 2026-04-15

Je pense qu’en réalité, la moyenne est très loin à la fois de Ralph Loop et de Hannes, et se situe plutôt au niveau de Claude Code en version vanilla. Honnêtement, si on élargit un peu la population de référence, le simple fait d’avoir utilisé Claude Code me paraît déjà au-dessus de la moyenne.

Si ce genre de choses donne l’impression d’être dans la moyenne, je pense que cela signifie que leur marketing fondé sur le FOMO a été efficace.

 
tangokorea 2026-04-15

Que pensez-vous du mirage qu'est Ralph Loop ?

Faut-il y voir l'avènement d'une nouvelle ère des alchimistes ?

 
cafedead 2026-04-15

Je suis d’accord.

 
brainer 2026-04-15

Je suis tout à fait d’accord.
Personnellement, je pense simplement qu’il s’agit de gens qui veulent devenir des sortes d’influenceurs en Corée.

Merci de partager ce bon article.
Le coding IA et le HITL ont aussi un côté addictif.

Quand on voit ce genre de choses, on se dit qu’il y a clairement chez l’être humain une sorte d’instinct qui aime créer quelque chose.

 
brainer 2026-04-15

Ne soyez pas sarcastique, et si vous ne savez pas, faites au moins une recherche.

Utiliser OpenAI Codex comme extension Chrome
Présentation de Copilot et retour d’utilisation

 
laeyoung 2026-04-16
  1. Waouh, ça fait plaisir de revoir un message que j’avais posté il y a 5 ans 🙌
  2. À l’époque, il y avait des discussions sur les droits d’auteur du code, mais maintenant tout ça a disparu. Ce n’est pas que le problème a été résolu proprement, j’ai plutôt l’impression qu’on l’a simplement étouffé sous la masse 😶‍🌫️
 
click 2026-04-15

Codex il y a 5 ans...? Même ChatGPT est sorti en 2022, donc cela ne fait pas encore 5 ans...
Par hasard, le texte principal de l’Ask GN a-t-il aussi été rédigé par une IA, avec une hallucination à la clé ?

 
mammal 2026-04-15

Codex lui-même est ancien. Je me souviens aussi l’avoir découvert sur GeekNews et avoir demandé l’accès à la preview de GPT-3.

 
jyoung105 2026-04-15

Savez-vous s’il y a un lien entre l’aperçu de GPT-3 et Codex ?
Voulez-vous dire que Codex existait déjà à l’époque ? Ou bien qu’il existait une IA capable d’écrire du code, et que c’était cela, Codex ?

 
mammal 2026-04-15

Parmi les anciennes gammes de modèles désormais deprecated, les séries code-davinci-* et code-cushman-* sont les modèles Codex. La marque Codex elle-même est très ancienne.

https://www.youtube.com/watch?v=SGUCcjHTmGY

 
jyoung105 2026-04-15

Bien sûr, ce n’est pas que le nom de codex est identique, mais il semble bien qu’un modèle de code ait existé.

 
jyoung105 2026-04-15

Waouh, c’est assez choquant. J’utilise moi aussi ces outils depuis l’époque de gpt-2, dall-e et gym, et pourtant c’est la première fois que je vois le nom de modèle codex. Merci de l’avoir signalé !

 
cafedead 2026-04-15

Pour ajouter une précision, codex a été lancé en mai 2025.

 
cafedead 2026-04-15

MDRRRRRRRRRRRRRRRRRRRRRR

 
brainer 2026-04-15

Avant de montrer que vous ne savez pas, pourquoi ne pas aller au moins faire un tour sur NamuWiki ?

Ah, au fait, ChatGPT Atlas m’indique que cela fait 1812 jours que je suis inscrit.

 
click 2026-04-15

Ah, donc le Codex actuel et le Codex de l’époque sont bien des produits de nature différente.
À l’époque, Codex était le nom du modèle LLM d’OpenAI centré sur le code,
et ils ont donc lancé la plateforme Codex actuelle en réutilisant la même marque.

À l’époque, j’utilisais GitHub Copilot et je savais seulement que le modèle sous-jacent était GPT-3,
mais je ne savais pas qu’ils utilisaient la marque Codex comme nom de modèle.

 
brainer 2026-04-15

Codex n’est pas un modèle.
Des noms comme GPT-5.3-Codex n’ont été adoptés que récemment.

C’est le nom d’une extension VSCode qui permettait d’utiliser un modèle fine-tuné pour le code, basé sur GPT-3.
(personne n’utilise le web)
GitHub Copilot utilisait aussi le même modèle et la même approche.

À l’époque, il n’était pas possible d’avoir une conversation vraiment significative, donc c’était littéralement comme de la prédiction du mot suivant.
En gros, quand on entrait un problème Baekjoon, c’était juste l’autocomplétion ultime qui écrivait la fonction solve.
(En clair, OpenAI l’a fait avant Cursor.)

 
click 2026-04-15

Il me semble que ce dont vous parlez est une extension VS Code utilisant le modèle codex (est-ce celle-ci ? https://github.com/Implicate-dev/codex-vscode)
À en juger par l’article publié par Mark Chen en 2021, il semble qu’OpenAI ait présenté codex comme le nom d’un modèle fine-tuné.

We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities
Source : https://arxiv.org/abs/2107.03374

 
brainer 2026-04-15

Ça me semble juste, mais c'est ancien, donc je ne m'en souviens pas précisément.

 
brainer 2026-04-15

Que pensez-vous de l’illusion appelée Ralph Loop ?

https://www.youtube.com/watch?v=SGUCcjHTmGY

 
runableapp 2026-04-19

Je me souviens avoir été surpris en voyant, non pas sur des sites coréens mais sur des sites américains, des propos disant qu’il fallait avoir une forte consommation de tokens. Ce n’est pas propre à la Corée, c’est pareil aux États-Unis, et on voit circuler partout des discours étranges et difficiles à accepter, ainsi que des histoires exagérées.

 
brainer 2026-04-19

En Corée, ce genre d’affirmation circule depuis presque six mois, et j’ai l’impression qu’on en parle de plus en plus vivement ces derniers temps.
Des personnes comme Garry Tan affirment activement que ce n’est pas le cas.

 
jeeeyul 2026-04-19

C’est un peu une réflexion dans un autre contexte, mais je pense qu’il vaut mieux consacrer plus de tokens à la vérification sur un matériel moins cher que d’utiliser une API cloud coûteuse en économisant les tokens.

Avec le développement des agents et des harness, il semble qu’on préfère davantage des architectures économiquement viables qui permettent plus de revue et de validation, plutôt que de miser sur la précision et la taille du modèle.

Je pense que c’est particulièrement vrai depuis l’arrivée de GDN, Mamba, etc.

 
brainer 2026-04-19

Personnellement, j’ai du mal à être d’accord.
Dans le cas d’Opus, c’est excessivement cher, mais à un tarif du niveau de GPT-5.4, il vaudrait mieux, sur plusieurs plans économiques, lancer 5.4 quelques fois plutôt que de faire tourner toute la journée un modèle chinois bon marché.

 
vkehfdl1 2026-04-19

À mon sens, si même les joueurs professionnels — probablement parmi ceux qui apprennent le plus efficacement au monde — échouent si souvent à intégrer quelque chose de nouveau, ce n’est pas simplement par manque de niveau.
Je pense plutôt que c’est l’inverse.
Parce qu’ils ont été optimisés trop longtemps, et à un niveau trop élevé, pour la méta existante, ils rencontrent souvent plus de difficultés face au changement.
Au début, tous les jugements sont conscients.
Mais à mesure que l’apprentissage répétitif s’accumule, des décisions qui étaient d’abord traitées par le cerveau se transforment peu à peu en automatismes, et les experts finissent par atteindre un stade où le corps réagit avant même la pensée.
Je considère clairement que cette automatisation est une force immense.
Mais au moment où la méta change, cette force peut au contraire se transformer en une puissante inertie.
La vision, les teamfights, le sens du macro qui constituaient les bonnes réponses dans l’ancienne méta s’impriment dans le corps au fil de milliers d’heures.
Ainsi, même quand la structure du jeu change et que les anciennes bonnes réponses n’en sont plus, le corps continue, selon moi, à vouloir bouger d’abord selon les anciens schémas.
Au fond, le problème n’est pas un manque de capacité à apprendre du nouveau, mais la capacité à abandonner les optimisations existantes.
Car la plupart des compétences expertes sont le résultat d’une accumulation, mais aussi en même temps d’une inertie.
C’est pourquoi je ne pense pas que les personnes qui ont excellé soient forcément avantagées dans la méta suivante.
Au contraire, il est tout à fait possible qu’elles restent plus fortement attachées aux succès de l’époque précédente.
À mon avis, l’industrie du code actuelle n’est pas si différente.
Beaucoup continuent encore à calculer l’efficacité selon les anciennes méthodes, et à juger la productivité selon les anciens critères.
Mais je pense que la méta a déjà commencé à changer.
Indépendamment du diplôme ou de l’expérience, si l’on regarde ce qui se passe réellement dans le monde, il faut se demander à nouveau si le marché fonctionne encore exactement selon la même structure qu’avant, et si le développement continue réellement à n’apporter qu’une valeur subordonnée.
Au final, ceux qui passent à l’étape suivante ne sont pas seulement ceux qui accumulent avec plus de sérieux, mais aussi ceux qui savent abandonner plus vite l’existant.
À mes yeux, dans cette nouvelle époque, la capacité à retirer les anciennes optimisations devient bien plus importante que celle d’accumuler davantage.

 
brainer 2026-04-19

Si c'est ce que vous pensez, il vous suffit de faire un direct 24h/24 et de le montrer vous-même.

 
vkehfdl1 2026-04-19

Oh
Merci pour cette bonne idée.
On voit bien que l’expérience fait la différence 👍👍👍👍👍👍👍👍👍

 
brainer 2026-04-19

J’ai bien écouté cette longue explication sur le fait que ça ne marcherait pas.

 
sea715 2026-04-15

Je suis d’accord, mais je pense quand même que des ensembles de harnais bien conçus comme omo aident effectivement au développement. (Si je comprends bien, Ralph Loop n’est pas l’élément principal. N’est-ce pas proposé comme une option ? C’était ulw, peut-être… ?)

 
cloverhearts 2026-04-15

Pour aller droit à la conclusion, cela ne semble avoir absolument aucun lien avec la consommation de tokens.
En ce qui concerne l’automatisation, il existe chez les développeurs une culture profondément ancrée, au point que cela ressemble à une sorte d’objectif d’accomplissement professionnel partagé.

C’est probablement ce qui alimente le fantasme de voir du code ou des produits se créer automatiquement pendant la nuit.

En réalité, si l’on quitte le point de vue du développeur pour se placer du côté de l’utilité business concrète ou de l’exploitation d’une activité, il est souvent plus important de mesurer le problème et de trouver une solution que de privilégier la performance, la finition ou la rapidité de réaction...

J’ai l’impression que le fantasme très propre aux développeurs selon lequel il suffirait de faire une bonne app ou un bon service pour décrocher le jackpot déforme la perception de la situation.

Quand il s’agit de ramasser quelques cheveux dans la maison, on n’a pas besoin de 500 types d’aspirateurs haute performance, juste d’un petit quelque chose de simple qui remplace mes doigts.

Pour la consommation de tokens, si la gestion de session est mal faite ou si SDD est mal utilisé, même un développement serveur simple peut facilement engloutir 100 dollars en 2 ou 3 jours chez Claude.
Comme les spécifications permettant de dire qu’on utilise mal les tokens manquent de clarté, il est difficile de s’en rendre compte soi-même.

Quoi qu’il en soit, prendre la consommation de tokens comme indicateur de l’usage de l’IA revient un peu à dire que quelqu’un est compétent parce qu’il mange beaucoup, ou à prétendre qu’on a beaucoup travaillé parce qu’on a passé la nuit au bureau à recopier au crayon des documents existants.

Pour l’instant, faute de métrique précise, on met l’accent sur la consommation de tokens et l’automatisation,
mais il me semble que la prochaine étape sera très vite d’ouvrir la discussion sur les moyens de créer une valeur réellement concrète.

 
woung717 2026-04-15

En réalité, les États-Unis ne me semblent pas si différents que ça. Si les harnais de codage du genre Oh-my sont moins visibles à l’international, y compris aux États-Unis, c’est surtout parce que l’équipe du projet est coréenne et qu’ils y ont moins fait de marketing ; et quand on regarde ce que défendent Steve Yegge ou Karpathy, des maximalistes du token bien connus, ce n’est pas si différent de ce que vous avez mentionné. Leurs suiveurs non plus.

 
dohyun682 2026-04-15

On crée même en interne des classements d’utilisation des tokens et on met les entreprises en concurrence, mais personnellement je pense qu’on s’est simplement laissé prendre par le marketing des entreprises d’IA.
Quand on voit ce qui devient viral en ce moment, on a l’impression que les performances par rapport au nombre de tokens ne sont absolument pas prises en compte.

 
brainer 2026-04-15

Ce qui est drôle, c’est que les entreprises d’IA ne font pas ce genre de marketing.
Au contraire, elles disent obtenir de meilleures performances qu’avec les modèles précédents avec encore moins de reasoning tokens.

 
vndk2234 2026-04-15

Il y a 5 ans...? Est-ce que vous pourriez éventuellement recommander des actions ?

 
brainer 2026-04-15

Samsung Electronics.