Ce qui ne peut pas être entraîné

(saranormous.substack.com)

5 points par GN⁺ 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

À la mi-2026, un pessimisme quasi « psychotique » autour de l’IA se répand chez les investisseurs, avec une idée centrale : si les modèles deviennent meilleurs en tout, toutes les entreprises construites au-dessus ne sont que de minces wrappers promis à l’absorption
Devin, premier AI SWE, ne résolvait que 13 % des tâches de benchmark standard en 2024, mais en un an et demi les meilleurs agents ont atteint la fin des 80 %, et les modèles grignotent rapidement d’abord les zones mesurables
Ce qui est mesurable devient entraînable puis une commodity, mais les bonnes réponses privées et coûteuses à vérifier ne se lisent pas sur un leaderboard
La vraie valeur se situe dans des zones hors d’atteinte des modèles, comme les licences, la responsabilité juridique et l’imputation des responsabilités ; le goulot d’étranglement n’est pas l’intelligence mais la permission et l’accountability
Plus l’intelligence devient bon marché, plus la valeur se déplace vers le petit nombre d’endroits que les modèles ne peuvent pas atteindre ; l’« untrainable » devient le moat final

Le pessimisme des investisseurs et sa logique

À la mi-2026, le pessimisme des investisseurs consiste à penser qu’il n’y a plus rien dans quoi investir, sinon mettre son argent dans Anthropic et Nvidia puis s’arrêter là
Si les modèles deviennent meilleurs en tout, toutes les entreprises construites au-dessus ne sont que des thin wrappers en attente d’absorption, et la seule valeur survivante serait le compute et les frontier weights
- Le cas sur lequel cette logique s’appuie le plus fortement est le logiciel

La vraie leçon donnée par le logiciel

Lors de son lancement en 2024, Devin n’a résolu que 13 % des tâches de benchmark logiciel standard et a donc été largement ignoré, mais un an et demi plus tard les meilleurs agents atteignent la fin des 80 % et effectuent déjà du vrai travail chez Goldman Sachs et dans l’U.S. Army
Presque tout le monde en a tiré la mauvaise leçon : « les modèles ont avalé l’ingénierie logicielle ». Pourtant, l’ingénierie a toujours résisté à la mesure, et la partie la plus mesurable n’est pas la seule qui compte
Mert Demirer du MIT et ses coauteurs ont quantifié cela sur plus de 100 000 développeurs : les coding agents récents augmentent d’environ 180 % la quantité de code écrite, mais seulement d’environ 30 % la quantité effectivement déployée
- Écrire du code est devenu moins cher, mais tout le reste passe encore par des humains, et c’est cette partie qui compte

Ce qui est mesurable devient entraînable

Un benchmark mesure par définition quelque chose, et ce qui est mesurable peut être attaqué par l’entraînement ; c’est pourquoi les coding agents ont mûri en premier
- Le compilateur et la suite de tests servent de free verifier : la réponse s’auto-vérifie, on peut donc itérer jusqu’à ce qu’elle passe
Mais réussir les tests ne dit pas si ce changement est le bon choix pour une codebase vieille de 10 ans
- Les trois raisons non documentées pour lesquelles un module existe, ou un pipeline de déploiement maintenu par un cron job que personne n’admet avoir écrit, ne se lisent pas sur un leaderboard
La justesse d’un système complexe ne se découvre qu’en le faisant tourner assez longtemps dans le monde réel, et un modèle plus intelligent ne fait pas tourner le monde plus vite
- Noam Brown, pionnier des modèles de raisonnement chez OpenAI, a indiqué que la seule manière vraiment sûre d’évaluer un agent sur un an pourrait bien être de le laisser tourner pendant un an

Ce qui n’avance qu’à la vitesse de l’organisation

Selon Gabe Pereyra, la véritable automatisation ne vient pas seulement de l’amélioration du modèle, mais du mouvement conjoint du produit, du modèle, du workflow et de l’entreprise, dont trois avancent à la vitesse de l’organisation
La partie que les benchmarks n’atteignent pas consiste à faire bouger les humains : changer la manière de travailler d’un partenaire sceptique ou maintenir l’équipe pendant une refonte
- Lorsqu’on recrute un CEO, on valorise la capacité à gérer les personnes autant que la capacité d’analyse, et un modèle plus intelligent ne change pas ce poids relatif
Toutes les entreprises ont mis un frontier coding model entre les mains de tous leurs ingénieurs, mais aucune n’a transformé son eng org à cette vitesse
- L’adoption s’est faite en un trimestre ; la reconstruction, elle, prend des années

Le travail lisible est en train de partir

Ce qui peut être placé sur un leaderboard devient tôt ou tard attaquable par l’entraînement ; ainsi, tout travail mesurable est déjà en route vers la commodity, et ce mouvement ne reviendra pas en arrière
Pour reprendre la métaphore de Matt MacInnis chez Rippling, un token qui répond à une question générale a très peu de valeur puisque n’importe quel modèle peut le produire, tandis qu’un token qui raisonne sur les données de l’entreprise a beaucoup plus de valeur
Le travail lisible est grignoté par le bas comme par le haut
- Par le bas, les tâches se saturent et l’acheteur ne demande plus « quel modèle ? » mais « combien ça coûte ? », puis choisit l’open/distilled model le moins cher de la semaine
- Par le haut, les labs repoussent une absorption frontier en incorporant dans les weights ce qui entourait autrefois le modèle — retrieval, routing, tool use, reasoning policy et autres scaffoldings
La pression sur les marges agit aussi dans l’autre sens : un agent généraliste doit se préparer à tout, donc coûte cher, tandis qu’une application focalisée peut être ajustée pour exécuter un workflow précis avec une fraction du coût en tokens et capter directement l’écart

La matrice 2x2 et l’« untrainable »

On peut poser deux questions sur n’importe quel travail : l’exactitude est-elle privée et coûteuse à établir ? Et le travail est-il enfermé dans des systèmes où l’on ne peut pas entrer ?
Croisées avec la saturation de la tâche, elles forment une matrice 2x2
- Saturation + réponse publique = token commodity, capté par les open models
- Frontier + réponse publique (où se situe le coding benchmark) = victoire des labs ; si l’évaluation est gratuite, la possession n’a plus d’importance
- Le dernier quadrant = travail frontier dont la justesse n’existe qu’en privé, et c’est cela, l’untrainable
On le voit dans l’inference cloud : les leaders AI-native y génèrent l’écrasante majorité de leurs tokens non pas avec des modèles open généralistes, mais avec des custom models
La hauteur du mur à franchir pour entrer dans ce dernier quadrant varie
- La toy codebase d’un développeur individuel est portable et standardisée, donc l’entrée est facile
- Le système de production d’une banque n’est ni l’un ni l’autre, et être 2 % plus intelligent sur SWE-Bench Verified ne vous donne pas les droits root

Le goulot d’étranglement n’est pas l’intelligence mais la permission et la responsabilité

Même un meilleur modèle ne peut pas rendre publique une private ground truth, ni détenir une licence, signer une responsabilité juridique, posséder les fichiers d’une entreprise ou devenir la partie poursuivie quand la réponse est fausse
- Le goulot d’étranglement n’est pas l’intelligence, mais la permission et l’accountability
Cette porte comporte une serrure et un verrou
- La serrure, c’est l’environnement : l’utilité de l’IA ne peut être vérifiée à l’intérieur d’un système qu’après avoir gagné la confiance via des revues de sécurité, des intégrations et des contrats engageant son nom sur le résultat
- Le verrou, c’est l’utilisateur : l’habitude qu’ont de nombreux médecins américains d’ouvrir OpenEvidence chaque jour ne s’achète avec aucun compute
Même si l’on entraînait demain un modèle médical parfait, il n’aurait pas d’accès direct aux habitudes des médecins ni aux circuits de décision de l’UCSF ; la confiance se construit lentement sur les relations et le consentement des utilisateurs

La nature même du travail

Pour qu’une application obtienne une place dans le quadrant untrainable, il faut un travail peu glamour : arranger la réalité privée d’une entreprise pour qu’un modèle puisse la traiter, lui donner les outils pour agir, et transformer avec le client la réalité humaine de l’organisation
- L’entreprise qui apporte cette traduction est difficile à copier, et cette traduction ne s’achève jamais
- L’intégration et la maintenance continuent tant que la relation dure, et ce sont les équipes qui gardent auprès du client des ingénieurs et outils spécialisés métier qui gagnent
Cas : le M&A dans un grand cabinet d’avocats
- Dans un cabinet white-shoe de tout premier plan, rien qu’un département M&A traite environ 1 000 deals par an ; on ne peut pas demander à des centaines de collaborateurs de télécharger chacun leurs client files sur leur desktop pour les faire parcourir par un agent généraliste
  - Cela pose de nombreux problèmes, notamment de confidentialité ; et même si c’était possible, on n’obtiendrait que des fragments de corrections individuelles, sans visibilité sur le flux du deal dans son ensemble
- Le signal utile existe au niveau du deal lui-même, et un deal a une forme
  - Le M&A suit un enchaînement NDA, term sheet, diligence, purchase agreement, ancillaries, closing checklist
  - L’IP litigation suit motion, discovery, prior art, motion supplémentaire
  - Chaque practice area a sa propre structure, et ni les avocats ni les outils ne sont interchangeables d’un domaine à l’autre
- Le vrai problème que résout un cabinet se situe à l’étage supérieur : faire tourner en parallèle toutes les practice areas, avec des associés seniors qui pilotent des centaines de dossiers à la fois, apportent de nouveaux dossiers et forment les collaborateurs
  - La transformation d’un tel cabinet n’est pas une tâche unique utilisable comme eval ; elle exige un operator capable d’orchestrer avec finesse des objectifs intermédiaires extrêmement ambigus, des retours incomplets, des horizons très longs et un environnement qui ne s’arrête jamais

Une valeur difficile à lire est aussi difficile à vendre

Vu de l’extérieur, même l’entreprise elle-même ne sait pas si l’IA va transformer son fonctionnement ; les meilleures entreprises cessent donc de chercher des preuves externes et entrent à l’intérieur pour tarifer le résultat
Sierra facture quand l’agent résout un problème client, et ne facture pas quand il passe la main à un humain ; le prix devient lui-même l’évaluation, ce qui fonctionne parce que Sierra possède la définition de “resolved”
Le Devin de Cognition propose de la même manière une performance guarantee dans le logiciel, approche possible seulement sur des résultats à l’intérieur d’un système de confiance

Même le serving de tokens n’est pas une commodity pure

Même le serving de tokens, souvent présenté comme une commodity pure, ne se comporte pas ainsi ; les meilleures entreprises AI-native concentrent leur serving chez un ou deux acteurs (Baseten ou Fireworks)
- Le coût par token se commoditise comme prévu, mais pas la fiabilité sous trafic réel ni l’accès garanti à un compute rare
- Le choix de l’endroit où l’on sert un modèle est distinct du choix du modèle lui-même ; dans l’inference, la seule dimension qui se comporte réellement comme une commodity est le prix

L’objection selon laquelle les labs sont les fournisseurs

Une objection courante dit que, puisque les labs sont les fournisseurs, ils peuvent exploiter leurs propres produits à perte pour tuer le marché ou couper l’accès API afin de le prendre directement ; c’est la véritable version du pessimisme
Cette logique ne tient que si la couche modèle est un jeu à un seul acteur, ce qui n’est manifestement pas le cas
- On est plus proche d’un « match à mort à 3,5 joueurs », avec en plus des acteurs internationaux en retard de six mois ; la ligue des développeurs est cinq fois plus grande que l’an dernier
- Les clients veulent de la concurrence entre fournisseurs, et les labs veulent davantage de market share qu’éliminer une application particulière
On l’observe sur les marchés où les labs s’affrontent directement : dans le consumer chat, le meilleur modèle n’a jamais simplement gagné
- ChatGPT est resté en tête pendant des années en situation de concurrence réelle ; la part de marché qu’il perd aujourd’hui ne part pas vers un meilleur modèle, mais vers Gemini, porté par Android et Search
- Anthropic, perçu selon les prediction markets et l’ambiance générale d’internet comme le détenteur du meilleur modèle, pèse à peine dans le consumer chat et construit son activité dans l’enterprise et le coding
- Si, même dans les applications les plus centrales, un meilleur modèle ne parvient pas à prendre les utilisateurs d’un concurrent, alors il ne percera pas les dossiers hospitaliers ni la responsabilité bancaire simplement à coups d’intégration

Le droit de définir ce qu’est une bonne réponse

Si personne à l’extérieur ne peut noter, alors quelqu’un à l’intérieur doit décider de ce qu’est une bonne réponse, et cette décision est tout le jeu
- Quand suffisamment de ces décisions s’accumulent et se documentent, elles deviennent un benchmark ; Harvey en a publié pour le juridique, Sierra pour les voice agents
- Le droit de définir ce qui est good dans un domaine s’obtient en devenant l’acteur déjà utilisé par ce domaine, et ces entreprises ont gagné ce droit au prix du combat réel de l’adoption
Les évaluations qui séparent vraiment l’argent des autres restent privées et propres à chaque entreprise : qu’est-ce que cette entreprise considère comme un bon travail sur ce type de dossier ? Et la profondeur du droit dépasse tout test public, donc ce travail n’est jamais achevé
Il ne s’agit pas de mesure, mais de jugement sur ce qui est vrai et ce qui est bon ; ce jugement est consigné puis devient standard, et aucun foundation lab, même très intelligent, ne peut l’écrire à la place des acteurs du domaine
- Cette position n’existe qu’à l’intérieur du domaine ; l’autorité se repose là où elle se trouvait déjà
- Les benchmarks juridiques sont définis par des avocats seniors, les réponses cliniques sûres par des médecins, et le sens de “resolved” par l’entreprise qui possède déjà la relation client

Une défense qu’il faut réévaluer sans fin

À mesure qu’on rend davantage de travail mesurable, l’absorption frontier continue de monter, et tout ce qui devient mesurable se fait manger
Le terrain untrainable rétrécit sous les pieds de ceux qui s’y trouvent ; impossible de s’installer confortablement, il faut se déplacer en permanence vers les zones pas encore notées et re-underwrite sans cesse
En se spécialisant sur une tâche étroite, avec des données privées et ses propres evals, on peut s’entraîner jusqu’à la frontier et battre le modèle généraliste sur ce point ; ce modèle spécialisé devient alors une partie du moat
À l’inverse, concurrencer un modèle généraliste revient à entrer dans une guerre du capital perdue face à celui qui possède le plus de compute — le piège des entreprises à accès superficiel et tâches faciles à lire
- Le jour où l’on décide que sa survie passe par l’entraînement d’un modèle capable de dépasser la frontier dans le généraliste, le gagnant sera décidé par la taille du datacenter, et l’issue ne sera pas un champion indépendant mais une vente au plus riche en compute

L’attaque la plus difficile : que construire ?

Tout ce qui précède concerne la défense ; plus difficile encore est l’attaque initiale consistant à choisir quoi construire, une intuition qu’on ne trouve que trois fois par an peut-être
Les modèles n’aident pas ici : ils font ce qu’on leur indique, mais ne disent pas ce qu’il vaut la peine d’indiquer, et comme cela ne se benchmarke pas, cela ne s’entraîne pas non plus
- C’est pourquoi les incumbents ne raflent pas tout ; la prochaine chose viendra de quelqu’un qui voit avant les autres à quoi cela peut servir
- Peut-être que l’intent est un input plus rare encore que le compute

Conclusion : une valeur avec une histoire

Le pessimisme n’a raison qu’à moitié : la couche des thin wrappers est bien en train d’être absorbée, et beaucoup de ce qui ressemble aujourd’hui à des entreprises n’est effectivement qu’un thin wrapper
- Mais il se trompe sur ce que cette absorption laisse derrière elle : le mécanisme est clair, la destination finale ne l’est pas
L’intelligence va continuer à devenir moins chère, et la valeur glisser vers le petit nombre d’endroits que les modèles ne peuvent pas atteindre ; ce sont les zones untrainable — relations, confiance, jugement accumulé — une « valeur avec une histoire » construite dans le temps et impossible à répliquer par entraînement
Il ne faut donc pas chercher à posséder l’intelligence elle-même, mais entrer dans un domaine où la bonne réponse n’existe qu’à l’intérieur de ce domaine — get inside one
- Faire soi-même le travail peu glamour de traduction qui aligne la réalité privée d’une entreprise pour qu’un modèle puisse la traiter
- L’essentiel est de devenir l’acteur qui consigne ce qu’est une bonne réponse dans ce domaine et définit ainsi le standard, car cette place n’est pas vide : si vous ne la prenez pas, quelqu’un d’autre le fera
Le score de benchmark le plus cité cette année n’est pas un trophée mais un avertissement : la carte d’un territoire bientôt sans valeur, et l’annonce que celui qui l’affiche perdra bientôt le droit de dire ce qu’est une bonne réponse
- Dès qu’une chose devient publiquement mesurable, elle devient un signal de commoditisation ; une notation publique peut être rattrapée par n’importe qui, et même le leader du classement perd alors le droit de définir le standard du good

Ce qui ne peut pas être entraîné

Le pessimisme des investisseurs et sa logique

La vraie leçon donnée par le logiciel

Ce qui est mesurable devient entraînable

Ce qui n’avance qu’à la vitesse de l’organisation

Le travail lisible est en train de partir

La matrice 2x2 et l’« untrainable »

Le goulot d’étranglement n’est pas l’intelligence mais la permission et la responsabilité

La nature même du travail

Cas : le M&A dans un grand cabinet d’avocats

Une valeur difficile à lire est aussi difficile à vendre

Même le serving de tokens n’est pas une commodity pure

L’objection selon laquelle les labs sont les fournisseurs

Le droit de définir ce qu’est une bonne réponse

Une défense qu’il faut réévaluer sans fin

L’attaque la plus difficile : que construire ?

Conclusion : une valeur avec une histoire

À lire aussi

Aucun commentaire pour le moment.