Ce qui ne peut pas être entraîné
(saranormous.substack.com)- À la mi-2026, un pessimisme quasi « psychotique » autour de l’IA se répand chez les investisseurs, avec une idée centrale : si les modèles deviennent meilleurs en tout, toutes les entreprises construites au-dessus ne sont que de minces wrappers promis à l’absorption
- Devin, premier AI SWE, ne résolvait que 13 % des tâches de benchmark standard en 2024, mais en un an et demi les meilleurs agents ont atteint la fin des 80 %, et les modèles grignotent rapidement d’abord les zones mesurables
- Ce qui est mesurable devient entraînable puis une commodity, mais les bonnes réponses privées et coûteuses à vérifier ne se lisent pas sur un leaderboard
- La vraie valeur se situe dans des zones hors d’atteinte des modèles, comme les licences, la responsabilité juridique et l’imputation des responsabilités ; le goulot d’étranglement n’est pas l’intelligence mais la permission et l’accountability
- Plus l’intelligence devient bon marché, plus la valeur se déplace vers le petit nombre d’endroits que les modèles ne peuvent pas atteindre ; l’« untrainable » devient le moat final
Le pessimisme des investisseurs et sa logique
- À la mi-2026, le pessimisme des investisseurs consiste à penser qu’il n’y a plus rien dans quoi investir, sinon mettre son argent dans Anthropic et Nvidia puis s’arrêter là
- Si les modèles deviennent meilleurs en tout, toutes les entreprises construites au-dessus ne sont que des thin wrappers en attente d’absorption, et la seule valeur survivante serait le compute et les frontier weights
- Le cas sur lequel cette logique s’appuie le plus fortement est le logiciel
La vraie leçon donnée par le logiciel
- Lors de son lancement en 2024, Devin n’a résolu que 13 % des tâches de benchmark logiciel standard et a donc été largement ignoré, mais un an et demi plus tard les meilleurs agents atteignent la fin des 80 % et effectuent déjà du vrai travail chez Goldman Sachs et dans l’U.S. Army
- Presque tout le monde en a tiré la mauvaise leçon : « les modèles ont avalé l’ingénierie logicielle ». Pourtant, l’ingénierie a toujours résisté à la mesure, et la partie la plus mesurable n’est pas la seule qui compte
- Mert Demirer du MIT et ses coauteurs ont quantifié cela sur plus de 100 000 développeurs : les coding agents récents augmentent d’environ 180 % la quantité de code écrite, mais seulement d’environ 30 % la quantité effectivement déployée
- Écrire du code est devenu moins cher, mais tout le reste passe encore par des humains, et c’est cette partie qui compte
Ce qui est mesurable devient entraînable
- Un benchmark mesure par définition quelque chose, et ce qui est mesurable peut être attaqué par l’entraînement ; c’est pourquoi les coding agents ont mûri en premier
- Le compilateur et la suite de tests servent de free verifier : la réponse s’auto-vérifie, on peut donc itérer jusqu’à ce qu’elle passe
- Mais réussir les tests ne dit pas si ce changement est le bon choix pour une codebase vieille de 10 ans
- Les trois raisons non documentées pour lesquelles un module existe, ou un pipeline de déploiement maintenu par un cron job que personne n’admet avoir écrit, ne se lisent pas sur un leaderboard
- La justesse d’un système complexe ne se découvre qu’en le faisant tourner assez longtemps dans le monde réel, et un modèle plus intelligent ne fait pas tourner le monde plus vite
- Noam Brown, pionnier des modèles de raisonnement chez OpenAI, a indiqué que la seule manière vraiment sûre d’évaluer un agent sur un an pourrait bien être de le laisser tourner pendant un an
Ce qui n’avance qu’à la vitesse de l’organisation
- Selon Gabe Pereyra, la véritable automatisation ne vient pas seulement de l’amélioration du modèle, mais du mouvement conjoint du produit, du modèle, du workflow et de l’entreprise, dont trois avancent à la vitesse de l’organisation
- La partie que les benchmarks n’atteignent pas consiste à faire bouger les humains : changer la manière de travailler d’un partenaire sceptique ou maintenir l’équipe pendant une refonte
- Lorsqu’on recrute un CEO, on valorise la capacité à gérer les personnes autant que la capacité d’analyse, et un modèle plus intelligent ne change pas ce poids relatif
- Toutes les entreprises ont mis un frontier coding model entre les mains de tous leurs ingénieurs, mais aucune n’a transformé son eng org à cette vitesse
- L’adoption s’est faite en un trimestre ; la reconstruction, elle, prend des années
Le travail lisible est en train de partir
- Ce qui peut être placé sur un leaderboard devient tôt ou tard attaquable par l’entraînement ; ainsi, tout travail mesurable est déjà en route vers la commodity, et ce mouvement ne reviendra pas en arrière
- Pour reprendre la métaphore de Matt MacInnis chez Rippling, un token qui répond à une question générale a très peu de valeur puisque n’importe quel modèle peut le produire, tandis qu’un token qui raisonne sur les données de l’entreprise a beaucoup plus de valeur
- Le travail lisible est grignoté par le bas comme par le haut
- Par le bas, les tâches se saturent et l’acheteur ne demande plus « quel modèle ? » mais « combien ça coûte ? », puis choisit l’open/distilled model le moins cher de la semaine
- Par le haut, les labs repoussent une absorption frontier en incorporant dans les weights ce qui entourait autrefois le modèle — retrieval, routing, tool use, reasoning policy et autres scaffoldings
- La pression sur les marges agit aussi dans l’autre sens : un agent généraliste doit se préparer à tout, donc coûte cher, tandis qu’une application focalisée peut être ajustée pour exécuter un workflow précis avec une fraction du coût en tokens et capter directement l’écart
La matrice 2x2 et l’« untrainable »
- On peut poser deux questions sur n’importe quel travail : l’exactitude est-elle privée et coûteuse à établir ? Et le travail est-il enfermé dans des systèmes où l’on ne peut pas entrer ?
- Croisées avec la saturation de la tâche, elles forment une matrice 2x2
- Saturation + réponse publique = token commodity, capté par les open models
- Frontier + réponse publique (où se situe le coding benchmark) = victoire des labs ; si l’évaluation est gratuite, la possession n’a plus d’importance
- Le dernier quadrant = travail frontier dont la justesse n’existe qu’en privé, et c’est cela, l’untrainable
- On le voit dans l’inference cloud : les leaders AI-native y génèrent l’écrasante majorité de leurs tokens non pas avec des modèles open généralistes, mais avec des custom models
- La hauteur du mur à franchir pour entrer dans ce dernier quadrant varie
- La toy codebase d’un développeur individuel est portable et standardisée, donc l’entrée est facile
- Le système de production d’une banque n’est ni l’un ni l’autre, et être 2 % plus intelligent sur SWE-Bench Verified ne vous donne pas les droits root
Le goulot d’étranglement n’est pas l’intelligence mais la permission et la responsabilité
- Même un meilleur modèle ne peut pas rendre publique une private ground truth, ni détenir une licence, signer une responsabilité juridique, posséder les fichiers d’une entreprise ou devenir la partie poursuivie quand la réponse est fausse
- Le goulot d’étranglement n’est pas l’intelligence, mais la permission et l’accountability
- Cette porte comporte une serrure et un verrou
- La serrure, c’est l’environnement : l’utilité de l’IA ne peut être vérifiée à l’intérieur d’un système qu’après avoir gagné la confiance via des revues de sécurité, des intégrations et des contrats engageant son nom sur le résultat
- Le verrou, c’est l’utilisateur : l’habitude qu’ont de nombreux médecins américains d’ouvrir OpenEvidence chaque jour ne s’achète avec aucun compute
- Même si l’on entraînait demain un modèle médical parfait, il n’aurait pas d’accès direct aux habitudes des médecins ni aux circuits de décision de l’UCSF ; la confiance se construit lentement sur les relations et le consentement des utilisateurs
La nature même du travail
- Pour qu’une application obtienne une place dans le quadrant untrainable, il faut un travail peu glamour : arranger la réalité privée d’une entreprise pour qu’un modèle puisse la traiter, lui donner les outils pour agir, et transformer avec le client la réalité humaine de l’organisation
- L’entreprise qui apporte cette traduction est difficile à copier, et cette traduction ne s’achève jamais
- L’intégration et la maintenance continuent tant que la relation dure, et ce sont les équipes qui gardent auprès du client des ingénieurs et outils spécialisés métier qui gagnent
-
Cas : le M&A dans un grand cabinet d’avocats
- Dans un cabinet white-shoe de tout premier plan, rien qu’un département M&A traite environ 1 000 deals par an ; on ne peut pas demander à des centaines de collaborateurs de télécharger chacun leurs client files sur leur desktop pour les faire parcourir par un agent généraliste
- Cela pose de nombreux problèmes, notamment de confidentialité ; et même si c’était possible, on n’obtiendrait que des fragments de corrections individuelles, sans visibilité sur le flux du deal dans son ensemble
- Le signal utile existe au niveau du deal lui-même, et un deal a une forme
- Le M&A suit un enchaînement NDA, term sheet, diligence, purchase agreement, ancillaries, closing checklist
- L’IP litigation suit motion, discovery, prior art, motion supplémentaire
- Chaque practice area a sa propre structure, et ni les avocats ni les outils ne sont interchangeables d’un domaine à l’autre
- Le vrai problème que résout un cabinet se situe à l’étage supérieur : faire tourner en parallèle toutes les practice areas, avec des associés seniors qui pilotent des centaines de dossiers à la fois, apportent de nouveaux dossiers et forment les collaborateurs
- La transformation d’un tel cabinet n’est pas une tâche unique utilisable comme eval ; elle exige un operator capable d’orchestrer avec finesse des objectifs intermédiaires extrêmement ambigus, des retours incomplets, des horizons très longs et un environnement qui ne s’arrête jamais
- Dans un cabinet white-shoe de tout premier plan, rien qu’un département M&A traite environ 1 000 deals par an ; on ne peut pas demander à des centaines de collaborateurs de télécharger chacun leurs client files sur leur desktop pour les faire parcourir par un agent généraliste
Une valeur difficile à lire est aussi difficile à vendre
- Vu de l’extérieur, même l’entreprise elle-même ne sait pas si l’IA va transformer son fonctionnement ; les meilleures entreprises cessent donc de chercher des preuves externes et entrent à l’intérieur pour tarifer le résultat
- Sierra facture quand l’agent résout un problème client, et ne facture pas quand il passe la main à un humain ; le prix devient lui-même l’évaluation, ce qui fonctionne parce que Sierra possède la définition de “resolved”
- Le Devin de Cognition propose de la même manière une performance guarantee dans le logiciel, approche possible seulement sur des résultats à l’intérieur d’un système de confiance
Même le serving de tokens n’est pas une commodity pure
- Même le serving de tokens, souvent présenté comme une commodity pure, ne se comporte pas ainsi ; les meilleures entreprises AI-native concentrent leur serving chez un ou deux acteurs (Baseten ou Fireworks)
- Le coût par token se commoditise comme prévu, mais pas la fiabilité sous trafic réel ni l’accès garanti à un compute rare
- Le choix de l’endroit où l’on sert un modèle est distinct du choix du modèle lui-même ; dans l’inference, la seule dimension qui se comporte réellement comme une commodity est le prix
L’objection selon laquelle les labs sont les fournisseurs
- Une objection courante dit que, puisque les labs sont les fournisseurs, ils peuvent exploiter leurs propres produits à perte pour tuer le marché ou couper l’accès API afin de le prendre directement ; c’est la véritable version du pessimisme
- Cette logique ne tient que si la couche modèle est un jeu à un seul acteur, ce qui n’est manifestement pas le cas
- On est plus proche d’un « match à mort à 3,5 joueurs », avec en plus des acteurs internationaux en retard de six mois ; la ligue des développeurs est cinq fois plus grande que l’an dernier
- Les clients veulent de la concurrence entre fournisseurs, et les labs veulent davantage de market share qu’éliminer une application particulière
- On l’observe sur les marchés où les labs s’affrontent directement : dans le consumer chat, le meilleur modèle n’a jamais simplement gagné
- ChatGPT est resté en tête pendant des années en situation de concurrence réelle ; la part de marché qu’il perd aujourd’hui ne part pas vers un meilleur modèle, mais vers Gemini, porté par Android et Search
- Anthropic, perçu selon les prediction markets et l’ambiance générale d’internet comme le détenteur du meilleur modèle, pèse à peine dans le consumer chat et construit son activité dans l’enterprise et le coding
- Si, même dans les applications les plus centrales, un meilleur modèle ne parvient pas à prendre les utilisateurs d’un concurrent, alors il ne percera pas les dossiers hospitaliers ni la responsabilité bancaire simplement à coups d’intégration
Le droit de définir ce qu’est une bonne réponse
- Si personne à l’extérieur ne peut noter, alors quelqu’un à l’intérieur doit décider de ce qu’est une bonne réponse, et cette décision est tout le jeu
- Quand suffisamment de ces décisions s’accumulent et se documentent, elles deviennent un benchmark ; Harvey en a publié pour le juridique, Sierra pour les voice agents
- Le droit de définir ce qui est good dans un domaine s’obtient en devenant l’acteur déjà utilisé par ce domaine, et ces entreprises ont gagné ce droit au prix du combat réel de l’adoption
- Les évaluations qui séparent vraiment l’argent des autres restent privées et propres à chaque entreprise : qu’est-ce que cette entreprise considère comme un bon travail sur ce type de dossier ? Et la profondeur du droit dépasse tout test public, donc ce travail n’est jamais achevé
- Il ne s’agit pas de mesure, mais de jugement sur ce qui est vrai et ce qui est bon ; ce jugement est consigné puis devient standard, et aucun foundation lab, même très intelligent, ne peut l’écrire à la place des acteurs du domaine
- Cette position n’existe qu’à l’intérieur du domaine ; l’autorité se repose là où elle se trouvait déjà
- Les benchmarks juridiques sont définis par des avocats seniors, les réponses cliniques sûres par des médecins, et le sens de “resolved” par l’entreprise qui possède déjà la relation client
Une défense qu’il faut réévaluer sans fin
- À mesure qu’on rend davantage de travail mesurable, l’absorption frontier continue de monter, et tout ce qui devient mesurable se fait manger
- Le terrain untrainable rétrécit sous les pieds de ceux qui s’y trouvent ; impossible de s’installer confortablement, il faut se déplacer en permanence vers les zones pas encore notées et re-underwrite sans cesse
- En se spécialisant sur une tâche étroite, avec des données privées et ses propres evals, on peut s’entraîner jusqu’à la frontier et battre le modèle généraliste sur ce point ; ce modèle spécialisé devient alors une partie du moat
- À l’inverse, concurrencer un modèle généraliste revient à entrer dans une guerre du capital perdue face à celui qui possède le plus de compute — le piège des entreprises à accès superficiel et tâches faciles à lire
- Le jour où l’on décide que sa survie passe par l’entraînement d’un modèle capable de dépasser la frontier dans le généraliste, le gagnant sera décidé par la taille du datacenter, et l’issue ne sera pas un champion indépendant mais une vente au plus riche en compute
L’attaque la plus difficile : que construire ?
- Tout ce qui précède concerne la défense ; plus difficile encore est l’attaque initiale consistant à choisir quoi construire, une intuition qu’on ne trouve que trois fois par an peut-être
- Les modèles n’aident pas ici : ils font ce qu’on leur indique, mais ne disent pas ce qu’il vaut la peine d’indiquer, et comme cela ne se benchmarke pas, cela ne s’entraîne pas non plus
- C’est pourquoi les incumbents ne raflent pas tout ; la prochaine chose viendra de quelqu’un qui voit avant les autres à quoi cela peut servir
- Peut-être que l’intent est un input plus rare encore que le compute
Conclusion : une valeur avec une histoire
- Le pessimisme n’a raison qu’à moitié : la couche des thin wrappers est bien en train d’être absorbée, et beaucoup de ce qui ressemble aujourd’hui à des entreprises n’est effectivement qu’un thin wrapper
- Mais il se trompe sur ce que cette absorption laisse derrière elle : le mécanisme est clair, la destination finale ne l’est pas
- L’intelligence va continuer à devenir moins chère, et la valeur glisser vers le petit nombre d’endroits que les modèles ne peuvent pas atteindre ; ce sont les zones untrainable — relations, confiance, jugement accumulé — une « valeur avec une histoire » construite dans le temps et impossible à répliquer par entraînement
- Il ne faut donc pas chercher à posséder l’intelligence elle-même, mais entrer dans un domaine où la bonne réponse n’existe qu’à l’intérieur de ce domaine — get inside one
- Faire soi-même le travail peu glamour de traduction qui aligne la réalité privée d’une entreprise pour qu’un modèle puisse la traiter
- L’essentiel est de devenir l’acteur qui consigne ce qu’est une bonne réponse dans ce domaine et définit ainsi le standard, car cette place n’est pas vide : si vous ne la prenez pas, quelqu’un d’autre le fera
- Le score de benchmark le plus cité cette année n’est pas un trophée mais un avertissement : la carte d’un territoire bientôt sans valeur, et l’annonce que celui qui l’affiche perdra bientôt le droit de dire ce qu’est une bonne réponse
- Dès qu’une chose devient publiquement mesurable, elle devient un signal de commoditisation ; une notation publique peut être rattrapée par n’importe qui, et même le leader du classement perd alors le droit de définir le standard du good
Aucun commentaire pour le moment.