Décisions et dollars : comment une entreprise peut survivre à la question « Et si Anthropic construisait ça ? »

(writing.nikunjk.com)

4 points par GN⁺ 3 시간 전 | 2 commentaires | Partager sur WhatsApp

À mesure que les modèles d’IA deviennent plus puissants, la valeur du logiciel lui-même diminue ; les éditeurs d’applications qui veulent survivre doivent se transformer simultanément en entreprises de données et en fintechs
Avec les agents devenant les principaux utilisateurs des logiciels, le modèle de tarification per-seat s’effondre : si mille personnes font tourner cent mille agents, cela ne fait pas cent mille sièges ; seuls restent facturables les décisions que les agents laissent derrière eux (données) et l’argent qu’ils déplacent (fintech)
Les modèles frontier sont comme des groupes de génies qui ne savent pas comment fonctionne une entreprise ; le véritable moat est le jugement tacite (judgment) des personnes, et l’historique des corrections (corrections) apportées par les utilisateurs aux résultats des modèles sert à la fois de signal d’apprentissage et de jeu de test
Si l’argent ne circule pas à travers les données, ce n’est qu’un projet scientifique ; seules les fintechs dotées d’un réseau et d’un lock-in, comme Toast, Ramp ou Shopify, peuvent préserver leurs marges alors même que les prix des modèles baissent
L’accumulation du jugement, la maîtrise des flux d’argent et la défense des écritures (writes) sont la seule façon de rester une entreprise irremplaçable, même si un Lab voit tous les tokens

Progrès des modèles et baisse de la valeur du logiciel

Claude Fable 5 est sorti hier : c’est le premier modèle de classe Mythos accessible au grand public, numéro un sur presque tous les benchmarks, avec un écart qui se creuse à mesure que les tâches s’allongent
- Plus le modèle est intelligent, plus la valeur du logiciel lui-même baisse
Toute société d’applications financée par le capital-risque doit désormais être une entreprise de données ou une fintech — idéalement les deux

Le changement dans l’identité de ceux qui utilisent les logiciels

Dans un article publié il y a deux ans, l’auteur soulignait que lorsque les agents deviendraient les utilisateurs, le modèle de tarification per-seat se briserait ; il semble que cette ligne ait été franchie
- Cloudflare a annoncé que le trafic des agents avait pour la première fois dépassé le trafic humain
- Il existe des débats en ligne, mais la tendance selon laquelle les agents deviennent les principaux clients de tous les logiciels est claire
Mille employés qui font tourner cent mille agents, ce n’est pas cent mille sièges
Les deux choses facturables qu’un agent laisse derrière lui sont les décisions (= données) qu’il prend et l’argent (= fintech) qu’il déplace

Décisions (Decisions) — le moat des données

xAI détient une option pour acquérir Cursor pour 60 milliards de dollars ; Cursor génère environ 4 milliards de dollars de revenus annualisés
- Ce n’est pas la principale raison pour laquelle le logiciel vaut si cher
- Anthropic et OpenAI observent déjà le travail des développeurs en temps réel via Claude Code et Codex
- Si xAI achète Cursor, c’est pour entrer le plus vite possible dans le flux de tokens (token flow)
- Musk (le premier trillionnaire du monde) a indiqué que les traces d’un million de développeurs utilisant réellement le modèle alimentent directement l’entraînement de Grok ; le prix élevé est un péage payé pour éviter des années de collecte lente de données
Dans les semaines qui ont suivi le lancement de Cursor, des clones fonctionnels sont apparus, mais aucun ne s’est imposé, car la compétition se jouait sur le goût (taste)
- Des milliers de petits jugements sur quoi montrer et quand disparaître
- Les clones ne copient que l’interface ; ils ne peuvent pas hériter de l’historique des acceptations, rejets et réécritures des développeurs sur plusieurs années
- Cursor entraîne désormais ses propres modèles avec ces diffs ; les données deviennent son moat de premier ordre
La raison d’une valorisation de 60 milliards de dollars : c’est comme remplacer 90 % des employés par une équipe de génies qui ne savent absolument pas comment fonctionne l’entreprise
- Fable 5 résout 80 % de tâches logicielles réelles que les meilleurs modèles de l’an dernier ne parvenaient qu’à moitié à traiter ; les génies sont difficiles à distinguer les uns des autres et interchangeables
- La seule raison pour laquelle ils échouent : personne ne sait ce que savaient les personnes remplacées

Savoir tacite (tacit knowledge) et accumulation du jugement

La solution provisoire consiste à extraire les connaissances de la tête des personnes et à les fournir au modèle comme contexte, mais la plupart n’existent pas sous forme structurée
- La transaction abandonnée, la ligne de code revertée à 2 heures du matin, le client que personne n’a relancé et dont la raison n’a pas été consignée — voilà le vrai cœur du sujet
- C’est un jugement impossible à consigner sous forme de workflow, et il n’est actuellement pas stocké
On passe désormais de context → harness → judgment
- Le context, c’est la recherche (retrieval), le fait de placer les bons fragments devant le modèle
- Le harness, c’est la boucle dans laquelle le modèle peut tourner (scaffolding)
- Le judgment est la dernière couche et la seule qui se compose avec le temps ; c’est ce que chaque appel, correction et rollback laisse sur les données
Dans presque tous les pitchs d’applications IA que l’on voit aujourd’hui, la slide sur le context est présentée comme un moat, mais ce n’est désormais que le minimum requis
- Parce que tous les concurrents assemblent le contexte de la même manière

Les deux rôles de l’historique des corrections (corrections)

Les corrections peuvent être vues comme une scorecard : chaque fois qu’un utilisateur corrige le résultat d’un modèle, il enregistre ce qui est juste dans cette activité
La scorecard remplit deux fonctions à la fois
- Un signal d’apprentissage qui ajuste le modèle emprunté à l’activité concernée
- Un jeu de test, seul moyen de savoir si l’agent s’améliore réellement ; les benchmarks publics ne mesurent pas des workflows spécifiques
Il n’est pas nécessaire de préentraîner un modèle dès le départ ; même Cursor ne le fait pas
- Le modèle propre de Cursor repose sur une base open source, et les diffs assurent la différenciation
- Le fine-tuning et la RL par-dessus les modèles frontier sont devenus suffisamment bon marché pour qu’une entreprise en Series B puisse exécuter cette boucle ; il y a deux ans, il fallait un lab
Sarah Guo appelle ce domaine the untrainable : les tâches dont les réponses ne peuvent pas être évaluées de l’extérieur ; les corrections sont la façon d’en prendre possession

Exemples des leaders de l’IA verticale

Harvey vaut 11 milliards de dollars, Legora a dépassé les 5 milliards, et tous deux ciblent le marché juridique
- Ils dépassent les outils autonomes pour foncer vers la possession de l’ensemble d’un dossier (matter), car les corrections apportées par les avocats aux brouillons sont des corrections que personne d’autre ne voit
Rogo applique la même stratégie dans la finance, en capturant le processus par lequel les analystes construisent des modèles et corrigent des mémos
Aucun d’entre eux n’entraîne de foundation model ; ils construisent un harness autour de modèles empruntés et possèdent le judgment qui y circule — c’est cela qui se compose avec le temps
Les acteurs établis sont dans la même situation
- Figma possède plus que des SVG : l’historique du passage d’un design de v1 à v47 et toutes les versions abandonnées en chemin — un historique noté du goût en design
- Linear possède les discussions sous chaque ticket fermé
- Notion possède la forme de la pensée d’une équipe à travers mille éditions
- Même si un concurrent tente de débaucher un client, tout cela n’est pas exportable ; ce sont des réponses absentes des modèles génériques

Les Labs achètent du jugement

Les Labs achètent du jugement prêt à l’emploi, en commençant par des données étiquetées par des humains
- Mercor est valorisée 10 milliards de dollars et paie son réseau d’experts 85 dollars de l’heure
- Meta a payé 14 milliards de dollars pour Scale afin de posséder le pipeline
- Une startup new-yorkaise nettoie des appartements gratuitement si on la laisse filmer tout le processus, car son équipe robotique doit voir comment les humains décident de l’action suivante
- De nombreuses entreprises de RL environments vendent du jugement sur des tâches longues et atteignent des centaines de millions de dollars de revenus annualisés
Les Labs ont appris sur l’ensemble d’Internet jusqu’à épuisement, et achètent désormais directement des décisions

Dollars (Dollars) — le moat de la fintech

23andMe détenait l’ADN de 15 millions de personnes et a pourtant fait faillite l’an dernier
- Si l’argent ne circule pas dans les données, cela revient seulement à attendre le financement d’un projet scientifique
- La plupart des fondateurs passent à côté de cette moitié du problème
Toast l’a compris il y a des années : un restaurant est essentiellement un processeur de paiement avec une cuisine attachée
- Les paiements génèrent beaucoup plus de revenus que le logiciel
Ramp va encore plus loin : une carte d’entreprise gratuite, sans frais nulle part, mais qui prélève 1 à 2 cents sur chaque dollar quand un milliard de dollars transite
- Une entreprise à 32 milliards de dollars bâtie sur une erreur d’arrondi ; la carte gratuite est la porte d’entrée vers l’interchange
- Les swipe fees se maintiennent parce que le réseau les soutient, et l’argent produit aussi des revenus en accumulant du float pendant qu’il reste en transit
Tous les compteurs d’argent ne disposent pas d’un moat
- Une application populaire de vibe-coding réalise environ 50 % de marge sur les crédits qu’elle vend ; la plupart de ses revenus annualisés proviennent d’une majoration sur l’inference
- Derrière une majoration sur les tokens, il n’y a pas de réseau, et ses propres coûts d’inference baissent chaque trimestre ; à mesure que les modèles deviennent moins chers, la marge fond
- Une fintech durable repose sur du lock-in : des paiements soutenus par un réseau, des prêts garantis par des données que les banques ne voient pas

Infrastructure de paiement pour agents

L’infrastructure de paiement pour agents se met enfin en marche
- Quand un agent réserve un billet d’avion, commande des pièces ou paie un fournisseur, quelque chose doit approuver la dépense, la transporter et prélever une commission
- Stripe a lancé un protocole à cet effet, tandis que Visa et Mastercard se disputent la préemption des standards
- OpenAI prélève déjà quelques pourcents sur chaque achat effectué par ses agents
- Les transactions d’un trillion d’agents sont en passe de devenir la plus grande économie de paiement de l’histoire

Transformer l’un en l’autre

Les meilleures sociétés d’applications qui durent ne traitent pas ces deux moitiés séparément
- Le judgment est l’historique des décisions sur le travail ; la fintech est l’historique des décisions sur l’argent ; les entreprises solides transforment l’un en l’autre
Shopify en est le meilleur exemple
- Départ comme logiciel de boutique → ajout des paiements → avec Shopify Capital, prêts garantis par les données de revenus qui transitent dans les boutiques, des prêts qu’une banque seule ne pourrait pas accorder
- Quand un marchand grandit, ses revenus augmentent et les données facilitent le prêt suivant
- Aujourd’hui, environ les trois quarts des revenus de Shopify proviennent du côté argent, et non des abonnements logiciels
- Stripe opère la même boucle avec Radar, Ramp avec les données de dépenses et les cartes
Rippling tente quelque chose de similaire, avec l’employé comme objet central
- Paie, avantages, appareils et cartes reposent sur une source of truth unique
- Personne n’a encore verrouillé ce marché, et Gusto comme Deel continuent de croître en parallèle, mais l’entreprise qui possède l’objet compose avec le temps tandis que les autres assemblent à la main

Défendre les écritures (Guard the writes)

Il existe une tension « headless » que personne n’a résolue
- Si tous les logiciels finissent par être utilisés par des agents, il faut laisser entrer les agents pour rester utile, mais on ne peut pas les laisser tout emporter si l’on veut survivre
- Tout system of record doit être assez ouvert pour qu’un agent puisse s’y connecter via n’importe quel protocole, tout en étant assez fermé pour qu’une fois le nécessaire obtenu, personne ne puisse partir
- Salesforce a bloqué cette année les données Slack vis-à-vis de Glean et d’agents externes, premier cas public de ce type
La voie pour bâtir une entreprise durable est la séparation
- Autoriser les agents à lire ; la lecture est peu coûteuse et importante de toute façon
- Défendre les écritures
Le point où un nouveau jugement est saisi, où humains et agents s’approuvent, se corrigent et reviennent en arrière mutuellement, est la partie qu’un concurrent ne peut pas facilement déplacer
- Ce qu’ils scrappent, c’est l’état d’hier ; seules les décisions prises maintenant restent à soi

« Et si Anthropic construisait ça ? »

On peut objecter que les Labs sont déjà dans le flux de tokens, alors où est le moat ?
- Claude Code voit chaque commande exécutée par les développeurs et chaque suggestion ignorée, et ChatGPT observe en une journée plus de décisions qu’un produit n’en enregistre en un an
Réponse à cette objection : ce que leurs outils voient est principalement générique
- Le même code et la même rédaction que tous les modèles voient, précisément ce que les labs cherchent à commoditiser les uns contre les autres
- Le jugement rare existe en profondeur dans une entreprise : la façon dont un hôpital lit les scans, les transactions dont une société a appris à se détourner ; rien de tout cela n’atteint la boîte de chat d’un lab
Depuis des années, les Labs disent aux entreprises qu’ils n’entraînent pas leurs modèles sur leurs données
- Le savoir tacite qui passe par le modèle dans le produit reste contractuellement la propriété de l’entreprise ; ils voient la trace passer mais ont convenu de ne pas la conserver
La moitié fintech n’est même pas quelque chose que les labs veulent
- Les labs prennent volontiers les données, mais un loan book, des pertes de fraude ou des licences de money transmitter dans 40 États ne leur servent à rien
- Pour un acquéreur, les données créent la valeur d’acquisition ; la fintech rend difficile de les séparer
Cursor a construit le meilleur moteur de données de sa catégorie, et un lab l’a acquis pour 60 milliards de dollars
- On ne sait pas si c’est un rêve ou un avertissement avant qu’il ne soit trop tard pour changer
- Construire les deux choses qui survivent : accumuler le jugement et s’asseoir au carrefour de l’argent ; c’est ainsi qu’on résiste à la question « Et si Anthropic construisait ça ? »

2 commentaires

heim2 21 분 전

Ça a l’air plausible, mais c’est difficile à comprendre.

somang04 2 시간 전

L’accumulation du jugement, la maîtrise des flux d’argent et la défense des écritures (writes) seraient la seule façon de rester une entreprise irremplaçable même si le lab voit tous les tokens -> le sens de cette phrase est un peu ambigu ; serait-il possible de l’expliquer davantage ?