- Pour une startup IA, il est indispensable de vérifier le model-market fit (MMF) avant la product-market fit (PMF) : il s’agit de savoir si les capacités du modèle actuel peuvent réellement répondre aux besoins du marché
- Depuis la sortie de GPT-4, le marché de l’IA juridique a explosé ; depuis la sortie de Claude 3.5 Sonnet, les assistants de code sont devenus de véritables outils intégrés au workflow, deux exemples représentatifs d’un MMF atteint
- Dans des domaines comme les preuves mathématiques, l’analyse financière à haut risque ou la découverte autonome de médicaments, la demande du marché existe, mais le MMF est absent car les capacités des modèles n’ont pas franchi le seuil critique
- Si le Human-in-the-loop n’est pas un simple dispositif d’assistance, mais que l’humain doit exécuter le travail central au lieu de simplement le compléter, on peut considérer qu’il n’y a pas de MMF
- Le cœur d’une stratégie IA consiste à reconnaître la séquence MMF → PMF → succès et à juger avec lucidité quoi construire, et à quel moment
Le cadre de Marc Andreessen et une nouvelle variable
- En 2007, Marc Andreessen a publié un essai affirmant que, parmi les trois éléments d’une startup (équipe, produit, marché), c’est le marché qui compte le plus
- Un grand marché tire le produit hors de la startup, et le produit n’a pas besoin d’être excellent : il suffit qu’il fonctionne globalement
- Dix-neuf ans plus tard, une nouvelle variable est apparue : le modèle, qui détermine si le marché peut réellement tirer quelque chose
- Dans les startups IA, il existe une condition préalable au product-market fit : les capacités actuelles du modèle peuvent-elles accomplir ce que le marché demande ?
- Quand le MMF existe, le cadre d’Andreessen fonctionne et le marché tire le produit ; quand il n’existe pas, ni un excellent UX, ni une stratégie GTM, ni une grande qualité d’ingénierie ne suffisent à entraîner l’adoption client
Cas d’explosion du marché lorsque le MMF se débloque
-
IA juridique : GPT-4 (mars 2023)
- Avant GPT-4, la legal tech fondée sur l’IA échouait à passer à l’échelle, et les outils de revue documentaire exigeaient plus de supervision humaine qu’ils ne généraient d’économies
- Les anciens modèles transformer comme BERT étaient performants pour les tâches de classification comme le classement de documents ou l’identification de types de contrats, mais incapables d’assurer la génération et le raisonnement essentiels au travail juridique
- Ils pouvaient classer un contrat comme « emploi » ou « NDA », mais pas rédiger de manière cohérente une note expliquant pourquoi une clause de non-concurrence est inapplicable en droit californien
- Dans les 18 mois suivant la sortie de GPT-4, les startups de la Silicon Valley ont levé des centaines de millions de dollars, Thomson Reuters a racheté Casetext pour 650 millions de dollars, et des dizaines de startups d’IA juridique ont vu le jour
- En seulement 12 mois, le marché de l’IA juridique a fait émerger plus de licornes que pendant les dix années précédentes réunies
- La demande de marché n’avait pas changé ; la seule différence est que les capacités du modèle avaient franchi le seuil critique
-
Code : Claude 3.5 Sonnet (juin 2024)
- Les assistants de code comme GitHub Copilot existaient déjà, mais il y a une différence nette entre une autocomplétion parfois utile et une IA qui comprend réellement une base de code
- Avant Claude 3.5 Sonnet, l’usage de Cursor restait au niveau d’une démo intéressante et ne s’installait pas dans le workflow quotidien
- Après la sortie de Sonnet, il est devenu impossible de travailler sans Cursor au bout d’une semaine, avec l’impression de faire du pair programming avec une entité qui comprend l’ensemble du codebase
- Si la croissance de Cursor a été verticale, ce n’est pas à cause d’une innovation fonctionnelle, mais parce que le modèle sous-jacent avait franchi le seuil de l’usage réel
-
Analyse du schéma
- Le point clé est l’existence ou non du MMF ; les startups gagnantes ne sont pas toujours les premières, mais les équipes prêtes au moment où les capacités du modèle franchissent le seuil
- Ni dans le code ni dans le juridique, les acteurs historiques ne l’ont emporté ; ce sont toujours de nouveaux entrants qui ont pris le marché
- Les startups d’IA juridique aujourd’hui en tête avaient déjà accumulé pendant des mois une compréhension des flux de travail réels des avocats, des formats de sortie attendus, des exigences réglementaires et des méthodes de recherche des collaborateurs
- L’avantage revient non pas au précurseur, mais à celui qui atteint le PMF le plus vite une fois le MMF établi
Ce qui se passe quand le MMF n’existe pas
-
Preuves mathématiques
- Les mathématiciens veulent une IA capable de prouver de nouveaux théorèmes, et les instituts de recherche, les contractants de défense et les entreprises tech sont prêts à payer des millions pour un véritable raisonnement mathématique
- Pourtant, même les modèles les plus avancés n’y parviennent pas de manière cohérente et se limitent à vérifier des preuves connues, à assister des étapes mécaniques ou à fournir des intuitions sur des problèmes restreints
- La génération de nouvelles preuves sur des problèmes ouverts reste hors de portée ; malgré des améliorations graduelles avec GPT-5, o1, o3 et d’autres générations, on n’en est pas au stade où l’on peut attendre des preuves rigoureuses sur des conjectures ouvertes
-
Finance à haut risque
- Les banques d’investissement et les hedge funds veulent désespérément une IA capable d’effectuer une analyse financière complète, et une seule transaction réussie ou un deal de M&A peut générer des centaines de millions de dollars de commissions
- Mais sur les tâches centrales, l’IA affiche encore des performances étonnamment faibles
- Même les sorties Excel sont difficiles à juger fiables lorsqu’il s’agit de modèles financiers complexes
- Lire des documents de 200 pages et combiner analyse quantitative et intuition qualitative est l’un des plus grands obstacles pour l’IA
- Les analystes humains lisent les earnings calls, les dépôts réglementaires et les rapports sectoriels, puis les synthétisent dans des modèles sur tableur pour formuler un jugement d’investissement ; l’IA ne peut traiter qu’une partie de ce workflow
- Si l’humain reste dans la boucle, ce n’est pas seulement pour superviser, mais parce qu’il doit encore jouer le rôle de décideur principal
-
Écart de benchmark
- Les comparaisons de benchmark de Vals.ai montrent un écart spectaculaire entre les verticales où le MMF existe et celles où il n’existe pas
- LegalBench (tâches de raisonnement juridique) : le meilleur modèle atteint 87 % de précision, Gemini 3 Pro menant à 87,04 %, avec plusieurs modèles au-dessus de 85 %
- Un niveau production-ready où un avocat peut faire confiance à la sortie avec une revue légère
- Finance Agent (tâches centrales d’analyste financier) : meilleur score à 56,55 % de précision, GPT-5.1 dépassant de peu les 50 %, et Claude Sonnet 4.5 extended thinking à 55,32 %
- Avec près de 30 points d’écart, le MMF existe dans le juridique mais pas dans la finance
- On peut lancer aujourd’hui des produits d’IA juridique, mais un produit d’IA financière capable d’effectuer le vrai travail d’un analyste n’est pas encore possible, même si cela pourrait le devenir bientôt
-
Découverte autonome de médicaments
- L’industrie pharmaceutique investit des dizaines de milliards de dollars dans la découverte de médicaments par l’IA, et un seul médicament réussi peut valoir des dizaines de milliards
- L’IA contribue déjà à accélérer certaines étapes comme l’identification de molécules candidates, la prédiction de structure protéique (révolution d’AlphaFold) ou l’optimisation de protocoles d’essais cliniques
- Mais il n’existe toujours pas de découverte de médicament autonome de bout en bout capable de justifier les valorisations actuelles
- Si l’humain reste dans la boucle, ce n’est pas un choix de design du workflow, mais parce que l’IA ne sait pas encore faire le vrai travail
Comment identifier l’absence de MMF
- Le signal le plus fiable pour évaluer l’absence de MMF consiste à observer quel rôle joue le human-in-the-loop
- Quand le MMF existe, le human-in-the-loop est une fonction : il sert à maintenir la qualité, construire la confiance et gérer les edge cases
- L’IA fait le travail central, et l’humain supervise et approuve
- Quand le MMF n’existe pas, le human-in-the-loop devient une sorte de béquille, qui masque l’incapacité de l’IA à accomplir le travail principal
- L’humain n’est pas là pour être augmenté mais pour compenser, et si on retire l’humain, le produit cesse immédiatement de fonctionner
- Critère simple : si l’on retire toutes les corrections humaines de ce workflow, le client paierait-il quand même ?
- Si la réponse est non, alors il n’y a pas de MMF, et il ne reste qu’une démo
Dilemme stratégique : construire pour maintenant ou pour plus tard ?
-
Les arguments pour attendre
- Construire une startup quand le MMF n’existe pas encore revient à parier sur des améliorations de modèle présentes dans la roadmap d’autrui
- Il est impossible de contrôler quand cette capacité arrivera, et pendant qu’Anthropic ou OpenAI prennent leurs décisions, la runway continue de fondre
- Il est aussi possible de se tromper sur la capacité réellement nécessaire
- L’écart entre 80 % et 99 % de précision requis dans une verticale peut n’être comblé que dans cinq ans, voire ne jamais l’être de la manière envisagée
- Si l’on croit à l’AGI, on peut penser que les modèles finiront par presque tout faire ; mais la question clé n’est pas la possibilité, c’est le moment où cela arrivera
- Le vrai sujet n’est pas de savoir si l’IA peut résoudre le problème, mais si la startup peut survivre jusque-là, donc sa runway
-
Les arguments pour commencer tôt
- C’est un contre-argument souvent entendu chez Y Combinator, et il est convaincant
- Quand le MMF se débloque, il ne faut pas seulement les capacités du modèle
- des data pipelines spécialisés par domaine
- des relations avec les régulateurs
- la confiance client accumulée sur des années
- des workflows profondément intégrés
- une compréhension de la manière dont les experts travaillent réellement
- Les startups juridiques n’ont pas simplement branché GPT-4 : elles avaient déjà construit le scaffolding et étaient prêtes à exécuter dès l’arrivée du modèle
- Les équipes les plus proches du problème influencent directement les critères d’évaluation, les orientations de fine-tuning et les modes de déploiement des modèles
- Elles n’attendent pas passivement les capacités ; elles contribuent à définir ce que signifie la capacité dans leur verticale
-
La solution
- La vraie question n’est pas de savoir s’il faut commencer tôt, mais à quel point commencer tôt, et quoi construire pendant l’attente
- La zone la plus dangereuse est l’entre-deux
- quand le MMF semble à 24 à 36 mois
- assez proche pour donner l’impression d’être imminent, mais assez loin pour brûler plusieurs tours de financement
- Dans cette zone, la conviction et la runway déterminent tout
- Si l’on parie sur un MMF à plus de deux ans, il faut que le marché potentiel soit énorme
- La santé et les services financiers restent des marchés de l’ordre du trillion de dollars sur lesquels Anthropic et OpenAI misent à fond malgré des résultats encore contrastés
- Le potentiel de hausse est si important qu’un positionnement précoce peut se justifier
- La formule de décision est simple
valeur attendue = probabilité d’arrivée du MMF × taille du marché × part de marché attendue
Comment mesurer le MMF
- La product-market fit est réputée difficile à mesurer précisément, et Andreessen la décrivait en termes qualitatifs
- « On sent toujours quand le PMF n’est pas là, et quand il est là, on le sent aussi toujours »
- Le MMF reste lui aussi une notion fondamentalement intuitive, mais il peut être rendu plus concret par des critères plus clairs
-
Le test du MMF
- Question clé : si le modèle reçoit les mêmes entrées qu’un expert humain, peut-il produire une sortie pour laquelle le client est prêt à payer, sans corrections humaines substantielles ?
- Trois composantes
- 1. Les mêmes entrées
- Le modèle utilise comme entrée les mêmes documents, données et contexte que ceux fournis à l’humain
- Aucun prétraitement magique impossible à reproduire dans le vrai workflow n’est autorisé
- 2. Une sortie pour laquelle le client paie
- Pas une démo ni une preuve de concept, mais un résultat de qualité production qui résout un vrai problème
- 3. Sans corrections humaines substantielles
- Un humain peut relire, corriger ou approuver, mais s’il doit réécrire 50 % de la sortie, on ne peut pas vraiment dire que le modèle fait le travail
-
L’écart 80/99
- Dans les verticales non régulées, 80 % de précision peut parfois suffire
- Une IA qui rédige un brouillon de copy marketing peut créer de la valeur même si un humain le remanie fortement
- Dans les verticales régulées (finance, droit, santé), 80 % de précision est pratiquement inutilisable
- Un outil de revue de contrat qui rate 20 % des clauses critiques n’aide pas l’avocat : il crée de la responsabilité
- Un diagnostic médical faux une fois sur cinq n’est pas un produit, mais un risque contentieux
- L’écart entre 80 % et 99 % de précision est souvent proche de l’infini dans le travail réel
- C’est la différence décisive entre une « démo prometteuse » et un « système de production »
- Beaucoup de startups IA restent coincées dans cet écart, lèvent des fonds sur des démos et attendent les capacités qui permettront à leur produit de réellement fonctionner
Le seuil agentique
- Une deuxième frontière de capacité souvent oubliée dans les discussions sur le MMF est la capacité à travailler de manière autonome pendant de longues périodes
- Les cas où le MMF existe aujourd’hui (revue de documents juridiques, assistance au code) relèvent essentiellement de tâches à horizon court
- Un prompt en entrée, une sortie en résultat, quelques appels d’outils, et un résultat utile en secondes ou en minutes
- Mais les formes de travail intellectuel les plus précieuses ne fonctionnent pas ainsi
- Un analyste financier ne répond pas à une seule question : il construit un modèle sur plusieurs jours, teste ses hypothèses et synthétise des informations issues de dizaines de sources
- Un consultant en stratégie ne fabrique pas une seule slide : il enchaîne des semaines de recherche, d’entretiens et d’analyses
- Un chercheur en découverte de médicaments ne mène pas une seule expérience : il conçoit et exécute des campagnes sur plusieurs mois
- Ces workflows exigent des capacités que les modèles ne maîtrisent pas encore de manière fiable, au premier rang desquelles une autonomie durable
- Le seuil agentique n’est pas seulement une question de « savoir utiliser des outils »
- Persistance : peut-il conserver un objectif et un contexte pendant des heures ou des jours ?
- Récupération : peut-il reconnaître un échec, en diagnostiquer la cause, puis essayer une autre approche ?
- Coordination : peut-il décomposer un objectif complexe en sous-tâches et les exécuter séquentiellement ?
- Jugement : peut-il distinguer les moments où il faut continuer de ceux où il faut s’arrêter et demander une instruction humaine ?
- Les agents d’aujourd’hui peuvent gérer des tâches à l’échelle de la minute, mais la prochaine étape exigera des agents capables d’assumer des tâches à l’échelle du jour
- Ce n’est pas une simple amélioration incrémentale de performance, mais un changement de phase des capacités elles-mêmes
- Voilà pourquoi la finance n’a pas de MMF malgré de bonnes performances sur la lecture de documents
- Lire un 10-K est une tâche de 30 secondes, mais élaborer une thèse d’investissement est un workflow qui s’étend sur plusieurs jours
- Il faut maintenir un raisonnement cohérent sur toute la chaîne : collecte de données, construction du modèle, tests de scénarios, synthèse des conclusions
- La prochaine vague de déblocage du MMF viendra non seulement de modèles plus intelligents, mais de modèles capables d’exécuter de manière autonome un même travail pendant plusieurs jours
Points structurels essentiels
- L’intuition centrale d’Andreessen est que le marché compte plus que l’équipe ou le produit parce qu’un grand marché tire le produit hors de la startup
- En IA, la conséquence inévitable est que la condition préalable à cette force gravitationnelle, ce sont les capacités du modèle
- Même un marché immense et avide ne peut pas tirer un produit qui ne fonctionne pas
- En IA, la définition de « ne fonctionne pas » dépend non pas de l’ingénierie ou du design, mais du modèle lui-même
- On peut avoir la plus belle interface, le workflow le plus élégant et le data pipeline le plus sophistiqué : si le modèle sous-jacent n’accomplit pas la tâche centrale, tout cela ne sert à rien
- Si l’on saute l’ordre MMF → PMF → succès, la deuxième étape devient impossible
- Pour les fondateurs, cela signifie qu’il faut être d’une honnêteté impitoyable sur ce que les capacités permettent réellement aujourd’hui, et sur ce qu’on aimerait qu’elles permettent
- Pour les investisseurs, cela signifie qu’il faut évaluer non seulement la taille du marché et la qualité de l’équipe, mais aussi l’écart entre les capacités actuelles du modèle et les exigences du marché
- Pour tous ceux qui construisent dans l’IA, la vraie question n’est pas de savoir si le marché le veut, mais si le modèle peut effectivement le fournir
- C’est la seule chose qui compte
Aucun commentaire pour le moment.