Au-delà de l’AI MVP : ce qu’il faut vraiment

winterjung · 2025-04-03T12:56:26+09:00

La plupart des entreprises qui développent des produits IA restent bloquées au stade de l’expérimentation et manquent de systèmes et d’outils fiables Notre cas En début d’année, nous avons mis à jour le modèle LLM de gpt-4o-2024-08-06 vers gpt-4o-2024-11-20 Le taux de réussite de nos tests de prompts critiques est tombé de 100 % à 79 % Pendant ce temps, Sonnet 3.5 d’Anthropic affichait un taux de réussite de 95 % Beaucoup d’entreprises IA parlent trop facilement du passage d’un fournisseur à l’autre Cela va bien au-delà du simple fait de tester l’IA Construire une infrastructure de test pour mesurer les performances d’un modèle et quantifier l’impact des changements de modèle n’est pas si simple Ce que nous avons mis en place pour quantifier cela Au moins 30 scénarios de test uniques Du code pour comparer les sorties attendues des prompts avec les sorties réelles Le test runner lui-même Une stratégie permettant d’exécuter les tests dans la CI à un coût raisonnable Le piège de l’AI MVP dans lequel tombent la plupart des équipes Étape 1. MVP trompeur : une démo qui semble prête en quelques jours à peine. Mais elle commence vite à faire des erreurs élémentaires Étape 2. ±0 : on essaie de l’améliorer, mais cela devient seulement de plus en plus complexe et imprévisible. 90 % de la plupart des entreprises en sont là Étape 3. Science : c’est à ce moment qu’on comprend qu’il faut des tests d’évaluation, des outils d’observabilité, etc., et qu’on commence à les construire Étape 4. Ça fonctionne vraiment : on dispose enfin d’une supervision continue, d’un ensemble complet de tests d’évaluation et d’outils d’analyse rapides Rien de tout cela n’est facile, simple ou sans difficulté Beaucoup d’entreprises restent coincées dans la phase de MVP chaotique sans même comprendre les performances des fonctionnalités IA qu’elles ont lancées Vendre un produit IA en affirmant que « tout ce qu’il faut, c’est juste X » simplifie beaucoup trop la réalité Quand quelqu’un dit qu’il construit une stratégie IA multi-fournisseurs, demandez-lui comment il mesure et évalue cela

(blog.lawrencejones.dev)

16 points par winterjung 2025-04-03 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La plupart des entreprises qui développent des produits IA restent bloquées au stade de l’expérimentation et manquent de systèmes et d’outils fiables
Notre cas
- En début d’année, nous avons mis à jour le modèle LLM de gpt-4o-2024-08-06 vers gpt-4o-2024-11-20
- Le taux de réussite de nos tests de prompts critiques est tombé de 100 % à 79 %
- Pendant ce temps, Sonnet 3.5 d’Anthropic affichait un taux de réussite de 95 %
Beaucoup d’entreprises IA parlent trop facilement du passage d’un fournisseur à l’autre
- Cela va bien au-delà du simple fait de tester l’IA
- Construire une infrastructure de test pour mesurer les performances d’un modèle et quantifier l’impact des changements de modèle n’est pas si simple
Ce que nous avons mis en place pour quantifier cela
- Au moins 30 scénarios de test uniques
- Du code pour comparer les sorties attendues des prompts avec les sorties réelles
- Le test runner lui-même
- Une stratégie permettant d’exécuter les tests dans la CI à un coût raisonnable
Le piège de l’AI MVP dans lequel tombent la plupart des équipes
- Étape 1. MVP trompeur : une démo qui semble prête en quelques jours à peine. Mais elle commence vite à faire des erreurs élémentaires
- Étape 2. ±0 : on essaie de l’améliorer, mais cela devient seulement de plus en plus complexe et imprévisible. 90 % de la plupart des entreprises en sont là
- Étape 3. Science : c’est à ce moment qu’on comprend qu’il faut des tests d’évaluation, des outils d’observabilité, etc., et qu’on commence à les construire
- Étape 4. Ça fonctionne vraiment : on dispose enfin d’une supervision continue, d’un ensemble complet de tests d’évaluation et d’outils d’analyse rapides
Rien de tout cela n’est facile, simple ou sans difficulté
- Beaucoup d’entreprises restent coincées dans la phase de MVP chaotique sans même comprendre les performances des fonctionnalités IA qu’elles ont lancées
- Vendre un produit IA en affirmant que « tout ce qu’il faut, c’est juste X » simplifie beaucoup trop la réalité
- Quand quelqu’un dit qu’il construit une stratégie IA multi-fournisseurs, demandez-lui comment il mesure et évalue cela

Au-delà de l’AI MVP : ce qu’il faut vraiment

À lire aussi

Aucun commentaire pour le moment.