- La plupart des entreprises qui développent des produits IA restent bloquées au stade de l’expérimentation et manquent de systèmes et d’outils fiables
- Notre cas
- En début d’année, nous avons mis à jour le modèle LLM de
gpt-4o-2024-08-06 vers gpt-4o-2024-11-20
- Le taux de réussite de nos tests de prompts critiques est tombé de 100 % à 79 %
- Pendant ce temps, Sonnet 3.5 d’Anthropic affichait un taux de réussite de 95 %
- Beaucoup d’entreprises IA parlent trop facilement du passage d’un fournisseur à l’autre
- Cela va bien au-delà du simple fait de tester l’IA
- Construire une infrastructure de test pour mesurer les performances d’un modèle et quantifier l’impact des changements de modèle n’est pas si simple
- Ce que nous avons mis en place pour quantifier cela
- Au moins 30 scénarios de test uniques
- Du code pour comparer les sorties attendues des prompts avec les sorties réelles
- Le test runner lui-même
- Une stratégie permettant d’exécuter les tests dans la CI à un coût raisonnable
- Le piège de l’AI MVP dans lequel tombent la plupart des équipes
- Étape 1. MVP trompeur : une démo qui semble prête en quelques jours à peine. Mais elle commence vite à faire des erreurs élémentaires
- Étape 2. ±0 : on essaie de l’améliorer, mais cela devient seulement de plus en plus complexe et imprévisible. 90 % de la plupart des entreprises en sont là
- Étape 3. Science : c’est à ce moment qu’on comprend qu’il faut des tests d’évaluation, des outils d’observabilité, etc., et qu’on commence à les construire
- Étape 4. Ça fonctionne vraiment : on dispose enfin d’une supervision continue, d’un ensemble complet de tests d’évaluation et d’outils d’analyse rapides
- Rien de tout cela n’est facile, simple ou sans difficulté
- Beaucoup d’entreprises restent coincées dans la phase de MVP chaotique sans même comprendre les performances des fonctionnalités IA qu’elles ont lancées
- Vendre un produit IA en affirmant que « tout ce qu’il faut, c’est juste X » simplifie beaucoup trop la réalité
- Quand quelqu’un dit qu’il construit une stratégie IA multi-fournisseurs, demandez-lui comment il mesure et évalue cela
Aucun commentaire pour le moment.