16 points par winterjung 2025-04-03 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • La plupart des entreprises qui développent des produits IA restent bloquées au stade de l’expérimentation et manquent de systèmes et d’outils fiables
  • Notre cas
    • En début d’année, nous avons mis à jour le modèle LLM de gpt-4o-2024-08-06 vers gpt-4o-2024-11-20
    • Le taux de réussite de nos tests de prompts critiques est tombé de 100 % à 79 %
    • Pendant ce temps, Sonnet 3.5 d’Anthropic affichait un taux de réussite de 95 %
  • Beaucoup d’entreprises IA parlent trop facilement du passage d’un fournisseur à l’autre
    • Cela va bien au-delà du simple fait de tester l’IA
    • Construire une infrastructure de test pour mesurer les performances d’un modèle et quantifier l’impact des changements de modèle n’est pas si simple
  • Ce que nous avons mis en place pour quantifier cela
    • Au moins 30 scénarios de test uniques
    • Du code pour comparer les sorties attendues des prompts avec les sorties réelles
    • Le test runner lui-même
    • Une stratégie permettant d’exécuter les tests dans la CI à un coût raisonnable
  • Le piège de l’AI MVP dans lequel tombent la plupart des équipes
    • Étape 1. MVP trompeur : une démo qui semble prête en quelques jours à peine. Mais elle commence vite à faire des erreurs élémentaires
    • Étape 2. ±0 : on essaie de l’améliorer, mais cela devient seulement de plus en plus complexe et imprévisible. 90 % de la plupart des entreprises en sont là
    • Étape 3. Science : c’est à ce moment qu’on comprend qu’il faut des tests d’évaluation, des outils d’observabilité, etc., et qu’on commence à les construire
    • Étape 4. Ça fonctionne vraiment : on dispose enfin d’une supervision continue, d’un ensemble complet de tests d’évaluation et d’outils d’analyse rapides
  • Rien de tout cela n’est facile, simple ou sans difficulté
    • Beaucoup d’entreprises restent coincées dans la phase de MVP chaotique sans même comprendre les performances des fonctionnalités IA qu’elles ont lancées
    • Vendre un produit IA en affirmant que « tout ce qu’il faut, c’est juste X » simplifie beaucoup trop la réalité
    • Quand quelqu’un dit qu’il construit une stratégie IA multi-fournisseurs, demandez-lui comment il mesure et évalue cela

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.