9 points par GN⁺ 2025-04-02 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Beaucoup d’équipes IA se concentrent uniquement sur le choix des outils et négligent l’essentiel : la mesure de l’efficacité et l’apprentissage itératif
  • En s’appuyant sur son expérience à aider à construire plus de 30 produits d’IA, l’auteur présente les modes d’exécution communs aux équipes qui réussissent
  • Le point clé est un état d’esprit centré sur la mesure et la construction d’une feuille de route fondée sur l’expérimentation

1. L’erreur la plus fréquente : sauter l’analyse des erreurs

  • La plupart des équipes IA sont obsédées par la conception de l’architecture ou du framework, sans réellement mesurer l’efficacité
  • Les indicateurs de tableau de bord génériques ne sont d’aucune aide
    • obsession pour des « vanity metrics » sans signification
    • trop d’indicateurs dispersent l’attention de l’équipe
  • L’analyse des erreurs est l’activité au ROI le plus élevé
    • consulter les journaux de conversations réelles
    • classer les types d’échec
    • écrire des tests sur ces problèmes et mesurer les améliorations
  • Cas NurtureBoss :
    • correction d’erreurs de traitement des dates
    • précision améliorée de 33 % à 95 %
  • Une analyse bottom-up est plus efficace qu’une analyse top-down
    • dégager des schémas d’échec à partir de données réelles
    • même un simple tableau croisé dynamique peut apporter de grands enseignements

2. L’investissement IA le plus important : un simple visualiseur de données

  • L’outil le plus important est celui qui permet à l’équipe de voir facilement les sorties réelles de l’IA
    • une interface sur mesure adaptée au domaine est plus efficace qu’un outil open source générique
    • NurtureBoss rend l’amélioration itérative rapide possible grâce à son propre visualiseur de données
  • Les qualités d’un bon visualiseur :
    • afficher tout le contexte sur un seul écran
    • faciliter la collecte de feedback
    • permettre des annotations ouvertes
    • offrir un filtrage et un tri rapides
    • améliorer le confort d’usage grâce aux raccourcis clavier
  • Il est possible d’en construire un en quelques heures avec FastHTML, MonsterUI, etc.
    • on peut aussi très bien commencer avec un simple tableur

3. Donner aux experts métier la main sur les prompts

  • L’amélioration des performances d’un système d’IA est souvent plus efficace quand elle est pilotée par des experts qui ne maîtrisent pas forcément bien l’IA
  • Les prompts sont des phrases en anglais, donc même des non-spécialistes peuvent les rédiger
  • Si l’on fournit un environnement de prompts intégré sous forme de « mode administrateur » dans l’interface du produit, on optimise l’apprentissage itératif
  • Conseils de communication avec les experts métier :
    • supprimer le jargon technique inutile
    • ex. : « approche RAG » → « récupérer le contexte nécessaire pour que l’IA puisse répondre à la question »
    • pourquoi un langage précis est important dans la communication interne

4. Possible même sans utilisateurs : amorcer avec des données synthétiques

  • Il est possible d’évaluer une IA même sans données utilisateurs
    • un LLM peut générer des données synthétiques
  • Trois dimensions pour des données synthétiques efficaces :
    • fonctionnalité (ex. : recherche immobilière, réservation, etc.)
    • scénario (ex. : aucune correspondance, correspondances multiples, etc.)
    • persona (ex. : primo-accédant, investisseur, etc.)
  • Exemple d’un projet immobilier réel :
    • structurer la base de données par scénario afin de générer des requêtes synthétiques
    • le LLM génère des questions utilisateurs et teste le système
  • Guide pour rédiger des données synthétiques :
    • générer des exemples variés
    • se concentrer sur les données d’entrée
    • refléter les contraintes du système
    • valider la pertinence des scénarios de test
    • partir de cas simples puis élargir progressivement

5. Maintenir la confiance dans le système d’évaluation

  • Beaucoup d’équipes construisent un système d’évaluation puis finissent par l’ignorer faute de confiance
  • Il est courant que les critères d’évaluation dérivent avec le temps (criteria drift)
  • Approches pour maintenir la confiance :
    • privilégier une évaluation binaire (pass/fail) pour garantir clarté et cohérence
    • ajouter des critiques détaillées afin d’apporter un contexte qualitatif
    • mesurer l’alignement entre évaluation automatique et évaluation humaine
      • ex. : dans le projet Honeycomb, après 3 itérations, l’évaluation du LLM a atteint plus de 90 % de concordance avec l’évaluation humaine
      • l’outil AlignEval d’Eugene Yan peut être utilisé
  • Stratégie de passage à l’échelle :
    • ne pas supprimer complètement l’évaluation humaine, mais la concentrer sur les échantillons les plus riches en information
    • comparer régulièrement évaluation automatique et jugement humain pour réajuster les critères

6. Une feuille de route IA centrée sur les expériences, pas sur les fonctionnalités

  • La « feuille de route centrée sur les fonctionnalités » traditionnelle n’est pas adaptée à l’IA
  • Bryan Bischof, ancien responsable IA de Hex, propose l’approche du « capability funnel »
    • ex. : le funnel d’un assistant de requêtes
      1. correspond uniquement à la syntaxe de la requête
      2. peut s’exécuter sans erreur
      3. renvoie des résultats pertinents
      4. correspond à l’intention
      5. résout complètement le problème
  • Gestion du planning fondée sur l’expérimentation selon Eugene Yan :
    • examen de la faisabilité des données → examen de la faisabilité technique → création d’un prototype → test A/B
    • partager les résultats des expériences avec la direction et, s’il n’y a pas de perspective, décider d’un pivot dès les premières étapes
  • Créer une culture du partage des échecs :
    • au sein de l’équipe, partager l’idée que « l’échec est aussi un résultat »
    • instaurer un environnement qui encourage l’itération et l’expérimentation

Conclusion et principes clés

  • Les équipes IA qui réussissent se concentrent sur la mesure, l’itération et l’apprentissage plutôt que sur des outils complexes
  • 6 principes à mettre en pratique :
    1. Vérifier directement les données et mener une analyse des erreurs
    2. Créer des outils simples et efficaces pour soutenir l’apprentissage itératif
    3. Encourager et habiliter la participation des experts métier
    4. Amorcer le système d’évaluation initial avec des données synthétiques
    5. Maintenir la confiance avec une évaluation binaire + critiques + vérification d’alignement
    6. Piloter la feuille de route selon le nombre d’expériences plutôt que selon les fonctionnalités

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.