- Beaucoup d’équipes IA se concentrent uniquement sur le choix des outils et négligent l’essentiel : la mesure de l’efficacité et l’apprentissage itératif
- En s’appuyant sur son expérience à aider à construire plus de 30 produits d’IA, l’auteur présente les modes d’exécution communs aux équipes qui réussissent
- Le point clé est un état d’esprit centré sur la mesure et la construction d’une feuille de route fondée sur l’expérimentation
1. L’erreur la plus fréquente : sauter l’analyse des erreurs
- La plupart des équipes IA sont obsédées par la conception de l’architecture ou du framework, sans réellement mesurer l’efficacité
- Les indicateurs de tableau de bord génériques ne sont d’aucune aide
- obsession pour des « vanity metrics » sans signification
- trop d’indicateurs dispersent l’attention de l’équipe
- L’analyse des erreurs est l’activité au ROI le plus élevé
- consulter les journaux de conversations réelles
- classer les types d’échec
- écrire des tests sur ces problèmes et mesurer les améliorations
- Cas NurtureBoss :
- correction d’erreurs de traitement des dates
- précision améliorée de 33 % à 95 %
- Une analyse bottom-up est plus efficace qu’une analyse top-down
- dégager des schémas d’échec à partir de données réelles
- même un simple tableau croisé dynamique peut apporter de grands enseignements
2. L’investissement IA le plus important : un simple visualiseur de données
- L’outil le plus important est celui qui permet à l’équipe de voir facilement les sorties réelles de l’IA
- une interface sur mesure adaptée au domaine est plus efficace qu’un outil open source générique
- NurtureBoss rend l’amélioration itérative rapide possible grâce à son propre visualiseur de données
- Les qualités d’un bon visualiseur :
- afficher tout le contexte sur un seul écran
- faciliter la collecte de feedback
- permettre des annotations ouvertes
- offrir un filtrage et un tri rapides
- améliorer le confort d’usage grâce aux raccourcis clavier
- Il est possible d’en construire un en quelques heures avec FastHTML, MonsterUI, etc.
- on peut aussi très bien commencer avec un simple tableur
3. Donner aux experts métier la main sur les prompts
- L’amélioration des performances d’un système d’IA est souvent plus efficace quand elle est pilotée par des experts qui ne maîtrisent pas forcément bien l’IA
- Les prompts sont des phrases en anglais, donc même des non-spécialistes peuvent les rédiger
- Si l’on fournit un environnement de prompts intégré sous forme de « mode administrateur » dans l’interface du produit, on optimise l’apprentissage itératif
- Conseils de communication avec les experts métier :
- supprimer le jargon technique inutile
- ex. : « approche RAG » → « récupérer le contexte nécessaire pour que l’IA puisse répondre à la question »
- pourquoi un langage précis est important dans la communication interne
4. Possible même sans utilisateurs : amorcer avec des données synthétiques
- Il est possible d’évaluer une IA même sans données utilisateurs
- un LLM peut générer des données synthétiques
- Trois dimensions pour des données synthétiques efficaces :
- fonctionnalité (ex. : recherche immobilière, réservation, etc.)
- scénario (ex. : aucune correspondance, correspondances multiples, etc.)
- persona (ex. : primo-accédant, investisseur, etc.)
- Exemple d’un projet immobilier réel :
- structurer la base de données par scénario afin de générer des requêtes synthétiques
- le LLM génère des questions utilisateurs et teste le système
- Guide pour rédiger des données synthétiques :
- générer des exemples variés
- se concentrer sur les données d’entrée
- refléter les contraintes du système
- valider la pertinence des scénarios de test
- partir de cas simples puis élargir progressivement
5. Maintenir la confiance dans le système d’évaluation
- Beaucoup d’équipes construisent un système d’évaluation puis finissent par l’ignorer faute de confiance
- Il est courant que les critères d’évaluation dérivent avec le temps (criteria drift)
- Approches pour maintenir la confiance :
- privilégier une évaluation binaire (pass/fail) pour garantir clarté et cohérence
- ajouter des critiques détaillées afin d’apporter un contexte qualitatif
- mesurer l’alignement entre évaluation automatique et évaluation humaine
- ex. : dans le projet Honeycomb, après 3 itérations, l’évaluation du LLM a atteint plus de 90 % de concordance avec l’évaluation humaine
- l’outil AlignEval d’Eugene Yan peut être utilisé
- Stratégie de passage à l’échelle :
- ne pas supprimer complètement l’évaluation humaine, mais la concentrer sur les échantillons les plus riches en information
- comparer régulièrement évaluation automatique et jugement humain pour réajuster les critères
6. Une feuille de route IA centrée sur les expériences, pas sur les fonctionnalités
- La « feuille de route centrée sur les fonctionnalités » traditionnelle n’est pas adaptée à l’IA
- Bryan Bischof, ancien responsable IA de Hex, propose l’approche du « capability funnel »
- ex. : le funnel d’un assistant de requêtes
- correspond uniquement à la syntaxe de la requête
- peut s’exécuter sans erreur
- renvoie des résultats pertinents
- correspond à l’intention
- résout complètement le problème
- Gestion du planning fondée sur l’expérimentation selon Eugene Yan :
- examen de la faisabilité des données → examen de la faisabilité technique → création d’un prototype → test A/B
- partager les résultats des expériences avec la direction et, s’il n’y a pas de perspective, décider d’un pivot dès les premières étapes
- Créer une culture du partage des échecs :
- au sein de l’équipe, partager l’idée que « l’échec est aussi un résultat »
- instaurer un environnement qui encourage l’itération et l’expérimentation
Conclusion et principes clés
- Les équipes IA qui réussissent se concentrent sur la mesure, l’itération et l’apprentissage plutôt que sur des outils complexes
- 6 principes à mettre en pratique :
- Vérifier directement les données et mener une analyse des erreurs
- Créer des outils simples et efficaces pour soutenir l’apprentissage itératif
- Encourager et habiliter la participation des experts métier
- Amorcer le système d’évaluation initial avec des données synthétiques
- Maintenir la confiance avec une évaluation binaire + critiques + vérification d’alignement
- Piloter la feuille de route selon le nombre d’expériences plutôt que selon les fonctionnalités
Aucun commentaire pour le moment.