PM des services d’IA : il faut désormais concevoir l’« évaluation », au-delà de la simple « planification »

(maily.so)

5 points par pentaxzs 18 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Avec la récente explosion des services d’IA générative, le rôle des PM connaît une transformation fondamentale.

Il en va de même pour le rôle de la QA.
Alors qu’autrefois le PM définissait les exigences (Spec) et la QA vérifiait le bon fonctionnement des fonctionnalités (Pass/Fail), à l’ère de l’IA, la qualité est devenue un domaine que le PM doit lui-même définir et évaluer.

Pourquoi est-ce le PM, et non la QA, qui doit être responsable de la qualité ?

Absence de réponse unique : les réponses de l’IA ne relèvent pas simplement du vrai ou du faux, mais se situent sur un spectre allant du « bon » au « mauvais ».
Subjectivité de l’évaluation : des critères qualitatifs comme « Est-ce naturel ? » ou « Est-ce utile ? » ne peuvent être définis que par le PM, qui connaît le mieux la vision du produit.
La définition fait la qualité : dans un service d’IA, la qualité ne se corrige pas par les tests ; elle commence dès la définition initiale de ce qu’est un « bon résultat ».

Comparaison de la gestion de la qualité : service classique vs service d’IA
Entre un service logiciel classique et un service d’IA, les différences sont majeures, depuis la manière de concevoir la qualité jusqu’aux méthodes de gestion.

Critères et jugement de la qualité : dans un service classique, le document de spécification constitue la bonne réponse. On peut clairement distinguer le « correct/incorrect (Pass or Fail) », comme dans un quiz O/X, par exemple vérifier si un bouton fonctionne ou si un paiement passe. À l’inverse, dans un service d’IA, il n’existe pas de réponse unique claire, seulement une « réponse modèle ». La qualité se situe sur un spectre continu ; on est donc plus proche de la correction d’une dissertation, où l’on juge à quel point le résultat est optimisé, que de la vérification d’une réponse juste ou fausse.
Cœur et responsabilité de la gestion de la qualité : dans un service classique, l’essentiel est la « assurance qualité (QA) », qui vérifie si la fonctionnalité a bien été réalisée conformément au plan, et cette responsabilité incombe principalement à l’équipe QA. En revanche, dans un service d’IA, le point central est la « conception de l’évaluation », c’est-à-dire définir ce qu’est un bon résultat. Le PM, qui connaît le mieux la vision du produit, devient donc le responsable final de la qualité.
Évolution des méthodes de vérification : autrefois, on testait si les fonctionnalités fonctionnaient selon des scénarios prédéfinis ; pour un service d’IA, on passe par une évaluation qualitative (Human Eval), où des personnes examinent directement les résultats. Au-delà de cela, on peut utiliser comme évaluateur (LLM Judge) un LLM entraîné sur les critères définis par le PM, afin de vérifier automatiquement de grands volumes de données et d’améliorer la qualité.

Gestion de la qualité en 5 étapes pour les AI PM

Noter soi-même à partir de guides : sélectionner des données d’exemple, les évaluer directement et prendre conscience de ses propres critères de jugement.
Formaliser les critères : définir dans un langage explicite des impressions vagues comme « spécificité » ou « réalisme ».
Construire un dataset : établir la liste des questions clés que le service doit résoudre ainsi que les réponses modèles.
Automatiser l’évaluation (LLM Judge) : faire évaluer par un LLM de grands volumes de résultats à partir des critères définis.\
Remettre en question les métriques : si le score d’évaluation progresse mais que la satisfaction utilisateur reste faible, il faut réexaminer les critères eux-mêmes.

💡 Insight
Désormais, le PM n’est plus simplement la personne qui crée des fonctionnalités, mais celle qui conçoit les critères de jugement de la valeur du produit. L’expérience consistant à définir ce qu’est un bon résultat et à construire la structure permettant de le mesurer deviendra, à l’ère de l’IA, l’un des atouts concurrentiels les plus puissants pour un PM.

PM des services d’IA : il faut désormais concevoir l’« évaluation », au-delà de la simple « planification »

À lire aussi

Aucun commentaire pour le moment.