36 points par ragingwind 7 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Voici un article sur une méthodologie de gestion de la qualité des agents appelée « Skillify », proposée par Garry Tan, président de Y Combinator, à partir de sa propre expérience dans l’exploitation d’agents IA. Le point de départ est le constat que des frameworks comme LangChain, qui a levé 160 millions de dollars, fournissent des outils de test, mais pas de workflow indiquant « quoi tester et dans quel ordre ». Tan propose une checklist en 10 étapes qui transforme les erreurs commises par un agent, non pas en simples ajustements ponctuels de prompt, mais en artefacts permanents composés de fichiers de skill en Markdown, de scripts déterministes et de tests automatisés.

Concepts clés

  • Qu’est-ce que Skillify : lorsqu’un échec d’agent se produit, il s’agit de le convertir en une « skill » (procédure en Markdown + script déterministe + tests) qui rend cet échec impossible à reproduire. Si l’on dit « skillify it » au cours d’une conversation, l’agent exécute automatiquement le processus en 10 étapes.
  • Distinction latent vs deterministic : la méthode sépare clairement les tâches qui demandent du jugement (latent, domaine du raisonnement LLM) et celles qui exigent de la précision (deterministic, domaine de l’exécution de code). Le bug central, selon Tan, survient quand le LLM tente de faire « dans sa tête » des opérations comme un calcul de fuseau horaire ou une recherche de calendrier, alors que du code pourrait répondre immédiatement et correctement.
  • Checklist en 10 étapes : rédaction de SKILL.md, écriture d’un script déterministe, tests unitaires (vitest), tests d’intégration, évaluation LLM (LLM-as-judge), enregistrement du déclencheur du resolver, évaluation du resolver, audit de l’accessibilité et des doublons, test smoke E2E, jusqu’aux règles de classement dans le brain file. Une skill n’est reconnue comme telle qu’une fois toutes ces étapes validées.

Cas concrets

  • Un cas où, à la question d’un déplacement professionnel à Singapour datant de 10 ans, l’agent a appelé une API live pendant 5 minutes avant de découvrir tardivement des données qui pouvaient être trouvées immédiatement dans 3 146 fichiers de calendrier déjà indexés en local.
  • Un cas où l’agent a répondu « la prochaine réunion est dans 28 minutes », alors qu’elle était en réalité dans 88 minutes — le LLM s’est trompé d’exactement une heure en effectuant mentalement la conversion de fuseau horaire entre UTC et PT.
  • Dans les deux cas, des scripts existants, exécutables en moins de 100 ms, donnaient déjà la bonne réponse ; le problème venait du fait que l’agent avait choisi de raisonner au lieu d’exécuter le script.

Ce qui le différencie

  • Là où LangChain s’est limité à fournir une « boîte à outils de test », Skillify propose directement un workflow orienté « échec → skill → test → correctif permanent ». Si le framework ne donnait qu’un abonnement à la salle de sport, Skillify correspond au programme d’entraînement.
  • Tan souligne que l’Hermes Agent de Nous Research sait bien générer automatiquement des skills, mais qu’en l’absence de tests, elles se dégradent avec le temps ; il insiste donc sur la nécessité de combiner à la fois « génération + validation ».

Enseignements

  • En ingénierie logicielle, le principe consistant à « ajouter un test de régression à chaque bug » est établi depuis 2005, mais l’écosystème des agents IA n’a pas encore atteint ce niveau de maturité. L’idée que les skills d’agent, tout comme une base de code, se dégradent sans tests peut être lue comme un avertissement valable pour l’ensemble du secteur.
  • Le cas de plus de 40 skills exploitées, dont 15 % n’étaient pas enregistrées dans le resolver et sont devenues des « fonctionnalités dans l’ombre », montre qu’à mesure qu’un système d’agents prend de l’ampleur, la gestion de la découvrabilité devient un enjeu indispensable.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.