Publication des Skills de LangChain : comment faire passer le taux de réussite de Claude Code de 25 % à 95 %
(aisparkup.com)LangChain a dévoilé un ensemble de skills qui améliore de façon spectaculaire les performances des agents de code.
En particulier, lorsque des modèles comme Claude Code exécutent des tâches liées à LangChain/LangGraph/LangSmith, ils ne réussissaient qu’environ 25 % des cas sans skills, mais atteignent 95 % après ajout des skills. Pour les tâches liées à LangSmith, l’amélioration est tout aussi marquée, de 17 % à 92 %.
Types de skills publiés
- 11 skills LangChain : boucle de base d’agent, Human-in-the-Loop de LangGraph, Deep Agents, etc.
- 3 skills LangSmith : tracing, création de jeux de données, évaluation d’agents
→ Le CLI LangSmith a également été publié (consultation des traces, gestion des jeux de données et exécution d’expériences depuis le terminal)
Résultats de l’évaluation et enseignements
- Avec skills, le taux d’achèvement de Claude Code est de 82 % contre 9 % sans skills
- Précision d’appel des skills : s’il y en a trop (20), les dysfonctionnements augmentent ↑ → en réduire le nombre à environ 12 améliore la précision ↑
- Pour maximiser l’effet, il faut indiquer clairement dans AGENTS.md ou CLAUDE.md quand utiliser quel skill
Perspectives
- En exploitant les skills LangSmith, les agents peuvent exécuter une boucle d’auto-amélioration : analyser leurs propres logs d’exécution → résumer les problèmes → générer automatiquement un jeu de données de test + un évaluateur.
- À l’avenir, un cycle en terminal où des agents améliorent d’autres agents pourrait devenir la norme.
Aucun commentaire pour le moment.