Une étude menée par des chercheurs de l’UC Santa Barbara, du MIT CSAIL et du MIT-IBM Watson AI Lab évalue de manière réaliste la capacité des agents IA à exploiter des compétences.
L’équipe a collecté et testé 34 198 compétences issues de l’open source (workflows, modes d’emploi d’API, bonnes pratiques et autres connaissances structurées). Le benchmark existant (SKILLSBENCH) présentait un problème de surestimation des performances, car il évaluait les agents dans des conditions idéales en leur fournissant à l’avance la compétence parfaitement adaptée.
Pour y remédier, les chercheurs ont conçu 6 scénarios réalistes en plusieurs étapes :
- fournir directement la compétence
- laisser l’agent choisir lui-même la compétence
- mélanger des compétences non pertinentes
- rechercher dans un vaste pool de compétences
- cas où aucune compétence sur mesure n’existe
Les tests menés sur des modèles récents comme Claude Opus 4.6, Kimi K2.5 et Qwen3.5-397B montrent que :
-
pour Claude Opus 4.6
- compétence fournie directement : 55,4 % de réussite
- conditions réelles (recherche à grande échelle + sélection) : 40,1 %
- sans compétence sur mesure : 38,4 % (à peine 3 points de plus que la baseline sans utilisation de compétences, à 35,4 %)
-
pour des modèles plus faibles (Kimi, Qwen), l’usage des compétences a au contraire eu un effet négatif, avec des performances inférieures à la baseline.
Principales causes de la baisse de performance
- Échec dans la sélection des compétences : même lorsqu’une compétence sur mesure existe, Claude n’en récupère correctement que 49 %
- Limites de la précision de recherche : parmi les 5 premiers résultats, le taux de rappel des compétences pertinentes (Recall@5) plafonne à 65,5 %
- Manque de capacité d’adaptation : les modèles exploitent mal des compétences proches en les adaptant au contexte
Tentatives d’amélioration et résultats
- en appliquant une méthode de raffinage et de génération de compétences par tâche, les performances de Claude sont montées de 40,1 % à 48,2 %, mais cela restait conditionné à une pertinence minimale des compétences récupérées au départ
- certains estiment, comme dans les travaux de Vercel, qu’une approche plus simple consistant à placer un fichier Markdown comme AGENTS.md dans le contexte est plus stable
Conclusion et recommandations
À l’heure actuelle, les compétences des agents IA affichent des performances surtout gonflées dans les benchmarks, alors que leur efficacité reste très limitée en conditions réelles. Pour les modèles plus faibles en particulier, ces compétences peuvent même devenir un obstacle.
Les chercheurs insistent sur la nécessité de meilleures techniques de recherche, de stratégies efficaces de raffinage hors ligne des compétences et d’une conception d’écosystèmes de compétences adaptée aux capacités des modèles. L’article et le code sont publiés sur GitHub.
Référence associée : https://aisparkup.com/posts/11097
Aucun commentaire pour le moment.