Les compétences des agents IA n’atteignent même pas la moitié de leurs performances de benchmark dans le monde réel

(arxiv.org)

3 points par davespark 14 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une étude menée par des chercheurs de l’UC Santa Barbara, du MIT CSAIL et du MIT-IBM Watson AI Lab évalue de manière réaliste la capacité des agents IA à exploiter des compétences.

L’équipe a collecté et testé 34 198 compétences issues de l’open source (workflows, modes d’emploi d’API, bonnes pratiques et autres connaissances structurées). Le benchmark existant (SKILLSBENCH) présentait un problème de surestimation des performances, car il évaluait les agents dans des conditions idéales en leur fournissant à l’avance la compétence parfaitement adaptée.

Pour y remédier, les chercheurs ont conçu 6 scénarios réalistes en plusieurs étapes :

fournir directement la compétence
laisser l’agent choisir lui-même la compétence
mélanger des compétences non pertinentes
rechercher dans un vaste pool de compétences
cas où aucune compétence sur mesure n’existe

Les tests menés sur des modèles récents comme Claude Opus 4.6, Kimi K2.5 et Qwen3.5-397B montrent que :

pour Claude Opus 4.6
- compétence fournie directement : 55,4 % de réussite
- conditions réelles (recherche à grande échelle + sélection) : 40,1 %
- sans compétence sur mesure : 38,4 % (à peine 3 points de plus que la baseline sans utilisation de compétences, à 35,4 %)
pour des modèles plus faibles (Kimi, Qwen), l’usage des compétences a au contraire eu un effet négatif, avec des performances inférieures à la baseline.

Principales causes de la baisse de performance

Échec dans la sélection des compétences : même lorsqu’une compétence sur mesure existe, Claude n’en récupère correctement que 49 %
Limites de la précision de recherche : parmi les 5 premiers résultats, le taux de rappel des compétences pertinentes (Recall@5) plafonne à 65,5 %
Manque de capacité d’adaptation : les modèles exploitent mal des compétences proches en les adaptant au contexte

Tentatives d’amélioration et résultats

en appliquant une méthode de raffinage et de génération de compétences par tâche, les performances de Claude sont montées de 40,1 % à 48,2 %, mais cela restait conditionné à une pertinence minimale des compétences récupérées au départ
certains estiment, comme dans les travaux de Vercel, qu’une approche plus simple consistant à placer un fichier Markdown comme AGENTS.md dans le contexte est plus stable

Conclusion et recommandations

À l’heure actuelle, les compétences des agents IA affichent des performances surtout gonflées dans les benchmarks, alors que leur efficacité reste très limitée en conditions réelles. Pour les modèles plus faibles en particulier, ces compétences peuvent même devenir un obstacle.

Les chercheurs insistent sur la nécessité de meilleures techniques de recherche, de stratégies efficaces de raffinage hors ligne des compétences et d’une conception d’écosystèmes de compétences adaptée aux capacités des modèles. L’article et le code sont publiés sur GitHub.

Référence associée : https://aisparkup.com/posts/11097

Les compétences des agents IA n’atteignent même pas la moitié de leurs performances de benchmark dans le monde réel

Principales causes de la baisse de performance

Tentatives d’amélioration et résultats

Conclusion et recommandations

À lire aussi

Aucun commentaire pour le moment.