- Premier benchmark visant à évaluer quantitativement l’efficacité des compétences (Agent Skills) des agents basés sur des grands modèles de langage (LLM), avec 84 tâches réparties sur 11 domaines
- Chaque tâche est évaluée dans trois conditions — sans compétence, avec compétence curée, avec compétence auto-générée — et un total de 7 308 trajectoires d’exécution a été collecté
- Les compétences curées ont montré en moyenne +16,2 points de pourcentage d’amélioration, mais avec de fortes variations selon les domaines, et certaines tâches (16 sur 84) ont au contraire vu leurs performances baisser
- Les compétences auto-générées (Self-generated Skills) n’ont pas montré d’effet positif en moyenne, ce qui indique que les modèles ne parviennent pas à générer de manière fiable des connaissances procédurales par eux-mêmes
- Des modules de compétences petits et ciblés (composés de 2 à 3 éléments) se révèlent plus efficaces que des compétences documentaires exhaustives, et de petits modèles utilisant des compétences atteignent des performances similaires à celles de grands modèles sans compétences
Vue d’ensemble de SKILLSBENCH
- SKILLSBENCH est un benchmark conçu pour évaluer l’effet du renforcement par compétences des agents LLM, construit sur la base du framework Harbor
- Chaque tâche inclut un environnement conteneurisé, un validateur déterministe et une réponse de référence (oracle)
- La même tâche est exécutée à plusieurs reprises selon que des compétences sont appliquées ou non, afin de mesurer l’effet pur des compétences
- Alors que les benchmarks existants évaluent surtout les capacités de base des modèles, SKILLSBENCH mesure directement l’impact des compétences sur les performances
Définition et composition des compétences (Agent Skills)
- Une compétence est un package structuré contenant des connaissances procédurales (procedural knowledge), qui étend le comportement de l’agent au moment de l’inférence sans modifier le modèle
- Éléments constitutifs :
SKILL.md (procédure d’approche de la tâche), scripts exécutables, templates de code, exemples, etc.
- Une compétence doit satisfaire aux quatre critères suivants
- inclure un contenu procédural
- s’appliquer à une classe de tâches, et non à un seul cas
- contenir des composants structurés
- garantir la portabilité via une base sur le système de fichiers
- Les system prompts, exemples few-shot, recherches RAG et documentations d’outils ne sont pas considérés comme des compétences
Structure des tâches (Task) et construction du dataset
- Chaque tâche se compose de quatre éléments : consigne, environnement, réponse, validateur
- L’environnement est isolé dans un conteneur Docker afin de garantir la reproductibilité
- Le validateur est un script de test déterministe qui juge automatiquement la réussite ou l’échec
- 105 contributeurs ont soumis 322 tâches candidates ; après validation automatique et revue humaine, 84 tâches finales ont été retenues
- Les contributeurs devaient respecter les exigences suivantes
- consignes rédigées par des humains (génération par LLM interdite)
- les compétences doivent fournir des instructions procédurales, et non la réponse à une tâche spécifique
- toutes les validations doivent être effectuées de manière déterministe (basée sur des assertions)
- passer les contrôles de structure automatiques, l’exécution oracle, la détection de génération par IA et l’audit de fuite
- Pour éviter les fuites, les compétences sont rejetées si elles contiennent des noms de fichiers propres à une tâche, des constantes, des références aux tests, etc.
Composition du benchmark et classification de la difficulté
- SKILLSBENCH comprend 84 tâches dans 11 domaines (logiciel, santé, finance, robotique, etc.)
- La difficulté est répartie en trois niveaux selon le temps d’exécution humain
- Core (moins de 60 minutes) : 17
- Extended (1 à 4 heures) : 43
- Extreme (plus de 4 heures) : 26
Configuration expérimentale
- Évaluation de trois harnais d’agents commerciaux : Claude Code, Gemini CLI, Codex CLI
- Sept modèles utilisés : GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
- Évaluation dans trois conditions
- No Skills : sans compétence
- With Skills : avec compétences curées
- Self-Generated Skills : compétences générées directement par le modèle puis appliquées
- Au total, 7 308 trajectoires valides (trajectories) ont été collectées
Indicateurs d’évaluation
- Le taux de réussite (pass rate) est utilisé comme indicateur principal
- Un gain normalisé (normalized gain) est également calculé pour analyser à la fois l’amélioration absolue et l’amélioration relative
- Chaque tâche est répétée 5 fois, puis un score moyen est calculé
Principaux résultats
- Les compétences curées ont apporté en moyenne +16,2 points de pourcentage, avec une plage de +13,6 à +23,3 points selon les configurations
- Les écarts entre domaines sont importants : l’amélioration la plus forte apparaît en santé (+51,9 points), la plus faible en génie logiciel (+4,5 points)
- Sur 84 tâches, 16 ont au contraire enregistré une baisse de performance
- Les compétences auto-générées n’ont en moyenne aucun effet positif, voire un effet négatif
- Les modèles ne parviennent pas à générer de manière fiable des connaissances procédurales par eux-mêmes
- Les compétences ciblées (2 à 3 modules) montrent une meilleure efficacité que les compétences documentaires exhaustives
- La combinaison petit modèle + compétences atteint des performances comparables à celles d’un grand modèle sans compétences
Conclusion
- SKILLSBENCH fournit un cadre d’évaluation centré sur les compétences et démontre quantitativement l’impact des compétences sur la capacité réelle des agents LLM à accomplir des tâches
- Les résultats montrent que la qualité de conception des compétences et leur adéquation au domaine sont déterminantes pour améliorer les performances
- Le benchmark peut servir de base à de futurs travaux pour clarifier les principes de conception structurelle des compétences et les limites de leur génération automatique
Aucun commentaire pour le moment.