Mesurer la capacité de l’IA à mener des tâches de longue durée

(metr.org)

10 points par GN⁺ 2025-12-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une nouvelle métrique est proposée pour mesurer les performances à partir de la « longueur » des tâches qu’un modèle d’IA peut accomplir intégralement
L’analyse montre que, sur les 6 dernières années, la durée des tâches que l’IA peut achever de manière autonome a doublé environ tous les 7 mois
Les tâches qu’un expert humain termine en moins de 4 minutes réussissent presque à 100 %, mais celles qui demandent plus de 4 heures affichent un taux de réussite inférieur à 10 %
Si cette tendance se maintient, on prévoit que l’IA pourra exécuter de façon autonome des projets s’étalant sur plusieurs semaines dans les prochaines années
L’étude a des implications importantes pour les benchmarks d’IA, la prévision des capacités futures et la gestion des risques

Présentation de l’étude

METR propose une nouvelle méthode pour mesurer la durée des tâches que l’IA est capable de mener à bien
- Le critère de mesure est le temps nécessaire à un expert humain pour accomplir la tâche
- La relation entre la probabilité de réussite du modèle et le temps de travail humain est modélisée par une courbe logistique
Cette approche est présentée comme un indicateur utile pour évaluer l’utilité réelle de l’IA
- Elle compense les limites des benchmarks existants, souvent centrés sur la résolution de problèmes isolés

Limites de performance des modèles actuels
- Les tâches qu’un humain réalise en moins de 4 minutes réussissent presque à 100 %
- Les tâches qui prennent plus de 4 heures ont un taux de réussite inférieur à 10 %
- Exemple : Claude 3.7 Sonnet atteint environ 50 % de réussite sur des tâches d’une durée d’environ 1 heure
Tendance d’amélioration des performances
- Au cours des 6 dernières années, la longueur des tâches pouvant être accomplies avec un niveau de confiance de 50 % a doublé environ tous les 7 mois
- L’analyse en échelle logarithmique confirme une croissance exponentielle continue
- Si la tendance se maintient, des tâches sur une base hebdomadaire pourraient devenir réalisables d’ici 2 à 4 ans

Validation fondée sur des jeux de données
- Le temps d’exécution humain a été relevé pour divers groupes de tâches (logiciel, raisonnement, etc.)
- Une augmentation exponentielle similaire a aussi été observée dans le jeu de données SWE-Bench Verified
- Dans ces données, on observe une vitesse de doublement inférieure à 3 mois
Analyse de sensibilité
- Vérification de la robustesse face à divers facteurs, comme le choix des modèles et des tâches ou le bruit
- Dans les simulations prédisant le moment où des tâches d’un mois deviendraient réalisables, la tendance se maintient même avec une forte erreur de mesure

L’étude explique l’écart entre les performances de l’IA sur les benchmarks et son utilité réelle
- Elle peut surpasser l’humain sur des questions d’examen, mais reste insuffisante pour des projets réels de longue durée
L’incertitude liée à l’extrapolation de la tendance est reconnue
- En n’utilisant que les données 2024~2025, le moment où l’IA pourrait réaliser des tâches mensuelles est avancé d’environ 2,5 ans
- Il est mentionné que la tendance récente pourrait mieux prédire les performances futures que les données plus anciennes

L’approche consistant à mesurer les performances de l’IA par la « longueur des tâches » permet
- de quantifier l’amélioration des performances sur différents niveaux de difficulté et domaines
- de proposer une interprétation absolue des performances, directement reliée à l’impact dans le monde réel
Si la croissance exponentielle continue se poursuit,
- des projets autonomes s’étalant sur un mois pourraient devenir possibles d’ici 10 ans
- cela s’accompagnerait à la fois de bénéfices potentiels considérables et de risques majeurs
Les données de l’étude et le code d’analyse sont publiés sur GitHub, afin d’encourager les travaux de suivi et les expériences de reproduction
- Infrastructure associée : vivaria, eval-analysis-public