- Une nouvelle métrique est proposée pour mesurer les performances à partir de la « longueur » des tâches qu’un modèle d’IA peut accomplir intégralement
- L’analyse montre que, sur les 6 dernières années, la durée des tâches que l’IA peut achever de manière autonome a doublé environ tous les 7 mois
- Les tâches qu’un expert humain termine en moins de 4 minutes réussissent presque à 100 %, mais celles qui demandent plus de 4 heures affichent un taux de réussite inférieur à 10 %
- Si cette tendance se maintient, on prévoit que l’IA pourra exécuter de façon autonome des projets s’étalant sur plusieurs semaines dans les prochaines années
- L’étude a des implications importantes pour les benchmarks d’IA, la prévision des capacités futures et la gestion des risques
Présentation de l’étude
- METR propose une nouvelle méthode pour mesurer la durée des tâches que l’IA est capable de mener à bien
- Le critère de mesure est le temps nécessaire à un expert humain pour accomplir la tâche
- La relation entre la probabilité de réussite du modèle et le temps de travail humain est modélisée par une courbe logistique
- Cette approche est présentée comme un indicateur utile pour évaluer l’utilité réelle de l’IA
- Elle compense les limites des benchmarks existants, souvent centrés sur la résolution de problèmes isolés
Principaux résultats
- Limites de performance des modèles actuels
- Les tâches qu’un humain réalise en moins de 4 minutes réussissent presque à 100 %
- Les tâches qui prennent plus de 4 heures ont un taux de réussite inférieur à 10 %
- Exemple : Claude 3.7 Sonnet atteint environ 50 % de réussite sur des tâches d’une durée d’environ 1 heure
- Tendance d’amélioration des performances
- Au cours des 6 dernières années, la longueur des tâches pouvant être accomplies avec un niveau de confiance de 50 % a doublé environ tous les 7 mois
- L’analyse en échelle logarithmique confirme une croissance exponentielle continue
- Si la tendance se maintient, des tâches sur une base hebdomadaire pourraient devenir réalisables d’ici 2 à 4 ans
Méthodologie et validation
- Validation fondée sur des jeux de données
- Le temps d’exécution humain a été relevé pour divers groupes de tâches (logiciel, raisonnement, etc.)
- Une augmentation exponentielle similaire a aussi été observée dans le jeu de données SWE-Bench Verified
- Dans ces données, on observe une vitesse de doublement inférieure à 3 mois
- Analyse de sensibilité
- Vérification de la robustesse face à divers facteurs, comme le choix des modèles et des tâches ou le bruit
- Dans les simulations prédisant le moment où des tâches d’un mois deviendraient réalisables, la tendance se maintient même avec une forte erreur de mesure
Interprétation et limites
- L’étude explique l’écart entre les performances de l’IA sur les benchmarks et son utilité réelle
- Elle peut surpasser l’humain sur des questions d’examen, mais reste insuffisante pour des projets réels de longue durée
- L’incertitude liée à l’extrapolation de la tendance est reconnue
- En n’utilisant que les données 2024~2025, le moment où l’IA pourrait réaliser des tâches mensuelles est avancé d’environ 2,5 ans
- Il est mentionné que la tendance récente pourrait mieux prédire les performances futures que les données plus anciennes
Conclusion et portée
- L’approche consistant à mesurer les performances de l’IA par la « longueur des tâches » permet
- de quantifier l’amélioration des performances sur différents niveaux de difficulté et domaines
- de proposer une interprétation absolue des performances, directement reliée à l’impact dans le monde réel
- Si la croissance exponentielle continue se poursuit,
- des projets autonomes s’étalant sur un mois pourraient devenir possibles d’ici 10 ans
- cela s’accompagnerait à la fois de bénéfices potentiels considérables et de risques majeurs
- Les données de l’étude et le code d’analyse sont publiés sur GitHub, afin d’encourager les travaux de suivi et les expériences de reproduction
Aucun commentaire pour le moment.