Opus 4.6 : ce que signifie résoudre un problème de 14,5 heures selon les humains (METR Time Horizon)

(metr.org)

5 points par princox 2026-02-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Il existe aux États-Unis un institut de recherche à but non lucratif appelé METR.
Il est situé à Berkeley, en Californie, et évalue la capacité des modèles d’IA de pointe à accomplir des tâches longues et autonomes.

Certains chercheurs avertissent que ces capacités pourraient faire peser de graves risques sur la société, et METR a précisément pour rôle de mesurer ces risques.

Les recherches de METR s’articulent principalement autour de trois axes.

Premièrement, une évaluation large des capacités d’autonomie mesurant l’aptitude des agents d’IA à mener à bien de manière autonome diverses tâches s’étalant sur plusieurs heures.

Deuxièmement, l’évaluation de la capacité de l’IA à accélérer la R&D en IA elle-même.

Troisièmement, l’étude des comportements d’IA qui menacent l’intégrité des évaluations (par ex. sandbagging, reward hacking) ainsi que des contre-mesures.

En particulier, l’étude Time Horizon publiée par METR a montré que la durée des tâches que les agents d’IA peuvent accomplir a doublé environ tous les 7 mois au cours des 6 dernières années, et cette étude est utilisée comme source de référence essentielle pour prévoir quand l’IA pourrait avoir un impact transformateur.

Voici ci-dessous une traduction automatique de la page accessible via l’URL.

Vue d’ensemble

Le task-completion time horizon correspond à la durée d’une tâche (sur la base du temps nécessaire à un expert humain pour l’accomplir) qu’un agent d’IA est censé réussir avec un niveau de fiabilité donné. Par exemple, l’horizon temporel à 50 % est la longueur de tâche pour laquelle l’agent est censé réussir avec une probabilité d’une sur deux. Le graphique ci-dessous montre les horizons temporels à 50 % et à 80 % d’agents d’IA de pointe, calculés à partir de performances observées sur plus de 100 tâches logicielles variées.

Nous mettons périodiquement à jour les mesures d’horizon temporel des modèles ouverts de pointe. Pour des raisons de capacité, certains modèles ne sont mesurés qu’un certain temps après leur sortie, et certaines sorties peuvent aussi être totalement ignorées.

Pour une discussion complète de la méthodologie et des résultats, consultez l’article et le billet de blog.

Détails de la méthodologie

Pour estimer l’horizon temporel des agents d’IA de pointe, nous commençons par estimer le temps nécessaire à un expert humain pour accomplir chaque tâche. Pour chaque agent, nous ajustons une courbe logistique afin de prédire la probabilité de réussite en fonction du temps de travail humain requis. Pour obtenir l’horizon à 50 % (ou à 80 %), nous cherchons la durée de tâche à laquelle la courbe ajustée croise une probabilité de réussite de 50 % (ou 80 %).

Distribution des tâches : les tâches proviennent de RE-Bench, HCAST et de courtes tâches logicielles. Elles relèvent principalement du software engineering, du machine learning et de la cybersécurité, sont indépendantes, clairement définies et disposent de critères de réussite explicites permettant une évaluation automatique.

Estimation du temps de travail humain : pour la plupart des tâches, nous recrutons des humains pour les effectuer, puis nous prenons la moyenne géométrique des temps de complétion réussis. Ces personnes reçoivent les mêmes consignes et le même environnement que les agents d’IA, et on leur demande de terminer la tâche aussi vite que possible. Nos estimations du temps de travail humain sont probablement surestimées par rapport à de vrais experts, car ces humains (et les agents d’IA) disposent de beaucoup moins d’informations de contexte sur la tâche que des spécialistes qui effectueraient un travail équivalent dans le cadre de leur activité habituelle.

Questions fréquentes (FAQ)

Q. « Horizon temporel » signifie-t-il le temps pendant lequel les agents d’IA actuels peuvent agir de manière autonome ?

Non. L’horizon temporel à 50 % désigne la longueur des tâches qu’un agent d’IA peut accomplir avec une fiabilité de 50 % (sur la base du niveau d’un expert humain). Ce n’est pas le temps réel qu’il faut à l’IA pour terminer la tâche, mais un indicateur de difficulté de la tâche.

Q. Combien de temps faut-il réellement à un agent d’IA pour accomplir une tâche de 2 heures ?

Cela dépend du modèle, de la tâche et de la configuration de l’agent, mais les agents d’IA sont généralement plusieurs fois plus rapides que les humains. Ils écrivent souvent le code d’un seul jet sans travail itératif, et ont aussi moins besoin de faire des recherches. De plus, de nombreux agents d’IA codent bien plus vite que des ingénieurs logiciels humains.

Q. Quels humains servent de référence pour l’estimation du temps de travail ?

Des professionnels expérimentés du software engineering, du machine learning et de la cybersécurité, majoritairement diplômés des 100 meilleures universités mondiales. Ils ont en moyenne environ 5 ans d’expérience pertinente. Il est plus juste de comprendre nos « tâches de 2 heures » comme des tâches qu’un « nouvel employé ou un freelance disposant de très peu de contexte préalable » peut terminer en 2 heures, plutôt que comme des tâches qu’un « expert expérimenté déjà familier du projet » terminerait en 2 heures.

Q. Un horizon temporel de 2 heures signifie-t-il que l’IA peut accomplir tous les travaux intellectuels qu’un humain peut faire en 2 heures ?

Non. Notre distribution de tâches se compose principalement de tâches de software engineering, de machine learning et de cybersécurité. Dans des travaux de suivi, nous avons étudié comment l’horizon temporel des systèmes d’IA varie selon différents domaines, et nous avons trouvé une tendance exponentielle similaire dans d’autres domaines, mais avec des valeurs absolues d’horizon différentes. Les capacités de l’IA sont « irrégulières » par rapport à celles des humains, et l’on s’attend à ce que l’horizon temporel de l’ensemble des tâches économiquement utiles se répartisse sur plusieurs ordres de grandeur.

📊 Interprétation des graphiques

Graphique principal (images 1, 6)

En observant la trajectoire allant de GPT-2 (2019) à Claude Opus 4.6 (février 2026), on voit que l’horizon temporel de l’IA a explosé, passant de presque 0 minute à environ 14 heures 30. En particulier, la courbe se redresse fortement sur la période 2024-2026, ce qui montre que les progrès des 1 à 2 dernières années écrasent ceux des années précédentes.

Graphique multi-domaines (image 5)

Sur divers benchmarks comme METR-HRS (software), MATH, GPQA, Mock AIME et SWE-bench, on constate dans tous les cas une croissance exponentielle de l’horizon temporel. Les valeurs absolues diffèrent selon les domaines, mais la tendance haussière elle-même est commune.

🔑 Interpréter « 14 heures 30 » — la question clé

« Que signifie le fait que Claude Opus 4.6 ait atteint 14,5 heures sur “Fix complex bug in ML research codebase” ? »

C’est le point le plus facile à mal comprendre. Plus précisément :

Mauvaise interprétation	Interprétation correcte
« Claude Opus 4.6 a travaillé pendant 14,5 heures »	❌
« Claude Opus 4.6 réussit avec 50 % de probabilité une tâche d’un niveau de difficulté correspondant à 14,5 heures de travail humain »	✅

Autrement dit, 14 heures 30 n’est pas le temps passé par l’IA, mais le niveau de difficulté de la tâche selon un référentiel humain.

Concrètement, cela se décompose ainsi :

METR sélectionne la tâche « corriger un bug complexe dans une base de code de recherche en ML »
Plusieurs experts humains expérimentés effectuent cette tâche, et le temps moyen observé est d’environ 14 heures 30
On fait ensuite exécuter à plusieurs reprises cette même tâche à Claude Opus 4.6, qui réussit avec une probabilité de 50 %
Donc l’horizon temporel à 50 % de Claude Opus 4.6 est de 14 heures 30

En pratique, le temps réellement nécessaire à Claude Opus 4.6 pour traiter cette tâche serait bien plus court que pour un humain (d’après la FAQ, l’IA est en général plusieurs fois plus rapide que l’humain).

💡 Résumé des implications

Les données de METR sur l’horizon temporel démontrent objectivement que la capacité des agents d’IA à exécuter de manière autonome des tâches de travail s’étend à une vitesse exponentielle, et le fait que Claude Opus 4.6 puisse mener à bien avec 50 % de probabilité des tâches complexes en logiciel, ML et cybersécurité demandant plus de 14 heures à des experts humains expérimentés suggère que l’IA a dépassé le simple rôle d’outil d’assistance pour atteindre un seuil où elle peut remplacer ou automatiser de façon concrète une part importante du travail intellectuel spécialisé. Si cette tendance se poursuit, elle implique fortement qu’une redéfinition fondamentale du rôle et de la valeur du travail humain deviendra inévitable dans l’ensemble des industries du savoir à forte qualification, notamment le développement logiciel, la sécurité et la recherche.

L’Opus 4.6 mis à jour en février 2026 serait donc capable de réussir avec 50 % de probabilité un problème représentant 14,5 heures de travail pour un expert humain.

Je trouve le graphique impressionnant, et je le publie parce que cela me fait penser qu’à l’avenir, l’ensemble du travail sera progressivement automatisé et exécuté sur une base de plus en plus orientée IA.