- Système de suivi qui mesure chaque jour les performances de Claude Code Opus 4.5 sur des tâches de SWE afin de détecter des baisses de performance statistiquement significatives
- Évalue 50 instances de test par jour à partir d’un sous-ensemble sélectionné de SWE-Bench-Pro, avec des résultats qui reflètent les performances réelles du modèle exécuté directement dans un environnement CLI
- Sur les 30 derniers jours, un taux de réussite moyen de 54 % a été observé, avec une baisse statistiquement significative de 4,1 % par rapport au niveau de référence de 58 %
- Les résultats quotidiens et hebdomadaires sont analysés à l’aide d’intervalles de confiance à 95 % et de seuils de significativité (±14,0 %, ±5,6 %), afin de distinguer les fluctuations de court terme des tendances de fond
- Outil exploité par une organisation tierce indépendante pour détecter rapidement les baisses de performance dues à des changements du modèle ou de l’environnement d’exécution
Vue d’ensemble
- L’objectif de ce tracker est de détecter les baisses statistiquement significatives des performances de Claude Code Opus 4.5 sur des tâches de SWE
- Une évaluation est réalisée chaque jour à l’aide d’un sous-ensemble résistant à la contamination de SWE-Bench-Pro
- L’exécution se fait directement dans Claude Code CLI, sans harness personnalisé, afin de refléter les conditions d’usage réelles
- Organisation tierce indépendante, sans partenariat avec les fournisseurs de modèles frontier
- Exploité comme ressource pour détecter précocement des cas similaires à la suite du post-mortem d’Anthropic sur la baisse de performance de septembre 2025
Résumé des performances
- Taux de réussite de référence : 58 %
- Taux de réussite sur les 30 derniers jours : 54 % (sur 655 évaluations)
- Taux de réussite sur les 7 derniers jours : 53 % (sur 250 évaluations)
- Taux de réussite sur le dernier jour : 50 % (sur 50 évaluations)
- La baisse de performance sur 30 jours est statistiquement significative au seuil p < 0,05
- Variation sur 30 jours : -4,1 %
- Seuil de significativité : ±3,4 %
- Les variations sur 1 jour (-8,0 %) et 7 jours (-4,8 %) ne sont pas statistiquement significatives
Tendances quotidiennes et hebdomadaires
- Tendance quotidienne (Daily Trend)
- Visualisation du taux de réussite journalier sur les 30 derniers jours
- Référence à 58 %, zone de significativité ±14,0 %
- Affichage possible des intervalles de confiance à 95 %, qui s’élargissent lorsque la taille de l’échantillon est faible
- Tendance hebdomadaire (Weekly Trend)
- Fournit une tendance lissée via une moyenne mobile sur 7 jours pour atténuer la volatilité quotidienne
- Référence à 58 %, zone de significativité ±5,6 %
- Même possibilité d’afficher des intervalles de confiance à 95 %
Aperçu des variations (Change Overview)
- Variation sur 1 jour (par rapport à hier) : -8,0 %, non statistiquement significative
- Sur la base de 50 évaluations, une variation de ±14,0 % est nécessaire (p < 0,05)
- Variation sur 7 jours (par rapport à la semaine dernière) : -4,8 %, non statistiquement significative
- Sur la base de 250 évaluations, une variation de ±5,6 % est nécessaire (p < 0,05)
- Variation sur 30 jours (par rapport au mois dernier) : -4,1 %, statistiquement significative
- Sur la base de 655 évaluations, une variation de ±3,4 % est nécessaire (p < 0,05)
Méthodologie (Methodology)
- Chaque test est modélisé comme une variable aléatoire de Bernoulli, et des intervalles de confiance à 95 % sont calculés
- Les écarts statistiques entre les taux de réussite journaliers, hebdomadaires et mensuels sont analysés afin de déterminer s’il existe une baisse de performance significative
- L’évaluation est réalisée avec 50 instances de test par jour, d’où une certaine volatilité à court terme
- Les résultats agrégés hebdomadaires et mensuels fournissent des estimations plus stables
- Permet de détecter aussi bien les baisses de performance dues à des modifications du modèle qu’à des changements du harness d’exécution
Fonction d’alerte
- Envoi d’une alerte par e-mail lorsqu’une baisse de performance est détectée statistiquement
- Les utilisateurs peuvent s’abonner en enregistrant leur adresse e-mail
- Les alertes sont reçues après confirmation de l’abonnement, avec indication de réessayer en cas d’erreur
Aucun commentaire pour le moment.