9 points par GN⁺ 2026-01-30 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Système de suivi qui mesure chaque jour les performances de Claude Code Opus 4.5 sur des tâches de SWE afin de détecter des baisses de performance statistiquement significatives
  • Évalue 50 instances de test par jour à partir d’un sous-ensemble sélectionné de SWE-Bench-Pro, avec des résultats qui reflètent les performances réelles du modèle exécuté directement dans un environnement CLI
  • Sur les 30 derniers jours, un taux de réussite moyen de 54 % a été observé, avec une baisse statistiquement significative de 4,1 % par rapport au niveau de référence de 58 %
  • Les résultats quotidiens et hebdomadaires sont analysés à l’aide d’intervalles de confiance à 95 % et de seuils de significativité (±14,0 %, ±5,6 %), afin de distinguer les fluctuations de court terme des tendances de fond
  • Outil exploité par une organisation tierce indépendante pour détecter rapidement les baisses de performance dues à des changements du modèle ou de l’environnement d’exécution

Vue d’ensemble

  • L’objectif de ce tracker est de détecter les baisses statistiquement significatives des performances de Claude Code Opus 4.5 sur des tâches de SWE
    • Une évaluation est réalisée chaque jour à l’aide d’un sous-ensemble résistant à la contamination de SWE-Bench-Pro
    • L’exécution se fait directement dans Claude Code CLI, sans harness personnalisé, afin de refléter les conditions d’usage réelles
  • Organisation tierce indépendante, sans partenariat avec les fournisseurs de modèles frontier
  • Exploité comme ressource pour détecter précocement des cas similaires à la suite du post-mortem d’Anthropic sur la baisse de performance de septembre 2025

Résumé des performances

  • Taux de réussite de référence : 58 %
  • Taux de réussite sur les 30 derniers jours : 54 % (sur 655 évaluations)
  • Taux de réussite sur les 7 derniers jours : 53 % (sur 250 évaluations)
  • Taux de réussite sur le dernier jour : 50 % (sur 50 évaluations)
  • La baisse de performance sur 30 jours est statistiquement significative au seuil p < 0,05
    • Variation sur 30 jours : -4,1 %
    • Seuil de significativité : ±3,4 %
  • Les variations sur 1 jour (-8,0 %) et 7 jours (-4,8 %) ne sont pas statistiquement significatives

Tendances quotidiennes et hebdomadaires

  • Tendance quotidienne (Daily Trend)
    • Visualisation du taux de réussite journalier sur les 30 derniers jours
    • Référence à 58 %, zone de significativité ±14,0 %
    • Affichage possible des intervalles de confiance à 95 %, qui s’élargissent lorsque la taille de l’échantillon est faible
  • Tendance hebdomadaire (Weekly Trend)
    • Fournit une tendance lissée via une moyenne mobile sur 7 jours pour atténuer la volatilité quotidienne
    • Référence à 58 %, zone de significativité ±5,6 %
    • Même possibilité d’afficher des intervalles de confiance à 95 %

Aperçu des variations (Change Overview)

  • Variation sur 1 jour (par rapport à hier) : -8,0 %, non statistiquement significative
    • Sur la base de 50 évaluations, une variation de ±14,0 % est nécessaire (p < 0,05)
  • Variation sur 7 jours (par rapport à la semaine dernière) : -4,8 %, non statistiquement significative
    • Sur la base de 250 évaluations, une variation de ±5,6 % est nécessaire (p < 0,05)
  • Variation sur 30 jours (par rapport au mois dernier) : -4,1 %, statistiquement significative
    • Sur la base de 655 évaluations, une variation de ±3,4 % est nécessaire (p < 0,05)

Méthodologie (Methodology)

  • Chaque test est modélisé comme une variable aléatoire de Bernoulli, et des intervalles de confiance à 95 % sont calculés
  • Les écarts statistiques entre les taux de réussite journaliers, hebdomadaires et mensuels sont analysés afin de déterminer s’il existe une baisse de performance significative
  • L’évaluation est réalisée avec 50 instances de test par jour, d’où une certaine volatilité à court terme
  • Les résultats agrégés hebdomadaires et mensuels fournissent des estimations plus stables
  • Permet de détecter aussi bien les baisses de performance dues à des modifications du modèle qu’à des changements du harness d’exécution

Fonction d’alerte

  • Envoi d’une alerte par e-mail lorsqu’une baisse de performance est détectée statistiquement
  • Les utilisateurs peuvent s’abonner en enregistrant leur adresse e-mail
  • Les alertes sont reçues après confirmation de l’abonnement, avec indication de réessayer en cas d’erreur

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.