11 points par GN⁺ 2026-01-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • En résolvant cet exercice et en dépassant la meilleure performance de Claude Opus 4.5 (1 487 cycles), il est possible d’envoyer son code et son CV à Anthropic
  • La version initiale avait une limite de 4 heures, mais comme Opus 4 a ensuite surpassé la plupart des humains, elle a été remplacée par une version limitée à 2 heures

L’exercice take-home original de performance d’Anthropic

  • Le dépôt inclut la version de l’exercice utilisée pour les premières évaluations de performance d’Anthropic
    • Il s’agit de la version antérieure à celle où Claude Opus 4.5 a dépassé les humains sur les performances en 2 heures
    • À l’origine, l’exercice était limité à 4 heures, puis il a été raccourci en version 2 heures
  • La version 2 heures s’appuie sur un code de départ à 18 532 cycles (performance 7,97 fois plus rapide)
    • La version actuellement publiée conserve l’architecture la plus récente, mais revient au code de référence le plus lent
  • Après Claude Opus 4.5, un nouveau code de référence a commencé à être utilisé

Benchmark de performance

  • Tous les chiffres sont mesurés en cycles d’horloge de la machine simulée
    • Résultats mesurés sur la base de la version 2 heures (code de départ à 18 532 cycles)
  • Principaux résultats :
    • 2 164 cycles : Claude Opus 4 (exécution longue dans le harnais de test)
    • 1 790 cycles : Claude Opus 4.5 (session de code standard, proche du meilleur niveau humain)
    • 1 579 cycles : Claude Opus 4.5 (exécution du harnais de test sur 2 heures)
    • 1 548 cycles : Claude Sonnet 4.5 (exécution longue du harnais de test)
    • 1 487 cycles : Claude Opus 4.5 (exécution du harnais sur 11,5 heures)
    • 1 363 cycles : Claude Opus 4.5 (environnement de harnais amélioré)
    • La meilleure performance humaine est supérieure à ces chiffres, mais n’est pas rendue publique

Participation et soumission

  • Cet exercice peut désormais être tenté par tout le monde, sans limite de temps
  • Si un participant parvient à optimiser à 1 487 cycles ou moins, soit mieux que la meilleure performance de Claude Opus 4.5, il peut envoyer son code et son CV par e-mail à Anthropic
    • Adresse e-mail : performance-recruiting@anthropic.com
  • Le seuil de performance peut changer lors de la sortie de nouveaux modèles
  • Les tests peuvent être exécutés avec la commande python tests/submission_tests.py

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.