- En résolvant cet exercice et en dépassant la meilleure performance de Claude Opus 4.5 (1 487 cycles), il est possible d’envoyer son code et son CV à Anthropic
- La version initiale avait une limite de 4 heures, mais comme Opus 4 a ensuite surpassé la plupart des humains, elle a été remplacée par une version limitée à 2 heures
L’exercice take-home original de performance d’Anthropic
- Le dépôt inclut la version de l’exercice utilisée pour les premières évaluations de performance d’Anthropic
- Il s’agit de la version antérieure à celle où Claude Opus 4.5 a dépassé les humains sur les performances en 2 heures
- À l’origine, l’exercice était limité à 4 heures, puis il a été raccourci en version 2 heures
- La version 2 heures s’appuie sur un code de départ à 18 532 cycles (performance 7,97 fois plus rapide)
- La version actuellement publiée conserve l’architecture la plus récente, mais revient au code de référence le plus lent
- Après Claude Opus 4.5, un nouveau code de référence a commencé à être utilisé
Benchmark de performance
- Tous les chiffres sont mesurés en cycles d’horloge de la machine simulée
- Résultats mesurés sur la base de la version 2 heures (code de départ à 18 532 cycles)
- Principaux résultats :
- 2 164 cycles : Claude Opus 4 (exécution longue dans le harnais de test)
- 1 790 cycles : Claude Opus 4.5 (session de code standard, proche du meilleur niveau humain)
- 1 579 cycles : Claude Opus 4.5 (exécution du harnais de test sur 2 heures)
- 1 548 cycles : Claude Sonnet 4.5 (exécution longue du harnais de test)
- 1 487 cycles : Claude Opus 4.5 (exécution du harnais sur 11,5 heures)
- 1 363 cycles : Claude Opus 4.5 (environnement de harnais amélioré)
- La meilleure performance humaine est supérieure à ces chiffres, mais n’est pas rendue publique
Participation et soumission
- Cet exercice peut désormais être tenté par tout le monde, sans limite de temps
- Si un participant parvient à optimiser à 1 487 cycles ou moins, soit mieux que la meilleure performance de Claude Opus 4.5, il peut envoyer son code et son CV par e-mail à Anthropic
- Adresse e-mail : performance-recruiting@anthropic.com
- Le seuil de performance peut changer lors de la sortie de nouveaux modèles
- Les tests peuvent être exécutés avec la commande
python tests/submission_tests.py
Aucun commentaire pour le moment.