3 points par fortune 2025-12-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp

[GPT-5.1 thinking -> GPT-5.2 thinking]

  • Test de tableur de banque d'investissement (interne) : 59.1% → 68.4%

    • 3 exercices de modélisation de tableur de états financiers/LBO
  • SWE-Bench Pro (public) : 50.8% → 55.6%

    • Application de patches sur des dépôts (repo) réels en 4 langages
  • OpenAI MRCRv2 (8 needles, 128k–256k) : 29.6% → 77.0%

    • Recherche et restitution d'informations dans des documents extrêmement longs
  • ScreenSpot Pro (avec Python) : 64.2% → 86.3%

    • Comprendre des captures d'écran d'interface utilisateur et répondre aux questions
  • ARC-AGI-2 (vérifié) : 17.6% → 52.9%

    • Puzzles d'inférence abstraite difficiles (vérifiés)

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.