8 points par laeyoung 2025-11-26 | 2 commentaires | Partager sur WhatsApp

Claude Opus 4.5, et pourquoi l’évaluation des nouveaux LLM devient de plus en plus difficile

Le prix est très satisfaisant

  • 5 $ par million de tokens en entrée, 25 $ par million de tokens en sortie
  • Bien moins cher que le précédent Opus à 15 $/75 $
  • Également compétitif face à la gamme GPT-5.1 (1,25 $/10 $) et à Gemini 3 Pro (2 $/12 $, ou 4 $/18 $ pour des achats de plus de 200 000 tokens)

Améliorations intéressantes parmi les changements d’Opus 4.5

  • Opus 4.5 ajoute un nouveau paramètre effort, réglé par défaut sur élevé
  • Prend en charge un Computer use amélioré, avec notamment un zoom qui fournit un outil permettant de demander l’inspection d’une zone agrandie de l’écran
  • Les blocs de raisonnement des tours d’assistance précédents sont désormais conservés par défaut dans le contexte du modèle, contrairement à avant

Les difficultés de l’évaluation

  • Il devient plus difficile de distinguer les performances des LLM de pointe
  • Sur des benchmarks comme SWE-bench Verified, les modèles ne montrent plus que quelques points de pourcentage d’écart
  • Mais cela n’explique pas quels résultats cela produit ni quelle différence cela fera lorsqu’on essaie de résoudre un problème réel
  • En attendant, dessiner un pélican à vélo reste d’actualité.

2 commentaires

 
laeyoung 2025-11-26

Chez Anthropic, le graphique des benchmarks d’Opus 4.5

  • si on le trace simplement, la hauteur est presque la même, donc la plage 0-70 de l’axe Y du graphique a été compressée.