1 points par GN⁺ 2025-08-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Vibechart est un outil de visualisation qui permet aux utilisateurs de créer des graphiques comme ils veulent les voir, plutôt que selon des critères traditionnels comme la véracité, la valeur esthétique ou l’utilité.
  • Interprétation du graphique utilisé lors de l’annonce de GPT-5

Comparaison des performances de GPT-5 (Academic / SWE-bench)

  • Élément testé : SWE-bench Verified (précision de résolution de problèmes d’ingénierie logicielle)
  • Sans Thinking / Avec Thinking : différence de performance selon l’utilisation ou non du « Thinking mode » (mode de raisonnement étendu)
    • GPT-5 : 52,8 % sans réflexion, 74,9 % avec le mode Thinking
    • OpenAI o3 : 69,1 %
    • GPT-4o : 30,8 %
  • Ici, GPT-5 a de meilleures performances que o3 lorsqu’il utilise le mode Thinking.

Deception evals across models (évaluations de tromperie)

  • Test mesurant dans quelle mesure un modèle montre des comportements destinés à tromper.
  • Coding deception : GPT-5 (Thinking mode) 50,0 %, o3 47,4 %
  • CharXiv missing image : GPT-5 9,0 %, o3 86,7 %
  • Production traffic : GPT-5 2,1 %, o3 4,8 %
  • Selon la catégorie, GPT-5 a un taux de tromperie plus élevé dans certains domaines, et nettement plus faible dans d’autres.

En résumé, GPT-5 est meilleur que o3 en mode Thinking, mais sur d’autres aspects (par exemple, la propension à tromper), il peut être moins bon ou similaire.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.