Vibechart

(vibechart.net)

1 points par GN⁺ 2025-08-08 | 1 commentaires | Partager sur WhatsApp

Vibechart est un outil de visualisation qui permet aux utilisateurs de créer des graphiques comme ils veulent les voir, plutôt que selon des critères traditionnels comme la véracité, la valeur esthétique ou l’utilité.
Interprétation du graphique utilisé lors de l’annonce de GPT-5

Comparaison des performances de GPT-5 (Academic / SWE-bench)

Élément testé : SWE-bench Verified (précision de résolution de problèmes d’ingénierie logicielle)
Sans Thinking / Avec Thinking : différence de performance selon l’utilisation ou non du « Thinking mode » (mode de raisonnement étendu)
- GPT-5 : 52,8 % sans réflexion, 74,9 % avec le mode Thinking
- OpenAI o3 : 69,1 %
- GPT-4o : 30,8 %
Ici, GPT-5 a de meilleures performances que o3 lorsqu’il utilise le mode Thinking.

Deception evals across models (évaluations de tromperie)

Test mesurant dans quelle mesure un modèle montre des comportements destinés à tromper.
Coding deception : GPT-5 (Thinking mode) 50,0 %, o3 47,4 %
CharXiv missing image : GPT-5 9,0 %, o3 86,7 %
Production traffic : GPT-5 2,1 %, o3 4,8 %
Selon la catégorie, GPT-5 a un taux de tromperie plus élevé dans certains domaines, et nettement plus faible dans d’autres.

En résumé, GPT-5 est meilleur que o3 en mode Thinking, mais sur d’autres aspects (par exemple, la propension à tromper), il peut être moins bon ou similaire.

1 commentaires

GN⁺ 2025-08-08

Avis de Hacker News

Il existe une version avec des chiffres et des tailles de barres encore plus crédibles dans la section « evaluation » du post de présentation de GPT-5 d’OpenAI (lien). Même si cela peut n’être qu’une simple erreur, le simple fait qu’une entreprise qui dépense des milliards de dollars pour promettre de révolutionner toutes les activités humaines donne l’impression de ne pas savoir faire une slide PowerPoint correcte, c’est peu bon
- C’est un peu comme s’ils goûtaient eux-mêmes la nourriture qu’ils vendent ; si c’était une formule qu’ils commercialisent, c’est le genre de résultat qu’on obtiendrait
- Peut-être que la nouvelle IA a généré le graphique
- Les gens d’OpenAI sont parmi les meilleurs dans leur domaine, je pense difficilement qu’ils commettent une erreur de ce niveau
Au départ, j’ai cru qu’il s’agissait d’un indicateur lié au vibe coding ; en fait non, c’est WakaTime
Le graphique « Coding deception » devrait aussi être inclus, c’est extrêmement trompeur (50.0 n’est pas inférieur à 47.4) (lien)
- J’ai collé l’image de ce graphique dans ChatGPT-5 et demandé : « On dirait qu’il y a une erreur sur ce graphique, pouvez-vous trouver laquelle ? ». ChatGPT a répondu : « Dans la première section “Coding deception”, la barre rose de GPT-5 (version Thinking) est indiquée à 50.0 % et la barre blanche d’OpenAI o3 à 47.4 %, mais visuellement, la barre blanche est dessinée plus courte que la barre rose. La différence en pourcentage est faible, mais le visuel ne colle pas. » J’ai donc eu l’impression qu’il aurait fallu utiliser ChatGPT pour relire les slides
- Il a fallu pas mal de temps pour identifier ce qui clochait à la fois dans le post initial et dans le lien ci-dessus. Je ne comprends pas du tout dans quel état d’esprit ça a été fait. Je me demande maintenant si l’IA fait les graphiques et si personne ne les relit
- C’est tellement manifestement faux que je pense que quelqu’un a probablement mal étiqueté le graphique, même si je me demande peut-être si je suis trop optimiste
- Je l’ai ajouté au graphique
- J’en comprends un peu. La « deception » est une propriété indésirable dans un LLM, donc plus c’est bas, mieux c’est pour le public. Mais pour d’autres métriques qui n’ont pas la propriété « less is more », je ne vois pas comment le représenter correctement sur un graphique (sans compter le problème du point de départ de l’axe qui n’est pas 0). Au final, je trouve ça totalement incohérent
Je me demande comment cela a pu se produire. J’imagine qu’à la fin, un cadre dirigeant est intervenu en disant : « Si le nouveau modèle semble n’avoir que peu progressé par rapport à l’ancien, il faut modifier l’axe y pour que cela paraisse une amélioration plus importante »
- Le fait que des gens aussi incompétents détiennent autant d’argent et de pouvoir est vraiment inquiétant
- Il se peut même qu’ils aient demandé à GPT-5 de corriger les slides
- L’ambiance d’urgence qui règne autour d’OpenAI rend incroyable, mais pas insensé, qu’un tel effet de hype ait été orchestré au sommet
- C’est devenu la norme dans l’industrie. Par exemple, Nvidia fait la même chose à chaque sortie de nouveau GPU. Apple fait pareil avec les CPU de la série M. Ils vont même parfois jusqu’à exagérer en comparant avec des modèles de plusieurs générations
Je miserai toujours sur des graphiques avec plus de rose que de gris
OpenAI a su depuis le début que les « données » faisaient partie du marketing, et a géré ça en conséquence. Je pense que ce n’était pas volontaire, mais depuis l’époque de Dota 2, ils savaient déjà parfaitement présenter les données en amplifiant les résultats et en cachant les échecs
C’est la même démarche que la démonstration du verre sur le Cybertruck
La colonne 69.1 a la même hauteur que la colonne 30.8. Ils ont probablement dupliqué la colonne 30.8, changé juste le nombre et oublié d’ajuster la hauteur, puis ont à peine vérifié que c’était inférieur au nouveau modèle avant de passer à autre chose. La hauteur de la colonne 50.0, en revanche, ne s’explique pas non plus ainsi
- À première vue, cette barre semble vraiment faire 15 % environ de hauteur. Ils ont peut-être écrit 15 au lieu de 50. Mais ce type d’erreur me semble plus plausible dans une présentation de lycée que dans le keynote d’une startup des plus en vue de l’histoire. Au passage, toutes les personnes impliquées dans cette présentation touchent un bonus garanti de 1,5 million de dollars. Ça me fend le cœur quand j’y pense
- Je ne comprends pas pourquoi, dans une présentation professionnelle, ils ont fait la barre et les labels séparément à la main. Ce n’est pas pour un style particulier, et le fait qu’une erreur aussi basique apparaisse sur un simple bar chart est difficile à expliquer, à moins que ce ne soit volontaire
Voir tout le monde tenter de duper la naïveté de chacun et le résultat en rire