5 points par GN⁺ 4 일 전 | 2 commentaires | Partager sur WhatsApp
  • GPT-5.5 a été lancé dans la Chat Completions API et la Responses API, et GPT-5.5 pro a également été ajouté aux requêtes de la Responses API pour les problèmes difficiles qui bénéficient de davantage de calcul
  • GPT-5.5 prend en charge une fenêtre de contexte de 1 million de tokens, l’entrée d’images, les sorties structurées, les appels de fonctions, le prompt caching, Batch, tool search, computer use intégré, hosted shell, apply patch, Skills, MCP et la recherche web
  • La valeur par défaut de reasoning effort est définie sur medium, et lorsque image_detail n’est pas défini ou vaut auto, le comportement existant est conservé
  • Le caching de GPT-5.5 fonctionne uniquement avec extended prompt caching et ne prend pas en charge l’in-memory prompt caching : behavioral changes
  • Modifications du 21 avril
    • GPT Image 2 a été lancé comme dernier modèle de génération d’images pour la création et l’édition d’images
    • GPT Image 2 inclut des tailles d’image flexibles, une entrée d’image haute fidélité, une facturation des images basée sur les tokens et la prise en charge de la Batch API avec 50 % de réduction

2 commentaires

 
ragingwind 4 일 전

Donc à partir de la 5.4, la version pro ne propose plus l’API Chat Completions.

 
GN⁺ 4 일 전
Réactions sur Hacker News
  • Je l’ai testé tout de suite à cause d’un problème en production, et GPT-5.5 a fait un truc que Claude ne faisait pas de cette manière
    Il m’a fait écrire une instruction d’update pour le troubleshooting, puis quand j’ai dit « d’accord, enveloppons ça dans une transaction et ajoutons aussi un rollback », il m’a répondu à l’ancienne avec juste
    BEGIN TRAN;
    -- put the query here
    commit;
    comme ça
    Ça faisait longtemps que je n’avais pas eu besoin de pousser de nouveau un modèle à faire réellement ce que je lui demandais, donc ça m’a assez choqué
    Je comprends l’idée de consommer moins de tokens, mais payer pour un modèle de pointe et le voir répondre paresseusement comme ça, c’est agaçant
    Je l’ai juste essayé parce qu’il apparaissait dans le sélecteur de modèles de Cursor

    • Depuis gpt-5.3-codex, j’ai l’impression que les 2 ou 3 dernières générations n’ont pas tant progressé que ça ; on dirait plutôt qu’on a changé plein de choses pour créer d’autres tradeoffs
    • J’ai peut-être mal compris, mais j’aimerais savoir quel était exactement le problème
      Si le problème est qu’il n’a mis que -- put the query here sans répéter la requête, je ne suis pas sûr que ce soit vraiment un problème
      Si l’objectif réel était d’obtenir la requête à exécuter et que tu as dit « faisons ça dans une transaction », alors t’indiquer qu’il suffit de mettre begin devant est assez raisonnable
      Si la requête était longue, ça économise aussi des tokens, et c’est un peu comme quand tu obtiens permission denied et qu’on te dit d’ajouter sudo devant plutôt que de réécrire toute la commande
      En revanche, si tu attendais réellement que le modèle exécute la requête et qu’il a répondu en mode « c’est là, à toi de jouer », là oui, c’est clairement paresseux et il y a de quoi être décontenancé
    • OpenAI semble enfin être la première entreprise à avoir atteint le niveau d’intelligence où elle fait travailler l’utilisateur
      On dirait bien un emergent behavior de ce genre
      Blague à part, l’obsession d’OpenAI pour l’optimisation de l’intelligence par token me rappelle l’époque pré-M1 où Apple poussait les MacBook ultra-fins à l’excès
      On a l’impression qu’ils poursuivent un seul indicateur jusqu’au bout en sacrifiant tout le reste
      GPT-5.3+ fait clairement partie des modèles les plus intelligents, mais il est souvent tellement paresseux que travailler avec lui devient pénible
    • J’ai du mal à savoir si l’exemple ci-dessus est bon ou mauvais
    • GPT-5.5 pulvérise les benchmarks au moins sur un point : la confiance accordée à l’utilisateur
  • Je viens de le faire tourner sur mon benchmark Wordpress+GravityForms, et même en performance pure il est dans le bas du classement, avec le pire rapport qualité-prix : https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Je sais que ce n’est qu’un seul benchmark, mais j’ai du mal à comprendre comment ça peut être à ce point mauvais

    • On dirait le genre de test bancal qu’un junior bidouillant un domaine qu’il connaît mal dans son garage appellerait un benchmark
      De nos jours, le sens des mots s’effondre trop facilement, donc ce genre de chose devient courant
      Même les forums autrefois remplis de gens qui faisaient réellement du travail technique donnent maintenant l’impression d’être envahis par des vibe researchers, et une fois qu’on dépasse un certain seuil de popularité, ça finit toujours comme ça
      HN ressemble encore à l’un des derniers bastions d’exploration sérieuse, mais même là, à voir le commentaire d’origine, ce n’est pas une immunité totale
    • Dans ton benchmark, gemma4-e4b fait 50 % de mieux que gemma4-26b, donc il y a probablement quelque chose qui cloche
    • Dans ton benchmark, Opus 4.7 est bien pire que Sonnet 4.6, et même si c’était vrai sur ce benchmark précis, ça ne représenterait pas la performance globale des modèles
    • On dirait que tu as même voyagé dans le temps pour ramener ce benchmark
      J’aime bien ce type de benchmarking
      Je suis curieux de savoir comment le judge benchmark a été évalué, et j’aimerais bien monter moi-même un benchmark du même genre
    • Ça ressemble davantage à un benchmark de la capacité du modèle à bien faire du vibe coding
      Le prompt est extrêmement minimal, alors que les critères de notation sont très nombreux
  • Les prix selon la longueur de contexte sont les suivants
    En entrée, $5/M jusqu’à 272K, puis $10/M au-delà
    En sortie, $30/M jusqu’à 272K, puis $45/M au-delà
    En lecture de cache, $0.50/M jusqu’à 272K, puis $1/M au-delà
    Au-delà de 272K, c’est nettement plus cher que Opus 4.7, et du moins pour mon travail, ça ne m’a pas semblé suffisamment plus efficace en tokens
    Ça ne compensait pas cet écart de prix
    GPT-5.4 avait pour atouts un contexte de 400k et une compaction fiable, mais on dirait que les deux ont un peu régressé
    Cela dit, je ne veux pas encore affirmer que la fiabilité de la compaction a réellement baissé
    La sortie frontend continue aussi à pencher vers ce template bleu rempli de cartes très visibles
    C’est un style qui me semblait déjà suspect depuis Horizon Alpha/Beta avant la sortie de GPT-5, mais à l’époque l’adhérence à la tâche était tellement bonne qu’on pouvait tolérer ce gros défaut
    Et pourtant, alors que GPT-5.5 est présenté comme une toute nouvelle foundation, c’est étrange que cet aspect reste encore aussi limité

  • Les résultats globaux de benchmark de raisonnement en code pour GPT 5.5 ont été publiés sur https://gertlabs.com/
    Les évaluations live decision et les evals agentiques plus lourdes continueront à être ajoutées pendant 24 heures, mais il est peu probable que le classement du leaderboard change à ce stade
    GPT 5.5 est le modèle public le plus intelligent, et il est clairement plus rapide que son prédécesseur

  • Hier, ils disaient ceci

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Et aujourd’hui, c’est déjà ça
    Une journée, c’est bien « very soon », mais je me demande ce que voulaient exactement dire ces safeguards et security requirements

    • Quand on dit qu’une sortie est retardée à cause des safeguards, ça veut généralement juste dire qu’on n’a pas, là tout de suite, assez de ressources de calcul à allouer
    • GPT-5.5 existait déjà dans l’API réservée à Codex, et il était explicitement dit qu’on pouvait aussi l’utiliser à d’autres fins
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      Donc je me dis que ça a peut-être accéléré cette annonce
    • Quand quelqu’un a menti aussi ouvertement sur la question de la sécurité et dirige encore l’entreprise, je ne vois pas très bien pourquoi on s’attendrait à ce que ce soit différent à l’avenir
      Il y a aussi des précédents

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman n’a pas été totalement franc à plusieurs reprises sur l’importance de la safety chez OpenAI
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • Je ne sais pas si je suis le seul, mais à chaque actualité de ce genre, j’ai l’impression qu’OpenAI fait tourner des commentateurs payés ou des bots pour rabaisser Claude et pousser l’idée que Codex est bien meilleur
    Il y en a trop, et quand on utilise Claude tous les jours, il y a aussi pas mal d’affirmations qui ne tiennent pas

    • Oui, c’est étrangement visible
      Ça ressemble un peu à l’ambiance générale où tout le monde semble avoir oublié qu’OpenAI a trahi la démocratie en acceptant de collaborer à des armes autonomes sans supervision et à une surveillance de masse à l’intérieur du pays
    • Moi aussi, ça me paraît assez flagrant
      En tout cas, au grand jour, ça a commencé juste après le hype autour d’Opus 4.6
    • Bien sûr qu’ils font ce genre de choses
      Aujourd’hui, toutes les entreprises qui poussent leur produit se comportent plus ou moins de la même manière
  • Je suis utilisateur Enterprise, mais je ne vois toujours que 5.4
    L’annonce d’hier disait qu’il faudrait quelques heures pour le rollout complet, mais OpenAI devrait mieux gérer son GTM pour cadrer les attentes

    • Je viens d’actualiser et 5.5 apparaît maintenant
      C’est bien que le déploiement ait été rapide
      La prochaine fois, il faudra que je me plaigne plus tôt
  • C’est le deuxième modèle à obtenir 25/25 dans mon benchmark
    Le premier était Opus 4.7, et les résultats sont ici : https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Moins cher qu’Opus, mais plus lent

  • Sur la page API, la knowledge cutoff est indiquée au 2025-12-01, mais si on pose directement la question au modèle, il répond juin 2024
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • Je ne comprends pas pourquoi ce sujet revient sans arrêt
      Demander directement au modèle sa date de cutoff a toujours été la méthode la moins fiable pour la vérifier
      Il a même pu être entraîné sur des commentaires comme celui-ci
      Il suffit de lui demander un événement survenu juste avant le 2025-12-01
      Si possible, un match sportif, c’est encore mieux
    • Je ne suis pas sûr qu’on puisse vraiment croire ce que dit le modèle
      Beaucoup d’anciennes pages d’API de modèles indiquaient aussi une cutoff en juin 2024, donc il répète peut-être juste ça
    • Si on ne lui donne pas l’information dans le prompt système, le modèle ne connaît pas sa propre cutoff date
      La bonne manière de vérifier la vraie cutoff est de lui demander quelque chose qui n’existait pas ou ne s’était pas produit avant cette date
      Après quelques essais à la louche, la cutoff de connaissances générales de 5.5 semble toujours se situer autour du début 2025
    • Donc on pourrait tester avec le gagnant de l’élection présidentielle américaine de 2024 ?
  • Le combo GPT 5.5 + Codex est vraiment excellent
    Que ce soit pour poser des questions, faire des plans ou implémenter du code, je le lui confie maintenant presque sans hésiter
    Avec Opus 4.7, je ressens toujours le besoin de revérifier
    Il suit mal les instructions de CLAUDE.md, hallucine souvent, et quand il ne trouve pas la réponse, il a tendance par défaut à l’inventer, donc c’est un vrai problème
    L’an dernier, quand tout le monde disait qu’OpenAI était à la traîne, en code red, c’est allé extrêmement vite ; et maintenant, avec le recul, la situation a complètement changé