OpenAI lance GPT-5.5 et GPT-5.5 Pro dans l’API

(developers.openai.com)

5 points par GN⁺ 4 일 전 | 2 commentaires | Partager sur WhatsApp

GPT-5.5 a été lancé dans la Chat Completions API et la Responses API, et GPT-5.5 pro a également été ajouté aux requêtes de la Responses API pour les problèmes difficiles qui bénéficient de davantage de calcul
GPT-5.5 prend en charge une fenêtre de contexte de 1 million de tokens, l’entrée d’images, les sorties structurées, les appels de fonctions, le prompt caching, Batch, tool search, computer use intégré, hosted shell, apply patch, Skills, MCP et la recherche web
La valeur par défaut de reasoning effort est définie sur medium, et lorsque image_detail n’est pas défini ou vaut auto, le comportement existant est conservé
Le caching de GPT-5.5 fonctionne uniquement avec extended prompt caching et ne prend pas en charge l’in-memory prompt caching : behavioral changes
Modifications du 21 avril
- GPT Image 2 a été lancé comme dernier modèle de génération d’images pour la création et l’édition d’images
- GPT Image 2 inclut des tailles d’image flexibles, une entrée d’image haute fidélité, une facturation des images basée sur les tokens et la prise en charge de la Batch API avec 50 % de réduction

2 commentaires

ragingwind 4 일 전

Donc à partir de la 5.4, la version pro ne propose plus l’API Chat Completions.

GN⁺ 4 일 전

Réactions sur Hacker News

Je l’ai testé tout de suite à cause d’un problème en production, et GPT-5.5 a fait un truc que Claude ne faisait pas de cette manière
Il m’a fait écrire une instruction d’update pour le troubleshooting, puis quand j’ai dit « d’accord, enveloppons ça dans une transaction et ajoutons aussi un rollback », il m’a répondu à l’ancienne avec juste
BEGIN TRAN;
-- put the query here
commit;
comme ça
Ça faisait longtemps que je n’avais pas eu besoin de pousser de nouveau un modèle à faire réellement ce que je lui demandais, donc ça m’a assez choqué
Je comprends l’idée de consommer moins de tokens, mais payer pour un modèle de pointe et le voir répondre paresseusement comme ça, c’est agaçant
Je l’ai juste essayé parce qu’il apparaissait dans le sélecteur de modèles de Cursor
- Depuis gpt-5.3-codex, j’ai l’impression que les 2 ou 3 dernières générations n’ont pas tant progressé que ça ; on dirait plutôt qu’on a changé plein de choses pour créer d’autres tradeoffs
- J’ai peut-être mal compris, mais j’aimerais savoir quel était exactement le problème
  Si le problème est qu’il n’a mis que -- put the query here sans répéter la requête, je ne suis pas sûr que ce soit vraiment un problème
  Si l’objectif réel était d’obtenir la requête à exécuter et que tu as dit « faisons ça dans une transaction », alors t’indiquer qu’il suffit de mettre begin devant est assez raisonnable
  Si la requête était longue, ça économise aussi des tokens, et c’est un peu comme quand tu obtiens permission denied et qu’on te dit d’ajouter sudo devant plutôt que de réécrire toute la commande
  En revanche, si tu attendais réellement que le modèle exécute la requête et qu’il a répondu en mode « c’est là, à toi de jouer », là oui, c’est clairement paresseux et il y a de quoi être décontenancé
- OpenAI semble enfin être la première entreprise à avoir atteint le niveau d’intelligence où elle fait travailler l’utilisateur
  On dirait bien un emergent behavior de ce genre
  Blague à part, l’obsession d’OpenAI pour l’optimisation de l’intelligence par token me rappelle l’époque pré-M1 où Apple poussait les MacBook ultra-fins à l’excès
  On a l’impression qu’ils poursuivent un seul indicateur jusqu’au bout en sacrifiant tout le reste
  GPT-5.3+ fait clairement partie des modèles les plus intelligents, mais il est souvent tellement paresseux que travailler avec lui devient pénible
- J’ai du mal à savoir si l’exemple ci-dessus est bon ou mauvais
- GPT-5.5 pulvérise les benchmarks au moins sur un point : la confiance accordée à l’utilisateur
Je viens de le faire tourner sur mon benchmark Wordpress+GravityForms, et même en performance pure il est dans le bas du classement, avec le pire rapport qualité-prix : https://github.com/guilamu/llms-wordpress-plugin-benchmark
Je sais que ce n’est qu’un seul benchmark, mais j’ai du mal à comprendre comment ça peut être à ce point mauvais
- On dirait le genre de test bancal qu’un junior bidouillant un domaine qu’il connaît mal dans son garage appellerait un benchmark
  De nos jours, le sens des mots s’effondre trop facilement, donc ce genre de chose devient courant
  Même les forums autrefois remplis de gens qui faisaient réellement du travail technique donnent maintenant l’impression d’être envahis par des vibe researchers, et une fois qu’on dépasse un certain seuil de popularité, ça finit toujours comme ça
  HN ressemble encore à l’un des derniers bastions d’exploration sérieuse, mais même là, à voir le commentaire d’origine, ce n’est pas une immunité totale
- Dans ton benchmark, gemma4-e4b fait 50 % de mieux que gemma4-26b, donc il y a probablement quelque chose qui cloche
- Dans ton benchmark, Opus 4.7 est bien pire que Sonnet 4.6, et même si c’était vrai sur ce benchmark précis, ça ne représenterait pas la performance globale des modèles
- On dirait que tu as même voyagé dans le temps pour ramener ce benchmark
  J’aime bien ce type de benchmarking
  Je suis curieux de savoir comment le judge benchmark a été évalué, et j’aimerais bien monter moi-même un benchmark du même genre
- Ça ressemble davantage à un benchmark de la capacité du modèle à bien faire du vibe coding
  Le prompt est extrêmement minimal, alors que les critères de notation sont très nombreux
Les prix selon la longueur de contexte sont les suivants
En entrée, $5/M jusqu’à 272K, puis $10/M au-delà
En sortie, $30/M jusqu’à 272K, puis $45/M au-delà
En lecture de cache, $0.50/M jusqu’à 272K, puis $1/M au-delà
Au-delà de 272K, c’est nettement plus cher que Opus 4.7, et du moins pour mon travail, ça ne m’a pas semblé suffisamment plus efficace en tokens
Ça ne compensait pas cet écart de prix
GPT-5.4 avait pour atouts un contexte de 400k et une compaction fiable, mais on dirait que les deux ont un peu régressé
Cela dit, je ne veux pas encore affirmer que la fiabilité de la compaction a réellement baissé
La sortie frontend continue aussi à pencher vers ce template bleu rempli de cartes très visibles
C’est un style qui me semblait déjà suspect depuis Horizon Alpha/Beta avant la sortie de GPT-5, mais à l’époque l’adhérence à la tâche était tellement bonne qu’on pouvait tolérer ce gros défaut
Et pourtant, alors que GPT-5.5 est présenté comme une toute nouvelle foundation, c’est étrange que cet aspect reste encore aussi limité
Les résultats globaux de benchmark de raisonnement en code pour GPT 5.5 ont été publiés sur https://gertlabs.com/
Les évaluations live decision et les evals agentiques plus lourdes continueront à être ajoutées pendant 24 heures, mais il est peu probable que le classement du leaderboard change à ce stade
GPT 5.5 est le modèle public le plus intelligent, et il est clairement plus rapide que son prédécesseur
Hier, ils disaient ceci

API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
Et aujourd’hui, c’est déjà ça
Une journée, c’est bien « very soon », mais je me demande ce que voulaient exactement dire ces safeguards et security requirements
- Quand on dit qu’une sortie est retardée à cause des safeguards, ça veut généralement juste dire qu’on n’a pas, là tout de suite, assez de ressources de calcul à allouer
- GPT-5.5 existait déjà dans l’API réservée à Codex, et il était explicitement dit qu’on pouvait aussi l’utiliser à d’autres fins
  https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
  Donc je me dis que ça a peut-être accéléré cette annonce
- Quand quelqu’un a menti aussi ouvertement sur la question de la sécurité et dirige encore l’entreprise, je ne vois pas très bien pourquoi on s’attendrait à ce que ce soit différent à l’avenir
  Il y a aussi des précédents
  
  In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
  Altman n’a pas été totalement franc à plusieurs reprises sur l’importance de la safety chez OpenAI
  https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)
Je ne sais pas si je suis le seul, mais à chaque actualité de ce genre, j’ai l’impression qu’OpenAI fait tourner des commentateurs payés ou des bots pour rabaisser Claude et pousser l’idée que Codex est bien meilleur
Il y en a trop, et quand on utilise Claude tous les jours, il y a aussi pas mal d’affirmations qui ne tiennent pas
- Oui, c’est étrangement visible
  Ça ressemble un peu à l’ambiance générale où tout le monde semble avoir oublié qu’OpenAI a trahi la démocratie en acceptant de collaborer à des armes autonomes sans supervision et à une surveillance de masse à l’intérieur du pays
- Moi aussi, ça me paraît assez flagrant
  En tout cas, au grand jour, ça a commencé juste après le hype autour d’Opus 4.6
- Bien sûr qu’ils font ce genre de choses
  Aujourd’hui, toutes les entreprises qui poussent leur produit se comportent plus ou moins de la même manière
Je suis utilisateur Enterprise, mais je ne vois toujours que 5.4
L’annonce d’hier disait qu’il faudrait quelques heures pour le rollout complet, mais OpenAI devrait mieux gérer son GTM pour cadrer les attentes
- Je viens d’actualiser et 5.5 apparaît maintenant
  C’est bien que le déploiement ait été rapide
  La prochaine fois, il faudra que je me plaigne plus tôt
C’est le deuxième modèle à obtenir 25/25 dans mon benchmark
Le premier était Opus 4.7, et les résultats sont ici : https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
Moins cher qu’Opus, mais plus lent
Sur la page API, la knowledge cutoff est indiquée au 2025-12-01, mais si on pose directement la question au modèle, il répond juin 2024
Knowledge cutoff: 2024-06
Current date: 2026-04-24
You are an AI assistant accessed via an API.
- Je ne comprends pas pourquoi ce sujet revient sans arrêt
  Demander directement au modèle sa date de cutoff a toujours été la méthode la moins fiable pour la vérifier
  Il a même pu être entraîné sur des commentaires comme celui-ci
  Il suffit de lui demander un événement survenu juste avant le 2025-12-01
  Si possible, un match sportif, c’est encore mieux
- Je ne suis pas sûr qu’on puisse vraiment croire ce que dit le modèle
  Beaucoup d’anciennes pages d’API de modèles indiquaient aussi une cutoff en juin 2024, donc il répète peut-être juste ça
- Si on ne lui donne pas l’information dans le prompt système, le modèle ne connaît pas sa propre cutoff date
  La bonne manière de vérifier la vraie cutoff est de lui demander quelque chose qui n’existait pas ou ne s’était pas produit avant cette date
  Après quelques essais à la louche, la cutoff de connaissances générales de 5.5 semble toujours se situer autour du début 2025
- Donc on pourrait tester avec le gagnant de l’élection présidentielle américaine de 2024 ?
Le combo GPT 5.5 + Codex est vraiment excellent
Que ce soit pour poser des questions, faire des plans ou implémenter du code, je le lui confie maintenant presque sans hésiter
Avec Opus 4.7, je ressens toujours le besoin de revérifier
Il suit mal les instructions de CLAUDE.md, hallucine souvent, et quand il ne trouve pas la réponse, il a tendance par défaut à l’inventer, donc c’est un vrai problème
L’an dernier, quand tout le monde disait qu’OpenAI était à la traîne, en code red, c’est allé extrêmement vite ; et maintenant, avec le recul, la situation a complètement changé

OpenAI lance GPT-5.5 et GPT-5.5 Pro dans l’API

À lire aussi

2 commentaires

Réactions sur Hacker News