OpenAI lance GPT-5.5 et GPT-5.5 Pro dans l’API
(developers.openai.com)- GPT-5.5 a été lancé dans la Chat Completions API et la Responses API, et GPT-5.5 pro a également été ajouté aux requêtes de la Responses API pour les problèmes difficiles qui bénéficient de davantage de calcul
- GPT-5.5 prend en charge une fenêtre de contexte de 1 million de tokens, l’entrée d’images, les sorties structurées, les appels de fonctions, le prompt caching, Batch, tool search, computer use intégré, hosted shell, apply patch, Skills, MCP et la recherche web
- La valeur par défaut de reasoning effort est définie sur
medium, et lorsqueimage_detailn’est pas défini ou vautauto, le comportement existant est conservé - Le caching de GPT-5.5 fonctionne uniquement avec extended prompt caching et ne prend pas en charge l’in-memory prompt caching : behavioral changes
- Modifications du 21 avril
- GPT Image 2 a été lancé comme dernier modèle de génération d’images pour la création et l’édition d’images
- GPT Image 2 inclut des tailles d’image flexibles, une entrée d’image haute fidélité, une facturation des images basée sur les tokens et la prise en charge de la Batch API avec 50 % de réduction
2 commentaires
Donc à partir de la 5.4, la version pro ne propose plus l’API Chat Completions.
Réactions sur Hacker News
Je l’ai testé tout de suite à cause d’un problème en production, et GPT-5.5 a fait un truc que Claude ne faisait pas de cette manière
Il m’a fait écrire une instruction d’update pour le troubleshooting, puis quand j’ai dit « d’accord, enveloppons ça dans une transaction et ajoutons aussi un rollback », il m’a répondu à l’ancienne avec juste
BEGIN TRAN;-- put the query herecommit;comme ça
Ça faisait longtemps que je n’avais pas eu besoin de pousser de nouveau un modèle à faire réellement ce que je lui demandais, donc ça m’a assez choqué
Je comprends l’idée de consommer moins de tokens, mais payer pour un modèle de pointe et le voir répondre paresseusement comme ça, c’est agaçant
Je l’ai juste essayé parce qu’il apparaissait dans le sélecteur de modèles de Cursor
Si le problème est qu’il n’a mis que
-- put the query heresans répéter la requête, je ne suis pas sûr que ce soit vraiment un problèmeSi l’objectif réel était d’obtenir la requête à exécuter et que tu as dit « faisons ça dans une transaction », alors t’indiquer qu’il suffit de mettre
begindevant est assez raisonnableSi la requête était longue, ça économise aussi des tokens, et c’est un peu comme quand tu obtiens
permission deniedet qu’on te dit d’ajoutersudodevant plutôt que de réécrire toute la commandeEn revanche, si tu attendais réellement que le modèle exécute la requête et qu’il a répondu en mode « c’est là, à toi de jouer », là oui, c’est clairement paresseux et il y a de quoi être décontenancé
On dirait bien un emergent behavior de ce genre
Blague à part, l’obsession d’OpenAI pour l’optimisation de l’intelligence par token me rappelle l’époque pré-M1 où Apple poussait les MacBook ultra-fins à l’excès
On a l’impression qu’ils poursuivent un seul indicateur jusqu’au bout en sacrifiant tout le reste
GPT-5.3+ fait clairement partie des modèles les plus intelligents, mais il est souvent tellement paresseux que travailler avec lui devient pénible
Je viens de le faire tourner sur mon benchmark Wordpress+GravityForms, et même en performance pure il est dans le bas du classement, avec le pire rapport qualité-prix : https://github.com/guilamu/llms-wordpress-plugin-benchmark
Je sais que ce n’est qu’un seul benchmark, mais j’ai du mal à comprendre comment ça peut être à ce point mauvais
De nos jours, le sens des mots s’effondre trop facilement, donc ce genre de chose devient courant
Même les forums autrefois remplis de gens qui faisaient réellement du travail technique donnent maintenant l’impression d’être envahis par des vibe researchers, et une fois qu’on dépasse un certain seuil de popularité, ça finit toujours comme ça
HN ressemble encore à l’un des derniers bastions d’exploration sérieuse, mais même là, à voir le commentaire d’origine, ce n’est pas une immunité totale
J’aime bien ce type de benchmarking
Je suis curieux de savoir comment le judge benchmark a été évalué, et j’aimerais bien monter moi-même un benchmark du même genre
Le prompt est extrêmement minimal, alors que les critères de notation sont très nombreux
Les prix selon la longueur de contexte sont les suivants
En entrée, $5/M jusqu’à 272K, puis $10/M au-delà
En sortie, $30/M jusqu’à 272K, puis $45/M au-delà
En lecture de cache, $0.50/M jusqu’à 272K, puis $1/M au-delà
Au-delà de 272K, c’est nettement plus cher que Opus 4.7, et du moins pour mon travail, ça ne m’a pas semblé suffisamment plus efficace en tokens
Ça ne compensait pas cet écart de prix
GPT-5.4 avait pour atouts un contexte de 400k et une compaction fiable, mais on dirait que les deux ont un peu régressé
Cela dit, je ne veux pas encore affirmer que la fiabilité de la compaction a réellement baissé
La sortie frontend continue aussi à pencher vers ce template bleu rempli de cartes très visibles
C’est un style qui me semblait déjà suspect depuis Horizon Alpha/Beta avant la sortie de GPT-5, mais à l’époque l’adhérence à la tâche était tellement bonne qu’on pouvait tolérer ce gros défaut
Et pourtant, alors que GPT-5.5 est présenté comme une toute nouvelle foundation, c’est étrange que cet aspect reste encore aussi limité
Les résultats globaux de benchmark de raisonnement en code pour GPT 5.5 ont été publiés sur https://gertlabs.com/
Les évaluations live decision et les evals agentiques plus lourdes continueront à être ajoutées pendant 24 heures, mais il est peu probable que le classement du leaderboard change à ce stade
GPT 5.5 est le modèle public le plus intelligent, et il est clairement plus rapide que son prédécesseur
Hier, ils disaient ceci
https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
Donc je me dis que ça a peut-être accéléré cette annonce
Il y a aussi des précédents
Je ne sais pas si je suis le seul, mais à chaque actualité de ce genre, j’ai l’impression qu’OpenAI fait tourner des commentateurs payés ou des bots pour rabaisser Claude et pousser l’idée que Codex est bien meilleur
Il y en a trop, et quand on utilise Claude tous les jours, il y a aussi pas mal d’affirmations qui ne tiennent pas
Ça ressemble un peu à l’ambiance générale où tout le monde semble avoir oublié qu’OpenAI a trahi la démocratie en acceptant de collaborer à des armes autonomes sans supervision et à une surveillance de masse à l’intérieur du pays
En tout cas, au grand jour, ça a commencé juste après le hype autour d’Opus 4.6
Aujourd’hui, toutes les entreprises qui poussent leur produit se comportent plus ou moins de la même manière
Je suis utilisateur Enterprise, mais je ne vois toujours que 5.4
L’annonce d’hier disait qu’il faudrait quelques heures pour le rollout complet, mais OpenAI devrait mieux gérer son GTM pour cadrer les attentes
C’est bien que le déploiement ait été rapide
La prochaine fois, il faudra que je me plaigne plus tôt
C’est le deuxième modèle à obtenir 25/25 dans mon benchmark
Le premier était Opus 4.7, et les résultats sont ici : https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
Moins cher qu’Opus, mais plus lent
Sur la page API, la knowledge cutoff est indiquée au 2025-12-01, mais si on pose directement la question au modèle, il répond juin 2024
Knowledge cutoff: 2024-06Current date: 2026-04-24You are an AI assistant accessed via an API.Demander directement au modèle sa date de cutoff a toujours été la méthode la moins fiable pour la vérifier
Il a même pu être entraîné sur des commentaires comme celui-ci
Il suffit de lui demander un événement survenu juste avant le 2025-12-01
Si possible, un match sportif, c’est encore mieux
Beaucoup d’anciennes pages d’API de modèles indiquaient aussi une cutoff en juin 2024, donc il répète peut-être juste ça
La bonne manière de vérifier la vraie cutoff est de lui demander quelque chose qui n’existait pas ou ne s’était pas produit avant cette date
Après quelques essais à la louche, la cutoff de connaissances générales de 5.5 semble toujours se situer autour du début 2025
Le combo GPT 5.5 + Codex est vraiment excellent
Que ce soit pour poser des questions, faire des plans ou implémenter du code, je le lui confie maintenant presque sans hésiter
Avec Opus 4.7, je ressens toujours le besoin de revérifier
Il suit mal les instructions de
CLAUDE.md, hallucine souvent, et quand il ne trouve pas la réponse, il a tendance par défaut à l’inventer, donc c’est un vrai problèmeL’an dernier, quand tout le monde disait qu’OpenAI était à la traîne, en code red, c’est allé extrêmement vite ; et maintenant, avec le recul, la situation a complètement changé