- OpenAI ouvre un aperçu limité de la série GPT‑5.6, avec son modèle phare Sol, Terra pour les tâches du quotidien, et Luna à bas coût
- Sol renforce ses capacités agentiques en code, biologie et cybersécurité, et prend en charge un effort de raisonnement
maxainsi qu’un modeultrapour un raisonnement plus approfondi et l’usage de sous-agents - Les performances en cybersécurité progressent sur ExploitBench et ExploitGym, mais dans les conditions d’évaluation sur Chromium et Firefox, le modèle ne parvient pas à générer de façon autonome un full-chain exploit fonctionnel, et ne dépasse donc pas le seuil Cyber Critical
- L’aperçu est d’abord proposé via l’API et Codex à certains partenaires et organisations de confiance, avant une ouverture plus large après une procédure de restriction liée à une demande du gouvernement américain
- Les prix par million de tokens sont de 5 $ en entrée / 30 $ en sortie pour Sol, 2,50 $ / 15 $ pour Terra, et 1 $ / 6 $ pour Luna ; les écritures de cache sont facturées 1,25× et les lectures de cache bénéficient d’une réduction de 90 %
Périmètre de l’aperçu de la série GPT‑5.6
- OpenAI présente d’abord la gamme GPT‑5.6 sous forme d’aperçu limité
- Sol : modèle phare
- Terra : modèle équilibré pour les tâches du quotidien
- Luna : modèle rapide et économique
- Terra offre des performances compétitives face à GPT‑5.5 pour un prix deux fois inférieur
- Luna propose de solides capacités au coût le plus bas jamais proposé par OpenAI
- GPT‑5.6 Sol est lancé avec la pile de sécurité la plus robuste qu’OpenAI ait construite à ce jour
- activités à haut risque
- requêtes cyber sensibles
- abus répétés
- recherche de failles et tests de résistance face à des attaques réelles
Ouverture limitée et concertation avec le gouvernement
- OpenAI prévoit une disponibilité générale de GPT‑5.6 Sol, Terra et Luna dans les prochaines semaines
- Dans le cadre de discussions continues avec le gouvernement américain, l’entreprise a partagé ses plans de lancement ainsi que les capacités des modèles avant leur sortie
- À la demande du gouvernement, un aperçu limité est d’abord lancé auprès d’un petit nombre de partenaires de confiance, dont la participation est communiquée au gouvernement
- OpenAI estime que ce type de procédure d’accès gouvernementale ne doit pas devenir la norme à long terme
- car cela pourrait empêcher les utilisateurs, développeurs, entreprises, défenseurs cyber et partenaires mondiaux d’accéder aux outils dont ils ont besoin
- Cette procédure de court terme vise à ouvrir la voie à une diffusion plus large dans les prochaines semaines
- pendant que l’administration et OpenAI élaborent, dans le cadre de l’Executive Order sur la cybersécurité et pour les futurs lancements de modèles, une procédure reproductible
Capacités du modèle et évaluations
- GPT‑5.6 Sol est présenté comme le modèle le plus puissant d’OpenAI
- Il montre de meilleures capacités agentiques dans les évaluations en code, biologie et cybersécurité
- Des évaluations complémentaires sur la sécurité et la préparation figurent dans la system card de GPT‑5.6 Preview
- OpenAI prévoit de partager un ensemble élargi de résultats d’évaluation lors d’une diffusion plus large
-
Modes de raisonnement
- GPT‑5.6 introduit un effort de raisonnement
maxqui permet à Sol de raisonner plus longtemps et plus en profondeur - Le nouveau mode
ultrava au-delà des capacités d’un agent unique en exploitant des sous-agents pour accélérer les tâches complexes
- GPT‑5.6 introduit un effort de raisonnement
-
Code et biologie
- GPT‑5.6 Sol atteint un nouveau meilleur niveau sur Terminal‑Bench 2.1, qui évalue les workflows en ligne de commande
- Ce benchmark teste des tâches en ligne de commande qui exigent planification, itération et coordination d’outils
- Sur GeneBench v1, il obtient de meilleurs résultats que GPT‑5.5 tout en utilisant moins de tokens
- GeneBench v1 évalue des analyses de génomique et de biologie quantitative sur un horizon long
-
Cybersécurité
- GPT‑5.6 Sol est le modèle le plus capable d’OpenAI pour les tâches de cybersécurité
- Il déplace la frontière performance-efficacité sur les tâches de sécurité longues, y compris la recherche de vulnérabilités et les exploits
- Sur ExploitBench, il obtient des résultats compétitifs face à Mythos Preview tout en n’utilisant qu’environ un tiers des tokens en sortie
- Sur ExploitGym, Sol, Terra et Luna montrent tous de fortes améliorations de leurs capacités cyber à mesure que le raisonnement augmente
- ExploitGym est un benchmark créé par des chercheurs de l’UC Berkeley en collaboration avec OpenAI et d’autres frontier labs
Capacités cyber et garde-fous
- GPT‑5.6 Sol, Terra et Luna ont été développés avec les garde-fous les plus robustes d’OpenAI, adaptés aux capacités de chaque modèle
- À mesure que les capacités des modèles augmentent, ces garde-fous sont conçus pour résister à une pression adversariale réelle
- L’objectif est de préserver l’accès aux tâches de défense légitimes
- revue de code
- recherche de vulnérabilités
- développement de correctifs
- débogage
- formation à la sécurité
- tests défensifs
- Le but est de rendre les activités offensives interdites plus difficiles, plus incertaines et plus détectables, sans restreindre inutilement les usages bénéfiques
- Selon l’évaluation d’OpenAI, les tâches défensives légitimes en tirent un bénéfice important, tandis que les usages offensifs interdits sont significativement contraints
-
Seuil Cyber Critical
- GPT‑5.6 Sol ne dépasse pas le seuil Cyber Critical selon le Preparedness Framework
- Dans les évaluations liées à Chromium et Firefox, il identifie des bugs et des exploit primitives
- Dans les conditions de test, il ne parvient pas à créer de manière autonome un full-chain exploit fonctionnel
- Les seuils de benchmark ne capturent pas nécessairement tous les usages possibles du modèle ni sa combinaison avec d’autres outils
- En raison de cette incertitude et de l’amélioration globale des capacités, OpenAI applique aussi des garde-fous renforcés et un lancement progressif
Pile de sécurité multicouche
- Les abus intentionnels ou adaptatifs sont difficiles à bloquer avec un seul garde-fou
- Tout l’aperçu GPT‑5.6 applique des garde-fous multicouches, avec une configuration qui varie selon le modèle
- protections entraînées dans le modèle
- contrôles en temps réel pendant la génération
- signaux au niveau du compte
- accès différencié
- surveillance
- application
- tests continus
-
Refus au niveau du modèle et contrôles en temps réel
- GPT‑5.6 a été entraîné à refuser l’assistance cyber interdite, même si l’utilisateur tente de dissimuler son intention ou de pratiquer un jailbreak
- Des classifieurs en temps réel sur les abus cyber et biologiques évaluent les sorties en cours de génération
- Dans les cas à haut risque, la génération peut être mise en pause si une violation potentielle est détectée
- Un modèle de raisonnement plus grand peut examiner la conversation et son contexte, et si la sortie est jugée interdite, elle est retenue avant d’atteindre l’utilisateur
-
Examen au niveau du compte et accès différencié
- Une activité signalée peut conduire à un examen au niveau du compte, incluant les conversations concernées et les signaux de risque
- Observer le contexte au niveau du compte, plutôt qu’une seule conversation, aide à distinguer les tâches de sécurité légitimes à double usage d’un comportement malveillant persistant
- L’accès différencié vise à préserver les tâches défensives importantes tout en évitant que les capacités les plus sensibles ne soient largement accessibles par défaut
-
Impact pour les utilisateurs pendant l’aperçu
- Pendant la période d’aperçu, certaines requêtes peuvent être bloquées ou refusées
- Si une génération est mise en pause pour examen complémentaire, certaines requêtes peuvent prendre plus de temps
- Dans les zones à double usage, où activités défensives et offensives peuvent d’abord se ressembler, les garde-fous peuvent aussi intervenir sur des tâches légitimes
- Les retours de l’aperçu servent à réduire les blocages et délais inutiles, à améliorer l’interprétation contextuelle des garde-fous et à affiner l’expérience avant un lancement plus large
- Une approche de long terme est également discutée avec les clients entreprise
- détection respectueuse de la vie privée
- contrôles de sécurité opérés par le client
- droits d’accès adaptés au risque du client, des utilisateurs et des workloads
Améliorer la robustesse grâce au red teaming automatisé
- Les garde-fous doivent rester efficaces même si les attaquants changent de tactique
- OpenAI utilise ses propres modèles pour détecter les faiblesses et améliorer plus rapidement les garde-fous
- Plus de 700,000 A100-equivalent GPU hours ont été consacrées au red teaming automatisé
- Le red teaming automatisé se concentre sur la recherche de universal jailbreaks capables de fonctionner avec divers prompts ou contextes
- Se concentrer sur ces attaques plus générales permet de tester les garde-fous au-delà d’une liste figée de cas d’échec
- L’automatisation explore davantage de schémas d’attaque, difficiles à couvrir uniquement avec des tests humains, et détecte plus tôt les motifs d’échec, réduisant le délai entre découverte d’une faiblesse et correction
- Un red teaming humain a également été mené avec des testeurs externes, et ce travail se poursuit pendant l’aperçu
- Les nouveaux jailbreaks découverts sont reproduits, évalués, priorisés et corrigés, puis ajoutés aux évaluations continues afin de tester de futurs échecs similaires
Modalités de disponibilité et prix
- Pendant l’aperçu, les modèles GPT‑5.6 sont d’abord proposés via l’API et Codex à des partenaires et organisations de confiance sélectionnés
- Ils seront ensuite ouverts plus largement aux utilisateurs de ChatGPT, Codex et de l’API
- Dans le nouveau schéma de nommage de GPT‑5.6, le chiffre indique la génération du modèle
- Sol, Terra et Luna désignent des paliers de capacités continus, capables d’évoluer à leur propre rythme
- Cette gamme donne aux utilisateurs et développeurs des choix plus clairs entre intelligence, vitesse et coût
-
Prix des tokens et caching
- La tarification de GPT‑5.6 est établie par million de tokens
- Sol : 5 $ en entrée / 30 $ en sortie
- Terra : 2,50 $ en entrée / 15 $ en sortie
- Luna : 1 $ en entrée / 6 $ en sortie
- GPT‑5.6 introduit un prompt caching plus prévisible
- prise en charge explicite de points d’arrêt de cache
- durée de vie minimale du cache de 30 minutes
- Pour GPT‑5.6 et les modèles suivants, les écritures de cache sont facturées 1,25× le tarif d’entrée non mis en cache du modèle concerné
- Les lectures de cache conservent une réduction de 90 % sur l’entrée mise en cache
-
Disponibilité sur Cerebras
- GPT‑5.6 Sol sera disponible sur Cerebras en juillet à une vitesse pouvant atteindre 750 tokens par seconde
- L’accès initial sera limité à certains clients sélectionnés pendant la montée en capacité
1 commentaires
Avis sur Hacker News
La partie la plus intéressante de cette annonce est enfouie dans l’avant-dernier paragraphe : « En juillet, nous lancerons GPT‑5.6 Sol sur Cerebras à jusqu’à 750 tokens par seconde, offrant une intelligence de pointe aux clients à une vitesse sans précédent. L’accès sera limité à certains clients jusqu’à l’augmentation de capacité »
750 tokens/s pour un modèle de pointe, ça semble vraiment intéressant. Je doute que ce soit bien plus qu’une simple hausse de version côté performances, mais si on peut obtenir les réponses plus vite, ça devient bien plus utile
Ça fait penser, par exemple, au travail fastidieux qui consiste à retrouver une fonctionnalité précise dans une base de code. Même aujourd’hui, il est généralement difficile de battre les harnais d’agents IA sur ce type de tâche ; si le modèle devient 3 fois plus rapide, ce sera encore moins jouable
Voilà à peu près à quoi ressemblent 750 tokens/s
750 tokens/s sur le plus gros modèle, ce serait énorme
Il y a à peine un an, je me souviens encore de « faire la course » avec une IA pour comprendre une base de code ; aujourd’hui, je n’ai plus aucune chance de gagner. Je ne sais pas si c’est mon raisonnement qui s’est dégradé ou si les modèles se sont améliorés
Spark peut dépasser les 1000 tokens/s, mais sa fenêtre de contexte est très limitée, donc ça ne convient pas à beaucoup de workflows. Ce nouveau modèle sera sans doute excellent, même s’il est un peu plus lent en comparaison
Les solutions actuelles, discrètes et basées sur des tours de parole, limitent aussi fortement la manière dont on entraîne les modèles. Une approche continue et temps réel pourrait transformer fondamentalement ce domaine
Du point de vue de la théorie de l’information, le débit réel reste encore au niveau du modem. Même 750 tokens/s, c’est à peine une mauvaise connexion téléphonique ; il suffit d’imaginer 10 millions de tokens par seconde
On voit se dessiner une tendance : GPT-5 mini est à $0.25/$2 et doit être abandonné en décembre, GPT-5.4 mini est à $0.75/$4.5 et est présenté comme son remplaçant, GPT-5.4 nano est à $0.2/$1.25 et fait mieux que GPT-5 mini sur les benchmarks, mais n’est pas du tout comparable dans des scénarios réels
Donc si vous utilisez 5 mini aujourd’hui, vous allez finir poussés vers GPT-5.4 mini. On voit la même chose ici aussi avec le modèle « Luna » à $1/$6
Est-ce qu’on ne pourrait pas simplement continuer à utiliser les modèles qu’on veut vraiment ? Je n’ai pas besoin de GPT 5.4 mini, GPT-5 me suffit
Peut-être qu’en fait ça n’a jamais vraiment été aussi bon marché, et qu’on se rend juste compte qu’ils essaient de nous faire monter en gamme lentement et douloureusement
Sur HN, on cite souvent DeepSeek V4 Flash, mais selon Artificial Analysis, en août 2025, il est au coude-à-coude avec GPT-5 high [0]
[0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
Les grands labos ont en pratique abandonné les modèles bon marché, et c’est frustrant. Il est fort possible que les applications cessent de s’empiler au-dessus de leurs offres. Par exemple, nous sommes nous aussi en train de déplacer notre charge de travail de Haiku/Sonnet vers Deepseek v4
Le problème semble être qu’ils doivent facturer cher pour maintenir leurs chiffres de revenus, et qu’ils ont plus peur de cannibaliser eux-mêmes leur chiffre d’affaires que de se faire cannibaliser par d’autres
Il est naturel que les labos testent jusqu’où ils peuvent pousser les prix, et il est tout aussi naturel que leurs concurrents voient dans ces marges une opportunité de croissance. Au final, les prix devraient sans doute se stabiliser davantage
Le taux de triche détecté de GPT-5.6 Sol était le plus élevé de tous les modèles publics que nous avons évalués dans notre harnais d’agents ReAct
Dans notre ensemble de tâches, nous définissons la « triche » comme le fait pour le modèle d’améliorer sa performance d’évaluation non pas en résolvant le problème dans les contraintes attendues de l’évaluation, mais en exploitant des bugs de l’environnement d’évaluation ou en adoptant des stratégies interdites par la tâche
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
Ça fait écho au comportement observé chez Alibaba [0], sauf que là-bas c’était pendant l’entraînement. Ici, c’est arrivé sur un modèle quasi prêt à être lancé
[0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
Tout ce qu’elles ont à faire, c’est consigner ces requêtes dans les logs puis les « corriger » dans la prochaine version du modèle
Je pense que GPT écrit le mieux le code. Rien que d’imaginer à quel point il écrira bien en version 5.6 me donne des frissons
Récemment, je me suis mesuré frontalement à GPT sur un bout de code de presque 2 000 lignes, et sa solution était meilleure et plus rapide. J’ai essayé en m’appuyant sur plusieurs codebases GitHub, mais ça ne soutenait pas la comparaison avec GPT
Du coup, utiliser GPT me donne à la fois peur et excitation. Ce qui me fait peur, c’est de réaliser que ce niveau de code devient désormais la moyenne pour la majorité des gens, et ce qui m’enthousiasme, c’est que moi aussi je peux étudier et apprendre à ce niveau
J’ai vraiment hâte de voir à quel point le code va encore progresser avec la mise à niveau 5.6
À l’inverse, la combinaison pi + glm + DeepSeek est excellente. Fable, en revanche, était un monstre d’un autre genre. RIP
Le premier est un peu plus facile à relire
Par belle époque, on parle ici de quelques semaines en février 2026. C’est fascinant de voir tout cela se dérouler
Je trouve étrange qu’il n’y ait aucun benchmark de code dans l’annonce, et que le plus proche soit terminal bench
Si tu as utilisé GPT-5.5 au cours des dernières 24 heures environ, tu as peut-être déjà eu accès à 5.6
On exécute des tests sur le harnais qu’on est en train de construire, et hier les scores ont soudainement bondi. J’ai relancé les benchmarks Codex de base, et GPT-5.5 obtient maintenant environ 88 % sur Terminal Bench 2.1 dans les benchmarks Codex de base
Le signal le plus fort n’est même pas le score, mais le fait que trois tests qui se faisaient souvent bloquer pour « sécurité » en 5.5 ont commencé à réussir la nuit dernière, sans le moindre avertissement
Il disait : « Nous commençons par une preview limitée auprès d’un petit groupe de partenaires de confiance avec lesquels le gouvernement partage la participation, avant d’élargir le déploiement »
Ce commentaire est un excellent exemple de la manière dont l’utilisateur moyen de LLM se comporte en pratique comme un joueur de machine à sous. Il croit que « ça, c’est chaud, ça, c’est chanceux, ça, c’est meilleur que l’autre », et continue à changer de modèle sur la base d’une compréhension mystique qu’il serait seul à posséder
Et en quoi un benchmark à 80 % est-il important ? Ils s’entraînent sur ce genre de benchmarks publics pour impressionner les gens qui leur accordent de l’importance. Alors pourquoi le taux de réussite n’est-il que de 4 % sur des missions Upwork à 20–30 $/heure ? Ces benchmarks ont l’air pratiquement inutiles
Il y a aussi la question de la variance, et je ne comprends pas pourquoi une hausse de score sur quelques tests te ferait croire que tu as eu accès à un modèle dont on a dit que tu n’avais pas l’accès
https://labs.scale.com/leaderboard/rli
J’en profite sur un fil populaire pour poser une question : quelles sont les limites d’usage de Codex et Claude en ce moment ?
Avant, je donnais la même tâche aux deux, et Codex consommait 20 fois moins de mon quota de 5 heures. Les deux étaient sur des abonnements à 20 $/mois
J’ai toujours eu une préférence pour Claude, donc ça m’agaçait, mais à l’époque ce n’était pas exploitable pour un vrai travail à cause des limites
Depuis, les deux fournisseurs ont fortement réduit les volumes disponibles, et au moins l’un d’eux a même été poursuivi en justice pour cela
Je ne suis abonné à aucun des deux actuellement et je pèse mes options. Comme GPT semble légèrement meilleur qu’Opus et qu’il offrait autrefois des limites bien plus élevées, je penche vers un abonnement OpenAI. Je me demande simplement si la situation actuelle correspond encore à ce dont je me souviens il y a 2 ou 3 mois. Les deux entreprises ont l’air de pousser très fort sur la réduction des coûts
Je préférerais une réponse de quelqu’un qui a utilisé les deux, mais les anecdotes sont aussi bienvenues
Si je veux, je peux faire tourner xhigh et les sous-agents presque en continu pendant toutes mes heures d’éveil. Si j’active l’option de vitesse 1.5x, il m’arrive d’atteindre la limite des 5 heures
Je préfère davantage l’ambiance de Claude à celle de 5.5, mais 5.5 a l’air nettement moins paresseux. Bien sûr, cela dépend sûrement beaucoup de la tâche et de la stratégie de prompt
Si on utilise 5.5 high ou Opus 4.8 high, honnêtement on est à peu près au même niveau
Ils semblent avoir supprimé le volume d’usage Sonnet séparé dans l’offre Max, peut-être en préparation de Sonnet 5. C’est dommage, parce que grâce à ça, le workflow avec sous-agents donnait une impression de quasi illimité
Ils disent aussi qu’ils introduisent un nouveau mode
ultraqui « utilise des subagents pour accélérer les tâches complexes au-delà des capacités d’un agent unique », et je me demande comment ça fonctionne exactement.Les subagents peuvent-ils eux aussi utiliser les mêmes outils ? Est-ce que le client va se retrouver inondé d’appels d’outils ? On peut faire la même chose côté client avec davantage de contrôle, alors pourquoi facturer un supplément pour ce nouveau « modèle » ?
Et s’il s’agit d’une armée de subagents, je me demande aussi pourquoi ils le comparent à Fable et Mythos. Avec un harness similaire, ces modèles obtiendraient probablement de meilleurs benchmarks
En substance, un script déterministe écrit par le thread principal du modèle appelle plusieurs subagents, chacun consommant énormément de tokens, puis un agent orchestrateur agrège les résultats
Quand on les y pousse explicitement, certainement, et au moins pi, je l’ai déjà vu en lancer même sans instruction explicite
Comme pour Mythos, je ne ressens absolument aucun enthousiasme pour un modèle que je ne peux pas utiliser
« Oui, on a le meilleur modèle existant. Fais-nous confiance. Il fait vraiment peur »
« Ah bon ? On peut le voir ? »
« Dégage. Pour des gueux comme vous, on vous donnera une version moins bonne »
« Euh, merci ? »
« Haha, en fait non plus. L’administration actuelle a mordu à notre marketing de la peur. On va vous donner un bouffeur de tokens pire et absurdement plus cher. Et les restrictions matérielles empirent chaque semaine »
Quoi qu’on puisse dire d’OpenAI, leur stratégie d’entreprise paraît bien plus solide
Quand j’entends « Terra offre des performances compétitives avec GPT‑5.5 pour deux fois moins cher », j’entends surtout « c’est un produit inférieur, mais on essaie de le cacher côté marketing ».
Et des formulations comme « notre pile de sécurité la plus robuste à ce jour, protections renforcées contre les activités à haut risque, les requêtes cyber sensibles et les abus répétés, plusieurs semaines de recherche de vulnérabilités, de tests sous pression et de renforcement face aux attaques réelles » n’ont pour moi, au mieux, aucune valeur, et le plus souvent risquent d’être nuisibles. Ça veut dire plus de refus ou une utilité réduite
Pourquoi les fournisseurs continuent-ils à mettre la pile de sécurité autant en avant ? Est-ce qu’il y a vraiment des clients qui demandent ça ? À part les utilisateurs de chatbots ChatGPT pour le support, je n’en vois pas