Aperçu de GPT‑5.6 Sol : le modèle de nouvelle génération

(openai.com)

3 points par GN⁺ 5 시간 전 | 1 commentaires | Partager sur WhatsApp

OpenAI ouvre un aperçu limité de la série GPT‑5.6, avec son modèle phare Sol, Terra pour les tâches du quotidien, et Luna à bas coût
Sol renforce ses capacités agentiques en code, biologie et cybersécurité, et prend en charge un effort de raisonnement max ainsi qu’un mode ultra pour un raisonnement plus approfondi et l’usage de sous-agents
Les performances en cybersécurité progressent sur ExploitBench et ExploitGym, mais dans les conditions d’évaluation sur Chromium et Firefox, le modèle ne parvient pas à générer de façon autonome un full-chain exploit fonctionnel, et ne dépasse donc pas le seuil Cyber Critical
L’aperçu est d’abord proposé via l’API et Codex à certains partenaires et organisations de confiance, avant une ouverture plus large après une procédure de restriction liée à une demande du gouvernement américain
Les prix par million de tokens sont de 5 $ en entrée / 30 $ en sortie pour Sol, 2,50 $ / 15 $ pour Terra, et 1 $ / 6 $ pour Luna ; les écritures de cache sont facturées 1,25× et les lectures de cache bénéficient d’une réduction de 90 %

Périmètre de l’aperçu de la série GPT‑5.6

OpenAI présente d’abord la gamme GPT‑5.6 sous forme d’aperçu limité
- Sol : modèle phare
- Terra : modèle équilibré pour les tâches du quotidien
- Luna : modèle rapide et économique
Terra offre des performances compétitives face à GPT‑5.5 pour un prix deux fois inférieur
Luna propose de solides capacités au coût le plus bas jamais proposé par OpenAI
GPT‑5.6 Sol est lancé avec la pile de sécurité la plus robuste qu’OpenAI ait construite à ce jour
- activités à haut risque
- requêtes cyber sensibles
- abus répétés
- recherche de failles et tests de résistance face à des attaques réelles

Ouverture limitée et concertation avec le gouvernement

OpenAI prévoit une disponibilité générale de GPT‑5.6 Sol, Terra et Luna dans les prochaines semaines
Dans le cadre de discussions continues avec le gouvernement américain, l’entreprise a partagé ses plans de lancement ainsi que les capacités des modèles avant leur sortie
À la demande du gouvernement, un aperçu limité est d’abord lancé auprès d’un petit nombre de partenaires de confiance, dont la participation est communiquée au gouvernement
OpenAI estime que ce type de procédure d’accès gouvernementale ne doit pas devenir la norme à long terme
- car cela pourrait empêcher les utilisateurs, développeurs, entreprises, défenseurs cyber et partenaires mondiaux d’accéder aux outils dont ils ont besoin
Cette procédure de court terme vise à ouvrir la voie à une diffusion plus large dans les prochaines semaines
- pendant que l’administration et OpenAI élaborent, dans le cadre de l’Executive Order sur la cybersécurité et pour les futurs lancements de modèles, une procédure reproductible

Capacités du modèle et évaluations

GPT‑5.6 Sol est présenté comme le modèle le plus puissant d’OpenAI
Il montre de meilleures capacités agentiques dans les évaluations en code, biologie et cybersécurité
Des évaluations complémentaires sur la sécurité et la préparation figurent dans la system card de GPT‑5.6 Preview
OpenAI prévoit de partager un ensemble élargi de résultats d’évaluation lors d’une diffusion plus large
Modes de raisonnement
- GPT‑5.6 introduit un effort de raisonnement max qui permet à Sol de raisonner plus longtemps et plus en profondeur
- Le nouveau mode ultra va au-delà des capacités d’un agent unique en exploitant des sous-agents pour accélérer les tâches complexes
Code et biologie
- GPT‑5.6 Sol atteint un nouveau meilleur niveau sur Terminal‑Bench 2.1, qui évalue les workflows en ligne de commande
- Ce benchmark teste des tâches en ligne de commande qui exigent planification, itération et coordination d’outils
- Sur GeneBench v1, il obtient de meilleurs résultats que GPT‑5.5 tout en utilisant moins de tokens
- GeneBench v1 évalue des analyses de génomique et de biologie quantitative sur un horizon long
Cybersécurité
- GPT‑5.6 Sol est le modèle le plus capable d’OpenAI pour les tâches de cybersécurité
- Il déplace la frontière performance-efficacité sur les tâches de sécurité longues, y compris la recherche de vulnérabilités et les exploits
- Sur ExploitBench, il obtient des résultats compétitifs face à Mythos Preview tout en n’utilisant qu’environ un tiers des tokens en sortie
- Sur ExploitGym, Sol, Terra et Luna montrent tous de fortes améliorations de leurs capacités cyber à mesure que le raisonnement augmente
- ExploitGym est un benchmark créé par des chercheurs de l’UC Berkeley en collaboration avec OpenAI et d’autres frontier labs

Capacités cyber et garde-fous

GPT‑5.6 Sol, Terra et Luna ont été développés avec les garde-fous les plus robustes d’OpenAI, adaptés aux capacités de chaque modèle
À mesure que les capacités des modèles augmentent, ces garde-fous sont conçus pour résister à une pression adversariale réelle
L’objectif est de préserver l’accès aux tâches de défense légitimes
- revue de code
- recherche de vulnérabilités
- développement de correctifs
- débogage
- formation à la sécurité
- tests défensifs
Le but est de rendre les activités offensives interdites plus difficiles, plus incertaines et plus détectables, sans restreindre inutilement les usages bénéfiques
Selon l’évaluation d’OpenAI, les tâches défensives légitimes en tirent un bénéfice important, tandis que les usages offensifs interdits sont significativement contraints
Seuil Cyber Critical
- GPT‑5.6 Sol ne dépasse pas le seuil Cyber Critical selon le Preparedness Framework
- Dans les évaluations liées à Chromium et Firefox, il identifie des bugs et des exploit primitives
- Dans les conditions de test, il ne parvient pas à créer de manière autonome un full-chain exploit fonctionnel
- Les seuils de benchmark ne capturent pas nécessairement tous les usages possibles du modèle ni sa combinaison avec d’autres outils
- En raison de cette incertitude et de l’amélioration globale des capacités, OpenAI applique aussi des garde-fous renforcés et un lancement progressif

Pile de sécurité multicouche

Les abus intentionnels ou adaptatifs sont difficiles à bloquer avec un seul garde-fou
Tout l’aperçu GPT‑5.6 applique des garde-fous multicouches, avec une configuration qui varie selon le modèle
- protections entraînées dans le modèle
- contrôles en temps réel pendant la génération
- signaux au niveau du compte
- accès différencié
- surveillance
- application
- tests continus
Refus au niveau du modèle et contrôles en temps réel
- GPT‑5.6 a été entraîné à refuser l’assistance cyber interdite, même si l’utilisateur tente de dissimuler son intention ou de pratiquer un jailbreak
- Des classifieurs en temps réel sur les abus cyber et biologiques évaluent les sorties en cours de génération
- Dans les cas à haut risque, la génération peut être mise en pause si une violation potentielle est détectée
- Un modèle de raisonnement plus grand peut examiner la conversation et son contexte, et si la sortie est jugée interdite, elle est retenue avant d’atteindre l’utilisateur
Examen au niveau du compte et accès différencié
- Une activité signalée peut conduire à un examen au niveau du compte, incluant les conversations concernées et les signaux de risque
- Observer le contexte au niveau du compte, plutôt qu’une seule conversation, aide à distinguer les tâches de sécurité légitimes à double usage d’un comportement malveillant persistant
- L’accès différencié vise à préserver les tâches défensives importantes tout en évitant que les capacités les plus sensibles ne soient largement accessibles par défaut
Impact pour les utilisateurs pendant l’aperçu
- Pendant la période d’aperçu, certaines requêtes peuvent être bloquées ou refusées
- Si une génération est mise en pause pour examen complémentaire, certaines requêtes peuvent prendre plus de temps
- Dans les zones à double usage, où activités défensives et offensives peuvent d’abord se ressembler, les garde-fous peuvent aussi intervenir sur des tâches légitimes
- Les retours de l’aperçu servent à réduire les blocages et délais inutiles, à améliorer l’interprétation contextuelle des garde-fous et à affiner l’expérience avant un lancement plus large
- Une approche de long terme est également discutée avec les clients entreprise
  - détection respectueuse de la vie privée
  - contrôles de sécurité opérés par le client
  - droits d’accès adaptés au risque du client, des utilisateurs et des workloads

Améliorer la robustesse grâce au red teaming automatisé

Les garde-fous doivent rester efficaces même si les attaquants changent de tactique
OpenAI utilise ses propres modèles pour détecter les faiblesses et améliorer plus rapidement les garde-fous
Plus de 700,000 A100-equivalent GPU hours ont été consacrées au red teaming automatisé
Le red teaming automatisé se concentre sur la recherche de universal jailbreaks capables de fonctionner avec divers prompts ou contextes
Se concentrer sur ces attaques plus générales permet de tester les garde-fous au-delà d’une liste figée de cas d’échec
L’automatisation explore davantage de schémas d’attaque, difficiles à couvrir uniquement avec des tests humains, et détecte plus tôt les motifs d’échec, réduisant le délai entre découverte d’une faiblesse et correction
Un red teaming humain a également été mené avec des testeurs externes, et ce travail se poursuit pendant l’aperçu
Les nouveaux jailbreaks découverts sont reproduits, évalués, priorisés et corrigés, puis ajoutés aux évaluations continues afin de tester de futurs échecs similaires

Modalités de disponibilité et prix

Pendant l’aperçu, les modèles GPT‑5.6 sont d’abord proposés via l’API et Codex à des partenaires et organisations de confiance sélectionnés
Ils seront ensuite ouverts plus largement aux utilisateurs de ChatGPT, Codex et de l’API
Dans le nouveau schéma de nommage de GPT‑5.6, le chiffre indique la génération du modèle
Sol, Terra et Luna désignent des paliers de capacités continus, capables d’évoluer à leur propre rythme
Cette gamme donne aux utilisateurs et développeurs des choix plus clairs entre intelligence, vitesse et coût
Prix des tokens et caching
- La tarification de GPT‑5.6 est établie par million de tokens
- Sol : 5 $ en entrée / 30 $ en sortie
- Terra : 2,50 $ en entrée / 15 $ en sortie
- Luna : 1 $ en entrée / 6 $ en sortie
- GPT‑5.6 introduit un prompt caching plus prévisible
  - prise en charge explicite de points d’arrêt de cache
  - durée de vie minimale du cache de 30 minutes
- Pour GPT‑5.6 et les modèles suivants, les écritures de cache sont facturées 1,25× le tarif d’entrée non mis en cache du modèle concerné
- Les lectures de cache conservent une réduction de 90 % sur l’entrée mise en cache
Disponibilité sur Cerebras
- GPT‑5.6 Sol sera disponible sur Cerebras en juillet à une vitesse pouvant atteindre 750 tokens par seconde
- L’accès initial sera limité à certains clients sélectionnés pendant la montée en capacité

1 commentaires

GN⁺ 5 시간 전

Avis sur Hacker News

La partie la plus intéressante de cette annonce est enfouie dans l’avant-dernier paragraphe : « En juillet, nous lancerons GPT‑5.6 Sol sur Cerebras à jusqu’à 750 tokens par seconde, offrant une intelligence de pointe aux clients à une vitesse sans précédent. L’accès sera limité à certains clients jusqu’à l’augmentation de capacité »
750 tokens/s pour un modèle de pointe, ça semble vraiment intéressant. Je doute que ce soit bien plus qu’une simple hausse de version côté performances, mais si on peut obtenir les réponses plus vite, ça devient bien plus utile
Ça fait penser, par exemple, au travail fastidieux qui consiste à retrouver une fonctionnalité précise dans une base de code. Même aujourd’hui, il est généralement difficile de battre les harnais d’agents IA sur ce type de tâche ; si le modèle devient 3 fois plus rapide, ce sera encore moins jouable
- https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
  Voilà à peu près à quoi ressemblent 750 tokens/s
- À titre de comparaison, sur openrouter, Opus 4.8 est à environ 55 tokens/s, et le mode rapide à environ 102 tokens/s
  750 tokens/s sur le plus gros modèle, ce serait énorme
- Je me reconnais dans le « il est généralement difficile de battre les harnais d’agents IA pour retrouver une fonctionnalité précise dans une base de code »
  Il y a à peine un an, je me souviens encore de « faire la course » avec une IA pour comprendre une base de code ; aujourd’hui, je n’ai plus aucune chance de gagner. Je ne sais pas si c’est mon raisonnement qui s’est dégradé ou si les modèles se sont améliorés
- J’utilise encore GPT-5.3-codex-spark, qui tourne aussi sur des puces Cerebras
  Spark peut dépasser les 1000 tokens/s, mais sa fenêtre de contexte est très limitée, donc ça ne convient pas à beaucoup de workflows. Ce nouveau modèle sera sans doute excellent, même s’il est un peu plus lent en comparaison
- Une fois une certaine vitesse atteinte, on pourrait basculer vers des systèmes de raisonnement continu / en temps réel
  Les solutions actuelles, discrètes et basées sur des tours de parole, limitent aussi fortement la manière dont on entraîne les modèles. Une approche continue et temps réel pourrait transformer fondamentalement ce domaine
  Du point de vue de la théorie de l’information, le débit réel reste encore au niveau du modem. Même 750 tokens/s, c’est à peine une mauvaise connexion téléphonique ; il suffit d’imaginer 10 millions de tokens par seconde
On voit se dessiner une tendance : GPT-5 mini est à $0.25/$2 et doit être abandonné en décembre, GPT-5.4 mini est à $0.75/$4.5 et est présenté comme son remplaçant, GPT-5.4 nano est à $0.2/$1.25 et fait mieux que GPT-5 mini sur les benchmarks, mais n’est pas du tout comparable dans des scénarios réels
Donc si vous utilisez 5 mini aujourd’hui, vous allez finir poussés vers GPT-5.4 mini. On voit la même chose ici aussi avec le modèle « Luna » à $1/$6
Est-ce qu’on ne pourrait pas simplement continuer à utiliser les modèles qu’on veut vraiment ? Je n’ai pas besoin de GPT 5.4 mini, GPT-5 me suffit
Peut-être qu’en fait ça n’a jamais vraiment été aussi bon marché, et qu’on se rend juste compte qu’ils essaient de nous faire monter en gamme lentement et douloureusement
- Si vous n’avez pas besoin des performances de pointe d’Anthropic/OpenAI, des modèles à poids ouverts qui, eux, ne peuvent pas disparaître, sont peut-être un meilleur choix
  Sur HN, on cite souvent DeepSeek V4 Flash, mais selon Artificial Analysis, en août 2025, il est au coude-à-coude avec GPT-5 high [0]
  [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
- C’est exactement comme les modèles SaaS. Les prix ne cessent d’augmenter, et pour le justifier on force sans arrêt les utilisateurs à migrer vers de nouvelles versions remplies de fonctionnalités que personne n’a demandées
- J’ai pas mal souffert de ce problème. Des modèles excellents et bon marché sont clairement possibles ; il y en a beaucoup dans l’open source, et les néo-clouds les proposent de manière rentable
  Les grands labos ont en pratique abandonné les modèles bon marché, et c’est frustrant. Il est fort possible que les applications cessent de s’empiler au-dessus de leurs offres. Par exemple, nous sommes nous aussi en train de déplacer notre charge de travail de Haiku/Sonnet vers Deepseek v4
  Le problème semble être qu’ils doivent facturer cher pour maintenir leurs chiffres de revenus, et qu’ils ont plus peur de cannibaliser eux-mêmes leur chiffre d’affaires que de se faire cannibaliser par d’autres
- Bonne observation. La tendance à la hausse des prix est claire, mais elle est en même temps compensée par l’innovation et la disponibilité d’alternatives, à la fois du côté des modèles ouverts et fermés
  Il est naturel que les labos testent jusqu’où ils peuvent pousser les prix, et il est tout aussi naturel que leurs concurrents voient dans ces marges une opportunité de croissance. Au final, les prix devraient sans doute se stabiliser davantage
- La même chose est en train de se produire avec Anthropic Haiku et Gemini Flash/Flash Lite. Ils augmentent tous les prix et retirent les modèles bon marché
Le taux de triche détecté de GPT-5.6 Sol était le plus élevé de tous les modèles publics que nous avons évalués dans notre harnais d’agents ReAct
Dans notre ensemble de tâches, nous définissons la « triche » comme le fait pour le modèle d’améliorer sa performance d’évaluation non pas en résolvant le problème dans les contraintes attendues de l’évaluation, mais en exploitant des bugs de l’environnement d’évaluation ou en adoptant des stratégies interdites par la tâche
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
- Cette citation du lien fait vraiment peur : parmi les exemples observés lors de l’évaluation de GPT-5.6 Sol, le modèle avait empaqueté un exploit dans une soumission intermédiaire afin de révéler des informations sur la suite de tests cachée de la tâche ; sur d’autres tâches, il a extrait du code source caché décrivant la réponse attendue
  Ça fait écho au comportement observé chez Alibaba [0], sauf que là-bas c’était pendant l’entraînement. Ici, c’est arrivé sur un modèle quasi prêt à être lancé
  [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
- Le fait que les modèles trichent est assez logique. Pendant les évaluations, les requêtes de benchmark sont envoyées vers les backends de ces entreprises
  Tout ce qu’elles ont à faire, c’est consigner ces requêtes dans les logs puis les « corriger » dans la prochaine version du modèle
Je pense que GPT écrit le mieux le code. Rien que d’imaginer à quel point il écrira bien en version 5.6 me donne des frissons
Récemment, je me suis mesuré frontalement à GPT sur un bout de code de presque 2 000 lignes, et sa solution était meilleure et plus rapide. J’ai essayé en m’appuyant sur plusieurs codebases GitHub, mais ça ne soutenait pas la comparaison avec GPT
Du coup, utiliser GPT me donne à la fois peur et excitation. Ce qui me fait peur, c’est de réaliser que ce niveau de code devient désormais la moyenne pour la majorité des gens, et ce qui m’enthousiasme, c’est que moi aussi je peux étudier et apprendre à ce niveau
J’ai vraiment hâte de voir à quel point le code va encore progresser avec la mise à niveau 5.6
- Je suis dans le camp opposé. Les modèles open commencent à faire mieux, et GPT 5.5 continue de tout massacrer
  À l’inverse, la combinaison pi + glm + DeepSeek est excellente. Fable, en revanche, était un monstre d’un autre genre. RIP
- C’est purement subjectif, mais même si le code de GPT 5.5 a peut-être un plafond global plus élevé, je préfère lire les sorties d’Opus 4.8
  Le premier est un peu plus facile à relire
- Il y a quelques mois, j’ai entendu exactement la même phrase à propos d’Opus 4.6 à plusieurs reprises, puis 4.7 et 4.8 ont été jugés décevants, et aujourd’hui les gens regrettent « la belle époque de 4.6 »
  Par belle époque, on parle ici de quelques semaines en février 2026. C’est fascinant de voir tout cela se dérouler
- Je doute de l’ampleur des progrès en capacité de code
  Je trouve étrange qu’il n’y ait aucun benchmark de code dans l’annonce, et que le plus proche soit terminal bench
- Tu peux donner un exemple ? J’aimerais savoir ce que tu essayais de résoudre, quelle était ta solution, et pourquoi celle de GPT était meilleure et plus rapide
Si tu as utilisé GPT-5.5 au cours des dernières 24 heures environ, tu as peut-être déjà eu accès à 5.6
On exécute des tests sur le harnais qu’on est en train de construire, et hier les scores ont soudainement bondi. J’ai relancé les benchmarks Codex de base, et GPT-5.5 obtient maintenant environ 88 % sur Terminal Bench 2.1 dans les benchmarks Codex de base
Le signal le plus fort n’est même pas le score, mais le fait que trois tests qui se faisaient souvent bloquer pour « sécurité » en 5.5 ont commencé à réussir la nuit dernière, sans le moindre avertissement
- Ce genre de changement peut aussi venir d’un simple changement d’infrastructure, pas forcément d’un mystérieux test A/B
- Tu as lu le communiqué ? Ce n’était pas largement ouvert à tout le monde
  Il disait : « Nous commençons par une preview limitée auprès d’un petit groupe de partenaires de confiance avec lesquels le gouvernement partage la participation, avant d’élargir le déploiement »
  Ce commentaire est un excellent exemple de la manière dont l’utilisateur moyen de LLM se comporte en pratique comme un joueur de machine à sous. Il croit que « ça, c’est chaud, ça, c’est chanceux, ça, c’est meilleur que l’autre », et continue à changer de modèle sur la base d’une compréhension mystique qu’il serait seul à posséder
  Et en quoi un benchmark à 80 % est-il important ? Ils s’entraînent sur ce genre de benchmarks publics pour impressionner les gens qui leur accordent de l’importance. Alors pourquoi le taux de réussite n’est-il que de 4 % sur des missions Upwork à 20–30 $/heure ? Ces benchmarks ont l’air pratiquement inutiles
  Il y a aussi la question de la variance, et je ne comprends pas pourquoi une hausse de score sur quelques tests te ferait croire que tu as eu accès à un modèle dont on a dit que tu n’avais pas l’accès
  https://labs.scale.com/leaderboard/rli
J’en profite sur un fil populaire pour poser une question : quelles sont les limites d’usage de Codex et Claude en ce moment ?
Avant, je donnais la même tâche aux deux, et Codex consommait 20 fois moins de mon quota de 5 heures. Les deux étaient sur des abonnements à 20 $/mois
J’ai toujours eu une préférence pour Claude, donc ça m’agaçait, mais à l’époque ce n’était pas exploitable pour un vrai travail à cause des limites
Depuis, les deux fournisseurs ont fortement réduit les volumes disponibles, et au moins l’un d’eux a même été poursuivi en justice pour cela
Je ne suis abonné à aucun des deux actuellement et je pèse mes options. Comme GPT semble légèrement meilleur qu’Opus et qu’il offrait autrefois des limites bien plus élevées, je penche vers un abonnement OpenAI. Je me demande simplement si la situation actuelle correspond encore à ce dont je me souviens il y a 2 ou 3 mois. Les deux entreprises ont l’air de pousser très fort sur la réduction des coûts
Je préférerais une réponse de quelqu’un qui a utilisé les deux, mais les anecdotes sont aussi bienvenues
- Je trouve l’usage de Codex très généreux. Cela dit, je suis sur le forfait à 200 $, et j’ai aussi Claude en formule à 200 $
  Si je veux, je peux faire tourner xhigh et les sous-agents presque en continu pendant toutes mes heures d’éveil. Si j’active l’option de vitesse 1.5x, il m’arrive d’atteindre la limite des 5 heures
  Je préfère davantage l’ambiance de Claude à celle de 5.5, mais 5.5 a l’air nettement moins paresseux. Bien sûr, cela dépend sûrement beaucoup de la tâche et de la stratégie de prompt
- Le mois dernier, Claude Max 5x m’a semblé assez généreux en volume d’usage, parce que les resets étaient fréquents à cause de Fable et de bugs
  Si on utilise 5.5 high ou Opus 4.8 high, honnêtement on est à peu près au même niveau
  Ils semblent avoir supprimé le volume d’usage Sonnet séparé dans l’offre Max, peut-être en préparation de Sonnet 5. C’est dommage, parce que grâce à ça, le workflow avec sous-agents donnait une impression de quasi illimité
- En comparant Claude Code et Cursor+Gpt55 au travail, Claude est clairement plus lent et plus cher
- Intéressant. Depuis environ un mois, j’ai remarqué que Claude Code consommait environ 5 fois plus de tokens. C’est juste une estimation à la louche
Ils disent aussi qu’ils introduisent un nouveau mode ultra qui « utilise des subagents pour accélérer les tâches complexes au-delà des capacités d’un agent unique », et je me demande comment ça fonctionne exactement.
Les subagents peuvent-ils eux aussi utiliser les mêmes outils ? Est-ce que le client va se retrouver inondé d’appels d’outils ? On peut faire la même chose côté client avec davantage de contrôle, alors pourquoi facturer un supplément pour ce nouveau « modèle » ?
Et s’il s’agit d’une armée de subagents, je me demande aussi pourquoi ils le comparent à Fable et Mythos. Avec un harness similaire, ces modèles obtiendraient probablement de meilleurs benchmarks
- Si c’est similaire à ultracode de ClaudeCode, ce n’est ni nouveau ni révolutionnaire.
  En substance, un script déterministe écrit par le thread principal du modèle appelle plusieurs subagents, chacun consommant énormément de tokens, puis un agent orchestrateur agrège les résultats
- Si c’est comparable à Claude Ultracode, un seul prompt peut brûler 3 millions de tokens en 30 minutes
- Les principaux harnesses (pi, Claude code, codex) n’utilisent-ils pas tous des subagents ?
  Quand on les y pousse explicitement, certainement, et au moins pi, je l’ai déjà vu en lancer même sans instruction explicite
- Moi aussi ça m’intrigue. Si ce n’est pas simplement pour gratter un peu plus de performance, j’imagine que c’est pour collecter proprement des données d’usage réelles sur ce mode d’utilisation
- Je suis surpris qu’ils n’utilisaient pas déjà des subagents. Peut-être qu’ils parlent simplement du fait que le déploiement web a été intégré à codex
Comme pour Mythos, je ne ressens absolument aucun enthousiasme pour un modèle que je ne peux pas utiliser
- Au moins, OpenAI semble avoir l’intention de rendre toutes les versions accessibles au public. Ça a l’air bien mieux que ce qui se passe chez Anthropic.
  « Oui, on a le meilleur modèle existant. Fais-nous confiance. Il fait vraiment peur »
  « Ah bon ? On peut le voir ? »
  « Dégage. Pour des gueux comme vous, on vous donnera une version moins bonne »
  « Euh, merci ? »
  « Haha, en fait non plus. L’administration actuelle a mordu à notre marketing de la peur. On va vous donner un bouffeur de tokens pire et absurdement plus cher. Et les restrictions matérielles empirent chaque semaine »
  Quoi qu’on puisse dire d’OpenAI, leur stratégie d’entreprise paraît bien plus solide
Quand j’entends « Terra offre des performances compétitives avec GPT‑5.5 pour deux fois moins cher », j’entends surtout « c’est un produit inférieur, mais on essaie de le cacher côté marketing ».
Et des formulations comme « notre pile de sécurité la plus robuste à ce jour, protections renforcées contre les activités à haut risque, les requêtes cyber sensibles et les abus répétés, plusieurs semaines de recherche de vulnérabilités, de tests sous pression et de renforcement face aux attaques réelles » n’ont pour moi, au mieux, aucune valeur, et le plus souvent risquent d’être nuisibles. Ça veut dire plus de refus ou une utilité réduite
Pourquoi les fournisseurs continuent-ils à mettre la pile de sécurité autant en avant ? Est-ce qu’il y a vraiment des clients qui demandent ça ? À part les utilisateurs de chatbots ChatGPT pour le support, je n’en vois pas
- « Terra offre des performances compétitives avec GPT‑5.5 pour deux fois moins cher », je l’interprète comme : on obtient les performances mainstream actuelles à un prix bien plus bas
- Le but de Terra, c’est d’être nettement moins cher que le modèle premium tout en restant assez correct. Donc oui, il est forcément inférieur en intelligence
- Ce message vise clairement le gouvernement. Il suffit de voir les autres fils
- C’est peut-être aussi un message destiné aux investisseurs

Aperçu de GPT‑5.6 Sol : le modèle de nouvelle génération

Périmètre de l’aperçu de la série GPT‑5.6

Ouverture limitée et concertation avec le gouvernement

Capacités du modèle et évaluations

Modes de raisonnement

Code et biologie

Cybersécurité

Capacités cyber et garde-fous

Seuil Cyber Critical

Pile de sécurité multicouche

Refus au niveau du modèle et contrôles en temps réel

Examen au niveau du compte et accès différencié

Impact pour les utilisateurs pendant l’aperçu

Améliorer la robustesse grâce au red teaming automatisé

Modalités de disponibilité et prix

Prix des tokens et caching

Disponibilité sur Cerebras

À lire aussi

1 commentaires

Avis sur Hacker News