18 points par princox 2026-03-10 | 7 commentaires | Partager sur WhatsApp

Un post intéressant a récemment été publié sur r/codex.
Un utilisateur expliquait qu’il utilisait GPT-5.4 dans ChatGPT Pro + Codex, mais n’obtenait qu’un contexte de 258K.
« J’avais entendu que GPT-5.4 avait un contexte de 1M, alors pourquoi je ne vois que 258K ? »
En pratique, lorsqu’on vérifie dans Codex CLI ou dans l’IDE, il arrive que le contexte par défaut s’affiche autour de 258K.

La solution proposée dans les commentaires consiste à ajouter directement des paramètres de configuration.

Exemple :

model_context_window=800000
model_auto_compact_token_limit=700000

En ajoutant cela dans config.toml, certains ont partagé qu’il était possible d’étendre le contexte utilisable jusqu’à environ 800K.

Quelques points à retenir :
• GPT-5.4 est réputé prendre en charge un contexte maximal d’environ 1M de tokens
• Mais dans l’environnement Codex, la configuration par défaut peut démarrer avec une limite d’environ 258K
• En modifiant les valeurs dans la config, il devient possible d’utiliser un contexte plus large

Des utilisateurs ont également indiqué qu’en se rapprochant trop de la valeur maximale, des baisses de performances peuvent apparaître, et qu’il vaut donc mieux garder une certaine marge.

Ce que j’ai trouvé intéressant personnellement

À mesure que les outils d’IA deviennent plus complexes,
on a de plus en plus souvent des cas où « spécifications du modèle = configuration réelle par défaut » n’est pas vrai.

En particulier dans des environnements comme l’agentic coding / Codex, il semble assez fréquent qu’il faille ajuster soi-même les réglages pour tirer pleinement parti des performances.

Y a-t-il parmi vous des personnes qui ont déjà réellement exploité du long context (500K~1M) dans Codex ou en CLI ?
Je serais curieux de savoir si le gain est vraiment perceptible dans un workflow de développement réel.

7 commentaires

 
gmlwo530 2026-04-15

Lorsque model_context_window=800000 est utilisé, il y a un problème à partir du moment où 50 % du contexte est consommé : les réponses aux questions se mettent à suivre les réponses aux questions précédentes. À noter.

 
ujinyang 2026-03-10

Il paraît qu’au-delà de ce seuil, le prix des tokens double, donc vous feriez bien de vérifier.

 
apkas 2026-03-10

Je l’ai essayé : les performances de gpt-5.4 en elles-mêmes sont très satisfaisantes, mais ce n’est pas toujours très stable — il lui arrive par exemple de générer une réponse à un message plus ancien plutôt qu’au message juste précédent. Il y a aussi des rapports indiquant qu’en long context, ses performances sur la tâche "needle in the haystack" tombent sous les 50 %, donc je n’ai pas vraiment envie de le recommander spécialement. Cela dit, je ne sais pas non plus si la tâche "needle in the haystack" est vraiment un benchmark adapté pour mesurer les performances en long context. Quoi qu’il en soit, avec Codex, la compaction ne prend pas longtemps, et même après compact, il a tendance à bien conserver le contexte, donc à l’usage je n’ai pas ressenti de gêne particulière.

 
sea715 2026-03-10

Avec un harnais adapté, ça ne semble quand même pas trop mauvais. Comme il y a moins de compaction en soi, le problème de perte au milieu est lui aussi réduit..

 
mwma91 2026-03-13

Je ne savais même pas qu’un contexte de 1M était possible.

 
princox 2026-03-10

J’ai confirmé que cela s’applique tel quel aussi à l’application codex pour macOS.

 
click 2026-03-10

Ah… pas étonnant que je trouvais moi aussi la fenêtre de contexte bien trop petite, il fallait en fait l’activer séparément.