Pour bien utiliser le contexte 1M de GPT-5.4 dans ChatGPT Pro, un réglage est nécessaire
(reddit.com)Un post intéressant a récemment été publié sur r/codex.
Un utilisateur expliquait qu’il utilisait GPT-5.4 dans ChatGPT Pro + Codex, mais n’obtenait qu’un contexte de 258K.
« J’avais entendu que GPT-5.4 avait un contexte de 1M, alors pourquoi je ne vois que 258K ? »
En pratique, lorsqu’on vérifie dans Codex CLI ou dans l’IDE, il arrive que le contexte par défaut s’affiche autour de 258K.
La solution proposée dans les commentaires consiste à ajouter directement des paramètres de configuration.
Exemple :
model_context_window=800000
model_auto_compact_token_limit=700000
En ajoutant cela dans config.toml, certains ont partagé qu’il était possible d’étendre le contexte utilisable jusqu’à environ 800K.
Quelques points à retenir :
• GPT-5.4 est réputé prendre en charge un contexte maximal d’environ 1M de tokens
• Mais dans l’environnement Codex, la configuration par défaut peut démarrer avec une limite d’environ 258K
• En modifiant les valeurs dans la config, il devient possible d’utiliser un contexte plus large
Des utilisateurs ont également indiqué qu’en se rapprochant trop de la valeur maximale, des baisses de performances peuvent apparaître, et qu’il vaut donc mieux garder une certaine marge.
⸻
Ce que j’ai trouvé intéressant personnellement
À mesure que les outils d’IA deviennent plus complexes,
on a de plus en plus souvent des cas où « spécifications du modèle = configuration réelle par défaut » n’est pas vrai.
En particulier dans des environnements comme l’agentic coding / Codex, il semble assez fréquent qu’il faille ajuster soi-même les réglages pour tirer pleinement parti des performances.
Y a-t-il parmi vous des personnes qui ont déjà réellement exploité du long context (500K~1M) dans Codex ou en CLI ?
Je serais curieux de savoir si le gain est vraiment perceptible dans un workflow de développement réel.
7 commentaires
Lorsque
model_context_window=800000est utilisé, il y a un problème à partir du moment où 50 % du contexte est consommé : les réponses aux questions se mettent à suivre les réponses aux questions précédentes. À noter.Il paraît qu’au-delà de ce seuil, le prix des tokens double, donc vous feriez bien de vérifier.
Je l’ai essayé : les performances de
gpt-5.4en elles-mêmes sont très satisfaisantes, mais ce n’est pas toujours très stable — il lui arrive par exemple de générer une réponse à un message plus ancien plutôt qu’au message juste précédent. Il y a aussi des rapports indiquant qu’en long context, ses performances sur la tâche "needle in the haystack" tombent sous les 50 %, donc je n’ai pas vraiment envie de le recommander spécialement. Cela dit, je ne sais pas non plus si la tâche "needle in the haystack" est vraiment un benchmark adapté pour mesurer les performances en long context. Quoi qu’il en soit, avec Codex, la compaction ne prend pas longtemps, et même après compact, il a tendance à bien conserver le contexte, donc à l’usage je n’ai pas ressenti de gêne particulière.Avec un harnais adapté, ça ne semble quand même pas trop mauvais. Comme il y a moins de compaction en soi, le problème de perte au milieu est lui aussi réduit..
Je ne savais même pas qu’un contexte de 1M était possible.
J’ai confirmé que cela s’applique tel quel aussi à l’application codex pour macOS.
Ah… pas étonnant que je trouvais moi aussi la fenêtre de contexte bien trop petite, il fallait en fait l’activer séparément.