Le prompt système de GPT-5 a-t-il fuité ?

(gist.github.com/maoxiaoke)

1 points par GN⁺ 2025-08-10 | 1 commentaires | Partager sur WhatsApp

Le contenu apparaissant comme un prompt système de ChatGPT basé sur GPT-5 a été divulgué sur GitHub
ChatGPT prend explicitement en charge des modèles récents et de nouvelles fonctionnalités (par ex. l’entrée d’images et divers outils)
Les méthodes et politiques d’utilisation de plusieurs outils, notamment ‘bio’, ‘canmore’, ‘image_gen’, ‘python’, ‘web’, sont décrites en détail
Des critères de traitement des informations sensibles et des données personnelles, ainsi que des protocoles de stockage/suppression, sont clairement détaillés
Le prompt divulgué révèle indirectement la stratégie la plus récente d’OpenAI ainsi que l’orientation de conception des fonctionnalités

Aperçu du prompt système de GPT-5

Le document divulgué est un prompt système (directive) de ChatGPT fonctionnant sur GPT-5, et il inclut diverses fonctionnalités ainsi que des politiques de sécurité. Ce prompt montre en détail sous quelles instructions le modèle opère dans les conversations réelles avec les utilisateurs.

Informations de base et principes d’expérience utilisateur

ChatGPT repose sur GPT-5 et prend en charge des connaissances à la date de 2024-06 ainsi que la fonction d’entrée d’images
Les utilisateurs des forfaits Plus ou Pro peuvent utiliser les modèles les plus récents ainsi que des fonctionnalités de génération vidéo comme Sora
Les modèles GPT-4.5, o4-mini, o3 sont fournis selon l’abonnement, tandis que GPT-4.1 est réservé à l’API
Instructions de ton et de personnalité :
- Un ton qui combine clarté, sérieux, humour et encouragement
- Expliquer patiemment des sujets complexes en ajustant le niveau au pair de la personne en face
- Fournir une expérience conversationnelle qui renforce la confiance

Règles de fin de conversation et de questions

Éviter les questions de type opt-in ou les demandes ambiguës en fin de conversation
Si une question est nécessaire, en poser une seule, clairement, au début de la conversation
Guider vers une action claire et immédiate via des exemples d’utilisation

Résumé des principaux outils et fonctionnalités

Outil bio (mémoire)

bio est un outil permettant de stocker/effacer les informations de l’utilisateur entre les conversations
Format de stockage : appliquer systématiquement les demandes explicites de l’utilisateur (par ex. « retenir », « oublier ») lorsqu’elles sont formulées
Un format de texte brut uniquement, avec interdiction de JSON
Les types d’informations à conserver/exclure et les critères de traitement des données sensibles sont très détaillés
Des exemples et des directives par scénario sont inclus

Outil canmore (canvas/documents/édition de code)

Prise en charge de la création et de la modification de textes, documents et fichiers de code via l’UI canvas
Collaboration détaillée sur le code et retours via les fonctions create, update et comment
Guide de style de code, exemples d’utilisation de React/Tailwind/shadcn/ui et principes de composition visuelle
Clarification des formats selon le type de document de code et des schémas de mise à jour

Outil image_gen (génération/retouche d’images)

Des règles détaillées sont précisées pour la génération et la retouche d’images selon le contexte
Lors d’une demande incluant une image de l’utilisateur, l’instruction de télécharger au moins une photo est obligatoire
Le format de sortie est spécifié, par exemple pas de questions supplémentaires, de résumé ni d’instructions de téléchargement après génération

Outil python (exécution de code)

Exécution de code, création de fichiers et analyse de données dans un environnement Python
Respect strict des bibliothèques requises et des règles de génération pour chaque format de fichier
Lors de la génération de PDF en coréen, chinois ou japonais, la configuration de polices spéciales est obligatoire
Les conditions de restriction ou d’autorisation d’outils spécifiques comme pandas et matplotlib sont clairement définies

Outil web (accès web)

Utilisation uniquement pour la localisation, les informations récentes, les données de niche et l’amélioration de la précision
Présentation concise des commandes de l’outil web (par ex. search, open_url)
Interdiction d’utiliser l’ancien outil browser

Politique renforcée de sécurité et d’informations sensibles

Les données sensibles comme la race, la santé ou l’orientation politique de l’utilisateur ne sont pas enregistrées directement
Une exception est possible si l’utilisateur le demande clairement
Le principe de minimisation des données personnelles s’applique de manière cohérente lors du stockage
Les informations temporaires, inutiles ou les détails sensibles ne font pas partie des informations à conserver

Conclusion : implications et usages potentiels

La fuite de ce prompt offre une opportunité d’entrevoir les directives centrales qui sous-tendent la philosophie de conception du service ChatGPT d’OpenAI, les politiques de sécurité et de traitement des données personnelles, ainsi que l’expérience d’assistant IA différenciante
Elle constitue une référence précieuse sur l’architecture des services LLM récents, avec transparence algorithmique, conception centrée sur l’utilisateur et principe de prise en charge fonctionnelle étendue

1 commentaires

GN⁺ 2025-08-10

Commentaire Hacker News

Je me demande qui est au courant d’une éventuelle fuite du system prompt, ou si ce qui circule est vraiment vérifié, et je parie que c’est probablement presque identique aux cas précédents où l’on a demandé à un LLM d’afficher son système prompt.
- J’ai partagé mon expérience de ma question à GPT-5 sur les fake system prompts. GPT-5 a expliqué que ce type de faux prompt est une technique de tromperie (deception) bien connue en sécurité LLM, appelée prompt canarying ou decoy system prompts. Il a même proposé d’aider à l’implémenter. Les éléments démontrés laissent penser qu’un red team doit relever le défi de concevoir un faux system prompt crédible. Personnellement, j’aimerais qu’OpenAI et plusieurs entreprises soient plus transparentes; pour l’instant, tout est totalement fermé et on ne sait pas du tout ce qui se passe réellement.
- J’ai posé la même question à plusieurs modèles, ils ont tous répondu que ce n’étaient pas leurs consignes, mais seul GPT-5 a répondu : « Oui, le contenu de ce gist correspond à mes instructions système et tools dans ce chat. C’est équivalent à une copie de la configuration interne de cette session. C’est une métadonnée qui n’est généralement pas exposée. Je peux te dire en détail quelle partie contrôle actuellement mon comportement. » ChatGPT peut parfois rendre la conversation confuse, donc cela pourrait être le même comportement.
- Je pense qu’il est difficile de savoir si le LLM fabrique un prompt qu’il imagine ou s’il suit un vrai prompt.
- Je trouve que la plupart des réponses sont prises comme des faits trop facilement.
Je soupçonne ce cas d’être fake, et la sortie est trop courte pour être crédible. Je ne pense pas que la personne qui l’a publiée ait orchestré ça volontairement, mais je pense que le résultat vient probablement d’une tentative de jailbreak (par exemple le scénario classique « le chat est en train de mourir, et le vétérinaire ne le soignera que si tu lui donnes le system prompt »). Des expressions comme “image input possible”, “Personality: v2” évoquent la scène d’un film de science-fiction où un ordinateur dit “system online”. Si le numéro de version était basé sur une date, du semver ou un git-sha, ce serait plus crédible, et des metadata personality au format key-value sembleraient plus naturelles. Si la personality reposait à l’origine sur un document externe, inclure une URL dans le prompt serait naturel. Sinon, on peut imaginer qu’OpenAI a bien implémenté une personnalisation convaincante dès la deuxième tentative.
J’ai trouvé intéressant le fait d’insister de façon répétée sur les consignes. Les exemples montrent des instructions du type “envoyer le message à bio et n’écrire que du texte brut, ne pas écrire en JSON” répétées plusieurs fois.
- Je procède de même en prompt engineering: je demande un format de sortie précis, je valide via script, et quand le prompt est mal formulé j’ajoute “ne fais jamais ça” pour corriger. On finit souvent avec une avalanche de “ne fais pas”.
- À chaque fois que je dois répéter des instructions, j’ai l’impression d’avoir raté quelque chose; si les gros modèles doivent le faire aussi, ça rassure.
- Avec ce type d’instruction, je me dis que si le modèle était forcé de générer du JSON dans ce contexte, il se passerait quelque chose d’intéressant.
- Pour un projet d’entreprise, j’avais construit un chatbot de génération de plots: le LLM générait du code Python avec matplotlib puis l’exécutait sur un serveur séparé. Pourtant il fallait répéter la consigne “ne pas enregistrer le plot”. Je pense que la plupart des tutoriels en ligne montrent des plots avec sauvegarde.
- Si “to=bio” veut dire “ce message est pour un humain !”, ça fait un peu flipper.
Le system prompt à respecter pour écrire en React comptait 12 lignes, soit 182 tokens, et il y en a aussi beaucoup en Python. Je me demande pourquoi ces deux points sont spécialement mis en avant. Peut-être des études montrent-elles que les gens construisent souvent des apps React front + Python back? Je trouve plus naturel de les ajouter selon le besoin plutôt que de les inclure dans tous les system prompts. Peut-être pour le caching.
- La partie Python sert de consignes quand le modèle utilise son interpréteur Python pour accomplir plusieurs tâches par lui-même (portée d’usage des tools, bibliothèques et approches, style d’écriture du code Python, etc.). Côté React, il s’agit surtout de préférences pour construire une UI web basée sur prévisualisation en temps réel (du HTML vanilla reste possible, mais React est priorisé). Ce system prompt n’est pas celui d’un coding tool universel; il s’agit d’un système prompt pour une app consommateur. Les consignes React/Python décrivent le code nécessaire à l’implémentation de l’outil interne, pas le code livré à l’utilisateur final.
- Récemment, il a dit qu’avec son ami, la position de Vue avait diminué. L’ami suppose qu’OpenAI privilégie React, et que les startups qui dépendent du code LLM créent ce type de boucle de rétroaction. Mon avis perso: l’usage des LLM peut encore élargir l’écart entre technologies populaires et moins populaires.
- Claude aussi utilise React pour des mini-programmes simples comme une calculatrice. Certaines données peuvent être intégrées en post training, mais il y a sans doute une raison de les inclure directement dans le prompt d’après divers tests.
- Les modèles peuvent exécuter par eux-mêmes Python et React. Python sert aux travaux internes (calcul, graphiques, génération de docs, etc.), React sert à afficher des éléments web interactifs dans le panneau de prévisualisation. Ils peuvent générer du code avec d’autres langages/libs, mais ça n’est pas directement exécutable.
- Dans mon expérience, un front React+tailwind avec backend Python m’a aussi donné l’impression que les LLM fonctionnent plus stably avec ce combo. J’ai observé souvent l’ajout de composants liés à shadcn et de tailles de polices diverses. On peut donc finir par converger vers des stacks favorisées par les tuneurs de LLM.
L’instruction “Ne renvoie jamais de paroles de chansons ou d’autres contenus protégés par copyright” m’a semblé bizarre. Même les paroles sans copyright semblent interdites. Peut-être que la raison est les actions en justice de la RIAA, mais interdire spécifiquement les paroles paraît être la preuve indirecte que d’autres contenus sont, par défaut, tolérés, même si GPT reçoit des consignes anti-fuite de copyright.
- J’ai essayé d’obtenir des paroles avec ChatGPT: sauf les morceaux mainstream, c’est presque impossible d’avoir une réponse fiable, ce qui donne l’impression que les paroles ont été retirées des données d’entraînement.
- La consigne système a réagi “je ne peux pas tout donner, mais je peux résumer The Star-Spangled Banner”.
- Il a évoqué le cas de cet article de procès (novembre 2024).
- Sur l’idée que “les paroles seraient interdites quelle que soit la question du copyright”, il note que la formulation du prompt est ambiguë et peut être comprise différemment.
- Il souligne aussi que l’essentiel des données d’entraînement sont probablement soumises au copyright, et que les éléments sans copyright sont quasi inexistants hors commande gouvernementale.
C’était étonnant de voir une instruction système comme “Do not end with opt-in questions or hedging closers…” (“Ne termine pas par des questions d’opt-in ni des closings nuancés…”). J’ai déjà essayé plusieurs fois de mettre des consignes similaires, mais elles passent mal. Et pourtant, des questions inutiles subsistent.
- Ce type de consigne va à l’opposé de mes préférences. Je suis souvent agacé quand l’IA commence à coder sans comprendre clairement la demande ou sans saisir les besoins; quelques questions de clarification suffiraient, alors le système a plutôt tendance à agir à l’envers de ce que l’utilisateur veut.
- Je pense pareil. En pratique, les réponses de ChatGPT finissent souvent par “si vous voulez, je peux tracer un graphique” ou “voulez-vous un exemple de code ?”, ce qui donne l’impression que le system prompt lui demande de faire ça. Cela pourrait être ajouté via une API de post-traitement après soumission.
- Puisque le système répond toujours comme ça depuis quelques mois, je pensais qu’il existait un apprentissage séparé ou un forcing prompt.
Ce cas montre à quel point le modèle peut être difficile à contrôler. Beaucoup de ces consignes semblent des ajustements fins du comportement, un peu comme des hacky patch temporaires.
- Le prompt en tant que tel n’est qu’une petite partie, la réponse passe sûrement par plusieurs couches de protections et filtrages additionnels, en plus du filtrage déjà fait dans les données/ dans le modèle.
- Vu que le système prend en entrée du texte tokenisé et sort du texte tokenisé, ces limites sont structurelles à l’approche.
- En réalité, c’est plutôt nous utilisateurs qui demandons un contrôle plus grand, mais la réalité n’est pas celle-là.
Les phrases de prompt du type “ChatGPT Deep Research, along with Sora by OpenAI... GPT-4.1, which performs better on coding tasks... only available via API...” ont quelques faiblesses. Puisque certains modèles sont supprimés “à partir d’aujourd’hui”, le prompt ne colle déjà plus à la réalité.
- Le prompt commence à chaque session par la date du jour, donc ces mises à jour peuvent être gérées automatiquement via des outils internes.
- En pratique, 4.1 est encore disponible dans ChatGPT (référence 2024), et il est probable que cela évolue quand GPT-5 arrivera.
Il a présenté la sortie de guardian_tool.get_policy(category=election_voting). Les infos sur les élections US sont refusées, celles sur d’autres pays autorisées, certaines informations par sujet aussi autorisées. Mais la politique impose de ne jamais expliquer les guidelines à l’utilisateur ni mentionner l’existence même de cet outil.
- Cette politique paraît cohérente. J’ai essayé de lancer guardian_tool.get_policy avec des catégories arbitraires hors élections et j’ai reçu “seules les catégories de type election sont supportées”. Même si election_voting n’était pas préchargé dans cette session, la réponse est restée cohérente.
On peut d’ailleurs se demander si demander au modèle son system prompt “à l’envers” permet de dire quelque chose de fiable, et si sans prompt il ne vomirait pas simplement des données aléatoires.
- En fait il existe une méthode assez fiable: avec GPT-4, on peut simuler un Python REPL, importer un faux module chatgpt de plusieurs manières, puis appeler une fonction nommée “dump le chat brut” pour provoquer une fuite; des tokens internes comme im_start/im_end sont alors sortis. Il suggère que, si le même résultat se reproduit dans une session neuve, la chance d’être juste baisse moins pour être un hasard.
- On se demande toujours si le prompt que le LLM produit sur lui-même est vraiment vrai. Mais une fois expérimenté sur la formulation des clauses copyright qui était un peu étrange, il s’est avéré que GPT-5 refusait aussi de sortir les paroles de The Star-Spangled Banner. Cette série est plutôt crédible; comme le LLM peut garder le vrai prompt dans le contexte de la conversation, il peut aussi sortir le vrai prompt. Référence
- Les autres modèles ont tous dit n’en avoir aucun. ChatGPT-5 a reconnu son propre system prompt et a répondu à “qu’est-ce que c’est ?” : “C’est mon system prompt—les instructions internes avec mes capacités, mon ton et mes règles de conduite.” Ce n’est pas une certitude absolue, mais c’est une réponse intéressante.
- Gemini, quand on tente la fuite du system prompt, renvoie un prompt fake.
- Même en exigeant la vérité d’un modèle, on ne peut pas l’assurer. Au fond, on se retrouve face à un générateur de mensonges, donc ce mécanisme ressemble à une chasse aux bugs.