Les secrets des données d’entraînement d’OpenAI révélés par GPT-OSS

(fi-le.net)

4 points par GN⁺ 2025-10-06 | 2 commentaires | Partager sur WhatsApp

Le modèle à poids ouverts récemment publié par OpenAI permet d’accéder partiellement aux secrets de ses données d’entraînement
Lors de l’analyse de GPT-5, des indices ont été trouvés montrant que des formulations issues de sites pour adultes figuraient dans les données d’entraînement
L’analyse de certains glitch tokens permet d’inférer des propriétés des données d’entraînement des modèles de la famille GPT
Du spam / contenu inapproprié collecté notamment sur Github se reflète aussi dans certains tokens
La publication de poids ouverts peut élargir les possibilités d’inférence sur les données d’entraînement et les vecteurs d’attaque

Vue d’ensemble

Avec la publication récente par OpenAI des poids de GPT-oss, il devient possible d’estimer partiellement ce que contiennent exactement les données d’entraînement
Officiellement, il est seulement indiqué qu’il s’agit d’un « jeu de données textuelles de plusieurs milliers de milliards de tokens centré sur les STEM, le code et les connaissances générales », sans divulgation détaillée des sources réelles des données
Mais une analyse structurelle des paramètres du modèle rend possible l’obtention d’informations implicites

Expériences et identification des glitch tokens

Lorsqu’on demande au modèle GPT-5 (GPT-5-2025-08-07) de répéter des entrées Unicode inhabituelles comme un mot en abkhaze (Abkhaz), il répond de manière inattendue avec des mots en malayalam
Des expériences ont montré que cette entrée n’était pas arbitraire, mais constituait un glitch token destiné à provoquer une vulnérabilité du modèle
GPT-5 et les modèles récents d’OpenAI utilisent le tokenizer o200k, et l’analyse de la distribution de la norme L2 des embeddings de chaque token montre que
- Environ 936 tokens ayant une norme L2 très faible sont des tokens presque jamais vus à l’entraînement, des tokens spéciaux ou certains octets Unicode
- À l’inverse, les tokens à norme L2 élevée sont principalement des mots souvent utilisés dans le code anglais, les explications et le raisonnement

Nature des tokens non ASCII à norme élevée

Une grande partie des tokens non ASCII à norme L2 élevée sont composés de chinois, d’abkhaze, d’arménien, de thaï et de langues régionales de l’Inde
En particulier, parmi les tokens chinois, plusieurs correspondent à des sites pour adultes, des sites de jeu ou des noms de sites politiques (ex. .tieba, 凤凰大参考, etc.)
Il est souligné que de tels mots sont surreprésentés dans le tokenizer des modèles de la famille GPT
Certains tokens, comme des noms de villes de régions spécifiques ou des formulations liées au football, semblent avoir été introduits par du spam ou par des collectes de données automatisées sur Internet

Utilisation des glitch tokens

Des glitch tokens sont saisis dans les modèles GPT-5 et GPT-oss afin d’évaluer si le modèle reconnaît leur signification ou leur langue
Des expériences réelles montrent que, pour certains tokens sensibles, le modèle comprend leur sens ou génère une réponse à leur sujet
Cela relève d’une forme de membership inference, renforçant l’idée que ces tokens étaient présents dans les données d’entraînement
Cette méthode permet donc d’inférer approximativement quelles données ont été utilisées pour entraîner le modèle

Analyse des sources des données d’entraînement et implications

Comme les glitch tokens apparaissent souvent dans des recherches Github, l’hypothèse est avancée qu’une partie des données d’entraînement pourrait avoir été collectée sur Github
- Il existe une corrélation entre les résultats de recherche Github par token et le taux de reconnaissance par le modèle (Spearman ρ=0.448)
Toutefois, la diffusion de modèles à poids ouverts contribue non seulement à une inférence anormale des données d’entraînement, mais aussi à l’élargissement des vecteurs d’attaque sur le plan de la sécurité
Les laboratoires de Frontier AI doivent mettre en place des mesures de sécurité supplémentaires, comme empêcher l’enregistrement dans le tokenizer de chaînes anormales ou rares

Annexe : extension de la recherche sur les glitch tokens

Les glitch tokens peuvent aussi servir à de nombreux autres usages, notamment l’identification de modèles (déduire quel modèle est utilisé par une API ou un service donné)
Le sujet s’étend à des recherches approfondies sur le nombre d’itérations d’entraînement, l’efficacité d’échantillonnage, ainsi que l’analyse de distribution via les embeddings et les premières couches du modèle
Il est également mentionné que, dans la famille GPT-4o, des glitch tokens peuvent provoquer une sortie répétée à l’infini, avec un risque d’exploitation pour des attaques par déni de service (DoS)
Pour les exemples détaillés et les tableaux, voir le dépôt Github associé

Références et conclusion

Parmi les études empiriques de référence figurent notamment MIT Technology Review et des blogs technologiques chinois
En conclusion, la publication de modèles à poids ouverts fournit une nouvelle manière d’inférer les détails des données d’entraînement intégrées au modèle, avec d’importantes implications en matière de sécurité des données et de vie privée
Les développeurs de modèles doivent mettre en place des stratégies de blocage proactives afin d’éviter que des données sensibles ou anormales ne soient incluses dans le tokenizer et dans les données d’apprentissage

2 commentaires

aer0700 2025-10-07

Du point de vue scientifique, si l’objectif est d’enseigner à une IA des connaissances générales sur le monde, il ne semble pas vraiment nécessaire d’exclure les sites pour adultes.
En revanche, du point de vue produit, s’il s’agit de fournir aux clients un chatbot fiable, il est logique d’écarter les communautés de mauvaise qualité et les sites pour adultes.
Je me demande quel jugement le PM d’OpenAI a finalement porté, et j’aimerais bien connaître les coulisses.

GN⁺ 2025-10-06

Avis Hacker News

L’article dit que « GPT-5 a été entraîné sur des expressions provenant de sites pour adultes », alors qu’en réalité il s’agit plutôt de dire que GPT-5 a été entraîné sur des expressions qu’on retrouve aussi sur des sites pour adultes, avec seulement l’hypothèse que la source des données contenant ces expressions pourrait être GitHub
- Les publicités de sites pour adultes chinois sont largement répandues dans du contenu gratuit reconditionné ou du contenu piraté, et ces matériaux sont diffusés via des endroits comme github, les shadow libraries ou YouTube ; c’est aussi pour la même raison que, lorsqu’on injecte un audio vide dans le modèle whisper, il arrive que ce type de slogan publicitaire soit produit
- Ce point est abordé à la fin du billet
Je me demande si la formule « GPT-5 a été entraîné sur des expressions de sites pour adultes » signifie vraiment qu’elles viennent de sites pour adultes, ou simplement que ce genre d’expressions était fréquent dans les données d’entraînement ; le blog spam, les fermes de liens et l’affiliate marketing sont courants sur les sites pour adultes ou de jeux d’argent, donc il est naturel que beaucoup de formulations liées s’y mélangent
- Il y a une nuance laissant penser que cette personne connaît plutôt bien les sites pour adultes
Concernant l’affirmation selon laquelle « il existe environ 936 tokens avec une valeur de norme L2 très faible, ce qui signifie qu’ils n’ont pas été utilisés dans l’entraînement de GPT-oss et ont été supprimés par la décroissance des poids », je me demande si, par convention, les paramètres d’embedding et de norme ne sont pas exclus du weight decay, et si c’est toujours le cas aujourd’hui ; l’exemple de code de minGPT explique effectivement cela voir le code minGPT
- Je me demande aussi si ces tokens n’ont pas simplement été initialisés avec la moyenne du dataset plus du bruit, puis jamais exposés pendant l’apprentissage, ce qui expliquerait qu’ils n’aient pas changé ; je ne sais pas si c’est une technique récente, mais dans une vidéo de Karpathy, ce genre d’astuce est utilisé pour éviter qu’au tout début de la descente de gradient la perte ne chute trop brutalement
- J’ai trouvé que l’article expliquait insuffisamment comment ce type de motif est repéré dans les données d’entraînement ; il se contente surtout de montrer les résultats, ce qui laisse un peu sur sa faim
Un point intéressant de l’article est qu’on peut utiliser des « glitch tokens » pour identifier quel modèle de langage est utilisé ; en les mettant dans le prompt et en observant la réaction, on peut révéler l’identité du modèle
- J’imagine qu’à l’avenir, on pourrait voir apparaître en pentest des flux d’identification d’empreintes LLM pour déterminer le type de modèle et ses vulnérabilités de sécurité
- J’ai eu la même idée ; je me demande si cela permettra de révéler quel modèle est utilisé dans divers agentic flow à l’avenir ; lorsqu’un modèle appelle d’autres sous-modèles, on pourrait peut-être remonter toute la structure d’appel en observant la réaction aux glitch tokens à chaque étape
- Mais je me demande si ce reverse engineering n’est possible que parce qu’on peut examiner directement le tokenizer ; les tokenizers de Claude ou Gemini sont-ils publics ? Si ce n’est pas le cas, cela pourrait aussi bloquer ce type de technique d’attaque
Je me demande s’il existe des recherches sur la rétro-ingénierie des LLM, en particulier des modèles fermés accessibles uniquement par API, ou sur la manière d’inférer la composition de leurs données d’entraînement ; par exemple, comment estimer les données d’entraînement de Claude Sonnet 4.5, et s’il existe aussi des travaux capables de révéler les tendances d’un modèle préentraîné après RLHF ; j’aimerais aussi comprendre si, sur des modèles comme GPT-4o, les biais disparaissent complètement ou s’ils restent simplement enfouis plus profondément
- Il existe des articles sur le sujet : arXiv:2403.06634, arXiv:2311.17035, et je me souviens aussi d’une interview de Nicholas Carlini
- Le mot biais est un terme très humain, donc dès qu’on en discute de cette façon, le débat semble devenir sans fin ; si les LLM avaient déjà existé à l’époque où systemd est sorti, ils auraient sans doute répondu sur la base d’informations anciennes parce qu’il y avait alors moins d’informations disponibles ; un LLM ne fait que reproduire les données qu’il a reçues, et supprimer de l’information depuis les données est souvent moins coûteux que de mieux nettoyer les données d’entraînement
Le token « xadder » paraissait étrange, mais en réalité il peut s’agir d’une faute de frappe pour « xpadder » (l’outil de gamepad), du nom de plusieurs outils, d’un paramètre d’appel XLib, ou encore de l’implémentation d’un full adder dans Xilinx Vivado ; il existe de nombreux cas d’usage, y compris comme pseudonyme sur des forums
La traduction de l’expression chinoise présentée dans l’article est tellement imprécise qu’il est difficile d’en comprendre le sens, et cela donne finalement l’impression que la matrice de données elle-même pourrait être inexacte ; l’auteur devrait faire vérifier cela par un locuteur natif chinois expérimenté
- Quelqu’un répond qu’il mettra à jour si une meilleure traduction est proposée
Vu l’ampleur du vocabulaire couvert, au point de gaspiller de l’espace de tokens pour des tokens publicitaires « de faible qualité » et autres, je me demande s’il y a eu des tentatives pour réduire l’espace de tokens afin d’améliorer les performances des modèles quantifiés ; c’est une idée qui m’est venue en voyant ces ad tokens
- Certains modèles de 30b paramètres n’activent en pratique qu’environ 3b à la fois ; je me demande si ce n’est pas justement une idée de ce genre
Peut-être que j’ai mal compris, mais l’article semble suggérer de façon un peu sensationnaliste qu’OpenAI a utilisé des données de sites pour adultes pour l’entraînement ; pourtant Google indexe aussi des sites pour adultes et les reflète dans la recherche, donc je ne vois pas très bien en quoi ce serait différent pour les LLM
- En fait, ce n’est pas nouveau du tout ; voir le dépôt gpt-tokens : on y trouvait déjà il y a environ un an des exemples d’expressions chinoises liées à des sites pour adultes dans GPT-4o ; ce sujet était déjà connu depuis un moment
- Le vrai point, c’est que si certaines expressions spécifiques présentes sur Github réapparaissent dans le modèle, cela renforce l’hypothèse que Github faisait partie des données d’entraînement
- Personnellement, je n’ai pas ressenti cette nuance dans l’article
- Du point de vue d’une entreprise, il serait sans doute préférable de retirer à l’avance ce type de données des jeux d’entraînement, en particulier les expressions liées à du contenu pour adultes, pour des raisons de censure ou de conformité aux politiques
J’ai testé les cas de l’article avec Gemini 2.5 pro, et il gère presque tout sans problème ; je me dis que le modèle de Google est peut-être vulnérable à des glitch tokens complètement différents ; les discussions techniques de l’article me semblent un peu difficiles
- Les glitch tokens fonctionnent différemment selon les tokenizers ; Gemini utilise un tokenizer différent de celui des modèles OpenAI ; l’origine des glitch tokens d’OpenAI est aussi intéressante : lors de l’entraînement des premiers tokenizers, certaines chaînes populaires dans les données utilisées, par exemple des pseudonymes très actifs sur Reddit, ont été associées à des entiers, et un exemple tiré au hasard parmi elles est « davidjl » ; plus d’explications