- Le modèle à poids ouverts récemment publié par OpenAI permet d’accéder partiellement aux secrets de ses données d’entraînement
- Lors de l’analyse de GPT-5, des indices ont été trouvés montrant que des formulations issues de sites pour adultes figuraient dans les données d’entraînement
- L’analyse de certains glitch tokens permet d’inférer des propriétés des données d’entraînement des modèles de la famille GPT
- Du spam / contenu inapproprié collecté notamment sur Github se reflète aussi dans certains tokens
- La publication de poids ouverts peut élargir les possibilités d’inférence sur les données d’entraînement et les vecteurs d’attaque
Vue d’ensemble
- Avec la publication récente par OpenAI des poids de GPT-oss, il devient possible d’estimer partiellement ce que contiennent exactement les données d’entraînement
- Officiellement, il est seulement indiqué qu’il s’agit d’un « jeu de données textuelles de plusieurs milliers de milliards de tokens centré sur les STEM, le code et les connaissances générales », sans divulgation détaillée des sources réelles des données
- Mais une analyse structurelle des paramètres du modèle rend possible l’obtention d’informations implicites
Expériences et identification des glitch tokens
- Lorsqu’on demande au modèle GPT-5 (GPT-5-2025-08-07) de répéter des entrées Unicode inhabituelles comme un mot en abkhaze (Abkhaz), il répond de manière inattendue avec des mots en malayalam
- Des expériences ont montré que cette entrée n’était pas arbitraire, mais constituait un glitch token destiné à provoquer une vulnérabilité du modèle
- GPT-5 et les modèles récents d’OpenAI utilisent le tokenizer o200k, et l’analyse de la distribution de la norme L2 des embeddings de chaque token montre que
- Environ 936 tokens ayant une norme L2 très faible sont des tokens presque jamais vus à l’entraînement, des tokens spéciaux ou certains octets Unicode
- À l’inverse, les tokens à norme L2 élevée sont principalement des mots souvent utilisés dans le code anglais, les explications et le raisonnement
Nature des tokens non ASCII à norme élevée
- Une grande partie des tokens non ASCII à norme L2 élevée sont composés de chinois, d’abkhaze, d’arménien, de thaï et de langues régionales de l’Inde
- En particulier, parmi les tokens chinois, plusieurs correspondent à des sites pour adultes, des sites de jeu ou des noms de sites politiques (ex.
.tieba, 凤凰大参考, etc.)
- Il est souligné que de tels mots sont surreprésentés dans le tokenizer des modèles de la famille GPT
- Certains tokens, comme des noms de villes de régions spécifiques ou des formulations liées au football, semblent avoir été introduits par du spam ou par des collectes de données automatisées sur Internet
Utilisation des glitch tokens
- Des glitch tokens sont saisis dans les modèles GPT-5 et GPT-oss afin d’évaluer si le modèle reconnaît leur signification ou leur langue
- Des expériences réelles montrent que, pour certains tokens sensibles, le modèle comprend leur sens ou génère une réponse à leur sujet
- Cela relève d’une forme de membership inference, renforçant l’idée que ces tokens étaient présents dans les données d’entraînement
- Cette méthode permet donc d’inférer approximativement quelles données ont été utilisées pour entraîner le modèle
Analyse des sources des données d’entraînement et implications
- Comme les glitch tokens apparaissent souvent dans des recherches Github, l’hypothèse est avancée qu’une partie des données d’entraînement pourrait avoir été collectée sur Github
- Il existe une corrélation entre les résultats de recherche Github par token et le taux de reconnaissance par le modèle (Spearman ρ=0.448)
- Toutefois, la diffusion de modèles à poids ouverts contribue non seulement à une inférence anormale des données d’entraînement, mais aussi à l’élargissement des vecteurs d’attaque sur le plan de la sécurité
- Les laboratoires de Frontier AI doivent mettre en place des mesures de sécurité supplémentaires, comme empêcher l’enregistrement dans le tokenizer de chaînes anormales ou rares
Annexe : extension de la recherche sur les glitch tokens
- Les glitch tokens peuvent aussi servir à de nombreux autres usages, notamment l’identification de modèles (déduire quel modèle est utilisé par une API ou un service donné)
- Le sujet s’étend à des recherches approfondies sur le nombre d’itérations d’entraînement, l’efficacité d’échantillonnage, ainsi que l’analyse de distribution via les embeddings et les premières couches du modèle
- Il est également mentionné que, dans la famille GPT-4o, des glitch tokens peuvent provoquer une sortie répétée à l’infini, avec un risque d’exploitation pour des attaques par déni de service (DoS)
- Pour les exemples détaillés et les tableaux, voir le dépôt Github associé
Références et conclusion
- Parmi les études empiriques de référence figurent notamment MIT Technology Review et des blogs technologiques chinois
- En conclusion, la publication de modèles à poids ouverts fournit une nouvelle manière d’inférer les détails des données d’entraînement intégrées au modèle, avec d’importantes implications en matière de sécurité des données et de vie privée
- Les développeurs de modèles doivent mettre en place des stratégies de blocage proactives afin d’éviter que des données sensibles ou anormales ne soient incluses dans le tokenizer et dans les données d’apprentissage
2 commentaires
Du point de vue scientifique, si l’objectif est d’enseigner à une IA des connaissances générales sur le monde, il ne semble pas vraiment nécessaire d’exclure les sites pour adultes.
En revanche, du point de vue produit, s’il s’agit de fournir aux clients un chatbot fiable, il est logique d’écarter les communautés de mauvaise qualité et les sites pour adultes.
Je me demande quel jugement le PM d’OpenAI a finalement porté, et j’aimerais bien connaître les coulisses.
Avis Hacker News