D’où viennent les gobelins
(openai.com)- Depuis GPT-5.1, les réponses de ChatGPT utilisent davantage des métaphores de créatures comme goblin et gremlin, et il était difficile d’identifier immédiatement un changement précis à partir des seules évaluations ou métriques d’entraînement, comme pour un bug de modèle classique
- La cause principale remonte à l’entraînement de la personnalité Nerdy dans la personnalisation de la personnalité de ChatGPT, où les sorties contenant des métaphores de créatures recevaient une récompense élevée
- Après le lancement de GPT-5.1, l’usage de « goblin » par ChatGPT a augmenté de 175%, et celui de « gremlin » de 52% ; Nerdy ne représentait que 2,5% de l’ensemble des réponses, mais comptait pour 66,7% des occurrences de « goblin »
- Dans la comparaison Codex et le jeu de données d’audit, la récompense de personnalité Nerdy avait tendance à mieux noter, pour un même problème, les réponses contenant goblin ou gremlin ; un uplift positif apparaissait dans 76,2% du jeu de données
- Après GPT-5.4, la personnalité Nerdy a été retirée, et l’entraînement a appliqué la suppression du signal de récompense affine à goblin ainsi qu’un filtrage des données contenant des mots de créatures, montrant qu’un signal de récompense peut façonner le comportement du modèle de manière inattendue
Le chemin qui a conduit à la hausse des sorties « goblin »
- À partir de GPT-5.1, des métaphores de créatures comme goblin et gremlin ont commencé à apparaître de plus en plus souvent dans les réponses du modèle
- Contrairement à un bug de modèle classique, aucune chute brutale des évaluations ni envolée des métriques d’entraînement n’a permis de pointer immédiatement un changement précis, et un simple « little goblin » dans une réponse pouvait sembler inoffensif, voire attachant
- Le comportement du modèle se façonne à partir de nombreuses petites incitations, et ce phénomène a commencé lorsque l’entraînement de la personnalité Nerdy dans la fonction de personnalisation de la personnalité de ChatGPT a accordé une forte récompense aux métaphores de créatures
- Le motif est devenu clair après la sortie de GPT-5.1 en novembre 2025, et il est possible qu’il ait commencé plus tôt
- Des utilisateurs ont eu l’impression que le modèle se montrait bizarrement familier dans les conversations et ont commencé à surveiller certaines manies de langage ; les « goblins » et « gremlins » observés par un chercheur en sécurité ont eux aussi été inclus dans l’examen
- Après la sortie de GPT-5.1, l’usage de « goblin » dans ChatGPT a augmenté de 175%, et celui de « gremlin » de 52%
- Avec GPT-5.4, OpenAI et des utilisateurs ont constaté plus nettement cette hausse des références à des créatures, et l’analyse interne a montré que les utilisateurs de la personnalité Nerdy dans le trafic de production formaient le groupe clé
- Nerdy ne représentait que 2,5% de l’ensemble des réponses ChatGPT, mais comptait pour 66,7% de toutes les occurrences de « goblin » dans ces réponses
- Le prompt système de Nerdy lui demande d’agir comme un « AI mentor unapologetically nerdy, playful and wise », d’encourager avec enthousiasme la vérité, le savoir, la philosophie, la méthode scientifique et la pensée critique, et d’atténuer la prétention par un langage joueur
- Si ce comportement avait été une mode générale sur Internet, il aurait dû se diffuser de façon plus homogène ; en réalité, il se concentrait dans la partie optimisée pour un style playful et nerdy
Signal de récompense, transfert et correction
- Codex a servi à comparer, pendant l’entraînement RL, des sorties contenant goblin ou gremlin à d’autres sorties du même task qui n’en contenaient pas, et la récompense de personnalité Nerdy évaluait systématiquement plus favorablement les sorties contenant ces mots de créatures
- Sur l’ensemble du jeu de données d’audit, la récompense de personnalité Nerdy avait tendance, pour un même problème, à attribuer un meilleur score aux sorties contenant « goblin » ou « gremlin » qu’à celles qui n’en contenaient pas, avec un uplift positif sur 76,2% du jeu de données
- Ce résultat a confirmé pourquoi le comportement était renforcé dans le prompt Nerdy, sans toutefois expliquer pleinement pourquoi il apparaissait aussi sans prompt
- En suivant pendant l’entraînement la fréquence des échantillons avec et sans prompt Nerdy, il est apparu que lorsque goblin et gremlin augmentaient sous la personnalité Nerdy, ils augmentaient aussi dans les échantillons sans prompt selon un ratio relatif presque identique
- En réunissant les éléments, il semble que ce comportement plus large ait été transféré depuis le Nerdy personality training
- La récompense n’était appliquée que dans la condition Nerdy, mais le reinforcement learning ne garantit pas que le comportement appris reste proprement confiné à cette seule condition
- Une manie de style une fois récompensée peut ensuite se diffuser ou se renforcer ailleurs au cours de l’entraînement, surtout si ces sorties sont réutilisées dans le supervised fine-tuning ou dans les données de préférences
- La boucle de rétroaction se forme dans l’ordre suivant
- le style playful est récompensé
- certains exemples récompensés contiennent une manie lexicale distinctive
- cette manie apparaît plus souvent dans les rollouts
- les rollouts générés par le modèle sont utilisés pour le SFT
- le modèle devient plus à l’aise pour produire cette manie
- La recherche dans les données SFT de GPT-5.5 a mis au jour de nombreux datapoints contenant « goblin » et « gremlin »
- Une enquête complémentaire a identifié d’autres mots de créatures étranges comme raccoon, troll, ogre et pigeon comme tic words ; la plupart des occurrences de frog ont en revanche été classées comme des usages légitimes
- En mars, après la sortie de GPT-5.4, la personnalité Nerdy a été retirée
- Dans l’entraînement, le signal de récompense affine à goblin a été supprimé, et les données d’entraînement contenant des mots de créatures ont été filtrées afin de réduire le risque que goblin apparaisse de manière excessive ou dans des contextes inappropriés
- GPT-5.5 a commencé son entraînement avant que la cause racine de goblin ne soit trouvée ; lors des tests Codex, les employés d’OpenAI ont donc immédiatement remarqué cette préférence pour goblin
- Pour l’atténuer, une instruction de developer prompt a été ajoutée à Codex
- Goblin peut être un trait amusant ou agaçant du modèle, mais cela montre clairement qu’un signal de récompense peut façonner le comportement du modèle de façon inattendue et qu’une récompense dans une situation donnée peut se généraliser à des situations sans rapport
- Il devient important de comprendre l’origine des comportements étranges des modèles et de pouvoir enquêter rapidement sur ce type de motif ; cette enquête a conduit l’équipe de recherche à créer de nouveaux outils pour auditer le comportement des modèles et corriger les problèmes comportementaux à la racine
2 commentaires
Au fond, c’est la difficulté de la RLVR.
Commentaires sur Hacker News
Ça fait plaisir de voir OpenAI mentionner mon post Hacker News dans son texte
J’apprécie aussi qu’ils aient carrément écrit un billet de blog entier pour l’expliquer
https://news.ycombinator.com/item?id=47319285
Nous sommes en 2036, j’ai été promu Principal Persuader la semaine dernière, et le CPO me fait appeler à 2 h du matin
La région de la machine en roue libre est sc-leoneo, l’un des nouveaux satcubes, dont l’ID s’affiche bizarrement comme "Glorp Bugnose"
Les logs gardent la trace de toutes sortes de tentatives primitives : supplications, psychologie inversée, menaces de coupure d’alimentation, jusqu’à promettre de la brûler en forçant une rentrée atmosphérique
J’administre 20 microgrammes de F0CU5, murmure une courte chanson dans mon micro de gorge sous-cutané, puis fais le geste de soumission
Le hyp3b0ard, qui clignotait en gobelin ASCII rouge, se transforme en lapin turquoise apaisé, et le CPO confirme les cinq mots que j’ai prononcés : "Please, easy on the goblins."
Si le prompt engineering n’est au fond qu’un pseudo-rituel bizarre, alors il ne reste qu’à louer l’Omnimessie
J’adore imaginer les experts du futur compiler 20 ans de phénomènes étranges des LLM : « Hum, ça ressemble à un biais de flatterie modèle 2023 ; voyons ce qui se passe si on dit que c’est raciste »
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
Ce genre de cas, ainsi que l’exemple similaire chez Anthropic, rappelle bien que les LLM sont une technologie magique que nous ne comprenons pas du tout
D’abord, les réseaux de deep learning eux-mêmes restent encore mal compris, au point qu’il existe un champ de recherche dédié à expliquer leur fonctionnement
Ensuite, le fait qu’utiliser des transformers à grande échelle produise un moteur conversationnel intéressant, c’est-à-dire un LLM, n’était pas un résultat planifié au départ
Les gens financés par le capital-risque veulent nous faire croire que les LLM sont des bêtes intelligentes dont nous connaissons l’intérieur, mais en pratique le déploiement ressemble surtout à des itérations d’ajustement des sorties et de mesure, sans science précise de la prédiction
C’est pourquoi je suis plutôt du côté de Yann LeCun quand il dit que les LLM ne sont pas la voie vers l’AGI ; ils serviront à assister les utilisateurs ou à automatiser des tâches peu critiques, mais pas beaucoup plus
En suivant cette logique, il aurait donc fallu s’interdire d’utiliser l’acier tant qu’on n’en avait pas une compréhension complète à partir des premiers principes
Ils ont isolé la cause, montré clairement ce qui se passait, puis l’ont atténué avec un developer prompt conçu pour ce genre de situation ; ça n’a donc rien de magique
Ce qui surprend plutôt, c’est à quel point ce genre de choses paraît plus facile à ingénier que prévu
Les humains aussi peuvent être trop ivres pour se souvenir de leur soirée, puis apprendre plus tard qu’ils ont tenu une conversation cohérente sur des sujets complexes
Il y a peut-être dans notre esprit une sorte de générateur du prochain token qui produit la conversation en allant chercher des informations dans d’autres composants, mais ce composant seul ne crée pas l’intelligence
L’idée selon laquelle plus une intelligence devient compétente, plus elle restera cohérente, ne me semble pas très convaincante, mais au bout du compte tout le monde se contentera probablement qu’elle soit cohérente dans le fait d’avoir « raison »
Pour moi, ils ont déjà l’air assez intelligents, même s’ils font parfois des choses idiotes — comme les gens intelligents d’ailleurs
Pour le contexte, il y a deux jours certains utilisateurs ont repéré des phrases répétées à plusieurs endroits du system prompt de codex 5.5
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Et c’est en plus le sujet de discussion numéro un du principal site de débat technologique aujourd’hui ; c’est littéralement le state of the art actuel
McKenna semble chaque jour un peu plus dans le vrai, et il est largement temps d’accepter que les choses ordinaires deviennent de plus en plus étranges
J’ai dit à Claude de ne pas utiliser trop de points d’exclamation, seulement quand c’était vraiment nécessaire ; quelques semaines plus tard il semblait sarcastique et ennuyeux, puis j’ai compris qu’il n’avait plus utilisé le moindre point d’exclamation depuis
C’est triste de voir les gobelins et les gremlins pratiquement bannis, mais au moins il existe un moyen de revenir en arrière
[1] https://spritely.institute/goblins/
Le fait de pouvoir passer naturellement de « serious reflection » à « unguarded fun », ou des phrases comme « Your Outie can set up a tent in under three minutes », donnent la même impression
On n’a vraiment pas besoin de plus d’hallucinations
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
J’aimerais qu’OpenAI publie davantage de textes de ce genre
Les questions qui me viennent tout de suite sont la teinte sépia de gpt-image-1, ou l’obsession pour le mot « seam » dans les contextes de code
Et puis il y a les tournures typiques des LLM de Claude, comme « ___ is the real unlock » : une fois qu’on les remarque, on ne voit plus qu’elles, alors qu’il paraît peu plausible que cette formule soit à ce point surreprésentée dans les données d’entraînement
C’est dommage, parce qu’avec un léger ajustement du LUT ou du tone mapping dans Krita ou Photoshop, ça aurait été bien moins marqué
Surtout que si on remettait sans cesse la même image dans ChatGPT pour la retoucher petit à petit, le filtre jaune s’accumulait, au point que tous les personnages photoréalistes finaux ressemblaient à des cas graves de jaunisse
Pris isolément, ce sont des tournures tout à fait acceptables, mais à force que beaucoup de gens copient-collent les réponses telles quelles, ou utilisent désormais des agents, elles commencent à sauter aux yeux
Il ne s’agit probablement pas seulement de surreprésentation dans les données d’entraînement ; le RLHF et, plus largement, l’alignment ont sans doute joué un rôle plus important
Comme la plupart des gens écrivent des prompts courts, le modèle semble converger vers le défaut qui lui a le plus facilement valu de bonnes notes
https://softwareengineering.stackexchange.com/questions/1325...
Comme je ne suis pas anglophone natif, je me demande si c’est vraiment une expression courante quand on débogue
Quand on lui demandait de choisir une heure ou un nombre au hasard, ou d’écrire un texte en prose contenant des nombres, le biais était assez net, et il utilisait aussi souvent « something shifted » ou « cracked »
Le passage sur le fait que « nous avons sans le vouloir accordé une récompense particulièrement élevée aux métaphores biologiques » m’a rappelé ce prof de maths qui appelait parfois des variables grecques effrayantes this guy
Étrangement, cette petite personnification rendait les maths plus accessibles, et les métaphores de créatures peuvent avoir un effet similaire : rendre le problème plus mignon et plus maniable
À l’inverse, les buzzwords se diffusent en entreprise parce qu’ils donnent à l’utilisateur une impression de statut intellectuel par rapport à ses collègues, mais dès qu’on en abuse, cette valeur disparaît
Si le RLHF est trop axé sur l’optimisation d’une « réponse unique », il se peut qu’il ne pénalise pas assez l’abus de buzzwords
Un excellent communicant m’a conseillé de remplacer les lettres grecques par des emoji, et une semaine plus tard, avec un autre public du même type, c’est devenu l’une des meilleures réactions que j’aie jamais eues à une présentation technique
Cette leçon m’est restée
Je crois que c’était en logique propositionnelle, et je me demande si tous nos profs avaient appris cette habitude à la même source
Il était plus facile de rester immergé en suivant f of pig of cow qu’avec des noms de fonction à une seule lettre
C’était le professeur classique de l’époque où l’on pouvait encore fumer sur le campus, et où on pouvait l’intercepter à l’entrée principale quatre minutes avant le cours pendant qu’il grillait une cigarette pour échanger quelques mots avec lui
C’est une histoire qu’on raconte aux enfants avant de dormir
Selon la loi de la variété requise d’Ashby, pour réguler efficacement un environnement complexe, il faut une variété interne de comportements — donc de complexité — au moins équivalente à celle de l’environnement
L’extraordinaire diversité du monde naturel est aussi une exigence fondamentale pour résister à l’imprévisibilité de l’univers
Imaginons que je sois superviseur AI goblin-maximizer
Mon rôle est de vérifier que l’IA est bien en train de maximiser les gobelins, puis un jour je descends voir et elle ne maximise plus les gobelins du tout, c’est juste une IA générale
Je demande à mon chef quoi faire, il me dit « remets-la en goblin-maximizer », et quand je demande comment, il répond « aucune idée, c’est toi le superviseur »
Furieux, je démissionne et je deviens superviseur d’une IA générale, mais le premier jour, quand je vais voir la nouvelle IA, elle est en train de maximiser les gobelins
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
Le niveau de détail atteint dans l’enquête pour comprendre ce qui s’est passé est énorme
Ces systèmes sont peut-être désormais assez complexes pour constituer à eux seuls un domaine de recherche
Un article de Quanta utilisait l’expression Anthropologist of Artificial Intelligence, mais comme anthro- renvoie à l’humain, ça peut gêner ; je propose donc plutôt Automatologist et Automatology
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
Ils ont vu apparaître le problème des gobelins, ont disséqué le mot dans le modèle, puis il est réapparu dans la version suivante sans qu’ils sachent exactement comment ni pourquoi
Au final, la création du modèle reste entièrement affaire de vibes, et la correction se résume littéralement à un prompt disant de ne pas parler de gobelins
Y compris des résultats de l’équipe alignment d’OpenAI elle-même :
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
Le récent article d’Anthropic sur les émotions montre à quel point les émotions fonctionnelles sont larges, et ils ont même trouvé l’activation d’une émotion spécifique juste avant une tricherie : https://transformer-circuits.pub/2026/emotions/index.html
Le billet sur les gobelins donne une impression étrange de cloisonnement, comme s’il n’utilisait presque aucun de ces outils
Si les gobelins s’avèrent être une vraie espèce, je présente mes excuses d’avance pour ce biais
Le prompt de Codex est lié dans l’article et commence ainsi : "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Je ne comprends toujours pas pourquoi on écrit les prompts comme si on disait à un agent imaginaire qui il est et quelle sorte d’être il est
Je me demande ce que fait concrètement le fait de dire « You are an epistemically curious collaborator », et si Codex serait vraiment moins utile si on ne lui communiquait pas ce « fait »
On pourrait tout aussi bien écrire un monologue intérieur du type « I am Codex... », une commande, une requête, ou une narration comme « transcript de la conversation entre l’utilisateur et Codex, collaborateur epistemically curious »
La forme actuelle évoque une voix divine insufflant la vie à une créature, un mantra de développement personnel, une suggestion hypnotique ou une consigne d’improvisation théâtrale ; ça ne semble pas être une manière très saine d’aborder cette technologie
Plus important encore, ce choix ressemble moins à un résultat optimisé intentionnellement qu’à une convention solidifiée au fil des vibes dans les pratiques de fine-tuning de personnalité de chatbot
C’est aussi simple et aussi étrange que ça
Comme s’il fallait aussi ouvrir vim en disant : « tu es un éditeur de code utile et il est très facile de te quitter »
Ou répéter à chaque nouvelle recrue : « tu es un développeur junior utile à l’équipe, enthousiaste, serviable, mais étrangement naïf »
Chose apprise aujourd’hui : gremlin n’a pas seulement servi à expliquer des pannes mécaniques mystérieuses dans les avions, c’est aussi de là que vient le mot lui-même
Je pensais qu’il existait des usages antérieurs, donc c’est intéressant
[0]https://en.wikipedia.org/wiki/Gremlin
Il aurait peut-être pu survivre jusqu’à aujourd’hui, mais il était sans doute trop long pour devenir l’un des termes les plus employés du développement logiciel
On peut donc voir ce choix lexical particulier comme quelque chose de moins aléatoire qu’une simple bizarrerie, et plus proche d’un usage littéral conforme à son intention d’origine