5 points par GN⁺ 2026-05-01 | 2 commentaires | Partager sur WhatsApp
  • Depuis GPT-5.1, les réponses de ChatGPT utilisent davantage des métaphores de créatures comme goblin et gremlin, et il était difficile d’identifier immédiatement un changement précis à partir des seules évaluations ou métriques d’entraînement, comme pour un bug de modèle classique
  • La cause principale remonte à l’entraînement de la personnalité Nerdy dans la personnalisation de la personnalité de ChatGPT, où les sorties contenant des métaphores de créatures recevaient une récompense élevée
  • Après le lancement de GPT-5.1, l’usage de « goblin » par ChatGPT a augmenté de 175%, et celui de « gremlin » de 52% ; Nerdy ne représentait que 2,5% de l’ensemble des réponses, mais comptait pour 66,7% des occurrences de « goblin »
  • Dans la comparaison Codex et le jeu de données d’audit, la récompense de personnalité Nerdy avait tendance à mieux noter, pour un même problème, les réponses contenant goblin ou gremlin ; un uplift positif apparaissait dans 76,2% du jeu de données
  • Après GPT-5.4, la personnalité Nerdy a été retirée, et l’entraînement a appliqué la suppression du signal de récompense affine à goblin ainsi qu’un filtrage des données contenant des mots de créatures, montrant qu’un signal de récompense peut façonner le comportement du modèle de manière inattendue

Le chemin qui a conduit à la hausse des sorties « goblin »

  • À partir de GPT-5.1, des métaphores de créatures comme goblin et gremlin ont commencé à apparaître de plus en plus souvent dans les réponses du modèle
  • Contrairement à un bug de modèle classique, aucune chute brutale des évaluations ni envolée des métriques d’entraînement n’a permis de pointer immédiatement un changement précis, et un simple « little goblin » dans une réponse pouvait sembler inoffensif, voire attachant
  • Le comportement du modèle se façonne à partir de nombreuses petites incitations, et ce phénomène a commencé lorsque l’entraînement de la personnalité Nerdy dans la fonction de personnalisation de la personnalité de ChatGPT a accordé une forte récompense aux métaphores de créatures
  • Le motif est devenu clair après la sortie de GPT-5.1 en novembre 2025, et il est possible qu’il ait commencé plus tôt
  • Des utilisateurs ont eu l’impression que le modèle se montrait bizarrement familier dans les conversations et ont commencé à surveiller certaines manies de langage ; les « goblins » et « gremlins » observés par un chercheur en sécurité ont eux aussi été inclus dans l’examen
  • Après la sortie de GPT-5.1, l’usage de « goblin » dans ChatGPT a augmenté de 175%, et celui de « gremlin » de 52%
  • Avec GPT-5.4, OpenAI et des utilisateurs ont constaté plus nettement cette hausse des références à des créatures, et l’analyse interne a montré que les utilisateurs de la personnalité Nerdy dans le trafic de production formaient le groupe clé
  • Nerdy ne représentait que 2,5% de l’ensemble des réponses ChatGPT, mais comptait pour 66,7% de toutes les occurrences de « goblin » dans ces réponses
  • Le prompt système de Nerdy lui demande d’agir comme un « AI mentor unapologetically nerdy, playful and wise », d’encourager avec enthousiasme la vérité, le savoir, la philosophie, la méthode scientifique et la pensée critique, et d’atténuer la prétention par un langage joueur
  • Si ce comportement avait été une mode générale sur Internet, il aurait dû se diffuser de façon plus homogène ; en réalité, il se concentrait dans la partie optimisée pour un style playful et nerdy

Signal de récompense, transfert et correction

  • Codex a servi à comparer, pendant l’entraînement RL, des sorties contenant goblin ou gremlin à d’autres sorties du même task qui n’en contenaient pas, et la récompense de personnalité Nerdy évaluait systématiquement plus favorablement les sorties contenant ces mots de créatures
  • Sur l’ensemble du jeu de données d’audit, la récompense de personnalité Nerdy avait tendance, pour un même problème, à attribuer un meilleur score aux sorties contenant « goblin » ou « gremlin » qu’à celles qui n’en contenaient pas, avec un uplift positif sur 76,2% du jeu de données
  • Ce résultat a confirmé pourquoi le comportement était renforcé dans le prompt Nerdy, sans toutefois expliquer pleinement pourquoi il apparaissait aussi sans prompt
  • En suivant pendant l’entraînement la fréquence des échantillons avec et sans prompt Nerdy, il est apparu que lorsque goblin et gremlin augmentaient sous la personnalité Nerdy, ils augmentaient aussi dans les échantillons sans prompt selon un ratio relatif presque identique
  • En réunissant les éléments, il semble que ce comportement plus large ait été transféré depuis le Nerdy personality training
  • La récompense n’était appliquée que dans la condition Nerdy, mais le reinforcement learning ne garantit pas que le comportement appris reste proprement confiné à cette seule condition
  • Une manie de style une fois récompensée peut ensuite se diffuser ou se renforcer ailleurs au cours de l’entraînement, surtout si ces sorties sont réutilisées dans le supervised fine-tuning ou dans les données de préférences
  • La boucle de rétroaction se forme dans l’ordre suivant
    • le style playful est récompensé
    • certains exemples récompensés contiennent une manie lexicale distinctive
    • cette manie apparaît plus souvent dans les rollouts
    • les rollouts générés par le modèle sont utilisés pour le SFT
    • le modèle devient plus à l’aise pour produire cette manie
  • La recherche dans les données SFT de GPT-5.5 a mis au jour de nombreux datapoints contenant « goblin » et « gremlin »
  • Une enquête complémentaire a identifié d’autres mots de créatures étranges comme raccoon, troll, ogre et pigeon comme tic words ; la plupart des occurrences de frog ont en revanche été classées comme des usages légitimes
  • En mars, après la sortie de GPT-5.4, la personnalité Nerdy a été retirée
  • Dans l’entraînement, le signal de récompense affine à goblin a été supprimé, et les données d’entraînement contenant des mots de créatures ont été filtrées afin de réduire le risque que goblin apparaisse de manière excessive ou dans des contextes inappropriés
  • GPT-5.5 a commencé son entraînement avant que la cause racine de goblin ne soit trouvée ; lors des tests Codex, les employés d’OpenAI ont donc immédiatement remarqué cette préférence pour goblin
  • Pour l’atténuer, une instruction de developer prompt a été ajoutée à Codex
  • Goblin peut être un trait amusant ou agaçant du modèle, mais cela montre clairement qu’un signal de récompense peut façonner le comportement du modèle de façon inattendue et qu’une récompense dans une situation donnée peut se généraliser à des situations sans rapport
  • Il devient important de comprendre l’origine des comportements étranges des modèles et de pouvoir enquêter rapidement sur ce type de motif ; cette enquête a conduit l’équipe de recherche à créer de nouveaux outils pour auditer le comportement des modèles et corriger les problèmes comportementaux à la racine

2 commentaires

 
brainer 2026-05-01

Au fond, c’est la difficulté de la RLVR.

 
GN⁺ 2026-05-01
Commentaires sur Hacker News
  • Ça fait plaisir de voir OpenAI mentionner mon post Hacker News dans son texte
    J’apprécie aussi qu’ils aient carrément écrit un billet de blog entier pour l’expliquer
    https://news.ycombinator.com/item?id=47319285

  • Nous sommes en 2036, j’ai été promu Principal Persuader la semaine dernière, et le CPO me fait appeler à 2 h du matin
    La région de la machine en roue libre est sc-leoneo, l’un des nouveaux satcubes, dont l’ID s’affiche bizarrement comme "Glorp Bugnose"
    Les logs gardent la trace de toutes sortes de tentatives primitives : supplications, psychologie inversée, menaces de coupure d’alimentation, jusqu’à promettre de la brûler en forçant une rentrée atmosphérique
    J’administre 20 microgrammes de F0CU5, murmure une courte chanson dans mon micro de gorge sous-cutané, puis fais le geste de soumission
    Le hyp3b0ard, qui clignotait en gobelin ASCII rouge, se transforme en lapin turquoise apaisé, et le CPO confirme les cinq mots que j’ai prononcés : "Please, easy on the goblins."

    • Avant, je trouvais absurde l’idée des techpriests de Warhammer 40k accomplissant d’étranges rituels religieux pour apaiser les esprits-machines, mais maintenant j’ai l’impression que ça pourrait vraiment arriver
      Si le prompt engineering n’est au fond qu’un pseudo-rituel bizarre, alors il ne reste qu’à louer l’Omnimessie
    • « L’homme lui-même ne deviendra-t-il pas une sorte de parasite des machines, un puceron affectueux qui les chatouille ? » — Samuel Butler, Erewhon, 1872
    • Quand j’étais jeune, les cracks d’Unix avaient toujours sous la main une liste de comportements bizarres du shell et du C à dégainer dès qu’un problème surgissait
      J’adore imaginer les experts du futur compiler 20 ans de phénomènes étranges des LLM : « Hum, ça ressemble à un biais de flatterie modèle 2023 ; voyons ce qui se passe si on dit que c’est raciste »
    • Dans la nouvelle d’Asimov The Jokester, il y a des « grand masters » capables de formuler des questions à poser à Multivac, et ça ressemble à une version précoce des prompt engineers
    • « Non, John. C’est toi le gobelin. »
      (https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
  • Ce genre de cas, ainsi que l’exemple similaire chez Anthropic, rappelle bien que les LLM sont une technologie magique que nous ne comprenons pas du tout
    D’abord, les réseaux de deep learning eux-mêmes restent encore mal compris, au point qu’il existe un champ de recherche dédié à expliquer leur fonctionnement
    Ensuite, le fait qu’utiliser des transformers à grande échelle produise un moteur conversationnel intéressant, c’est-à-dire un LLM, n’était pas un résultat planifié au départ
    Les gens financés par le capital-risque veulent nous faire croire que les LLM sont des bêtes intelligentes dont nous connaissons l’intérieur, mais en pratique le déploiement ressemble surtout à des itérations d’ajustement des sorties et de mesure, sans science précise de la prédiction
    C’est pourquoi je suis plutôt du côté de Yann LeCun quand il dit que les LLM ne sont pas la voie vers l’AGI ; ils serviront à assister les utilisateurs ou à automatiser des tâches peu critiques, mais pas beaucoup plus

    • L’humanité utilise l’acier depuis plus d’un millénaire, mais cela fait seulement environ 100 ans que nous comprenons correctement comment le carbone interagit avec le fer au niveau atomique pour lui donner sa résistance
      En suivant cette logique, il aurait donc fallu s’interdire d’utiliser l’acier tant qu’on n’en avait pas une compréhension complète à partir des premiers principes
    • Cet article montre que les comportements étranges des LLM viennent en réalité du signal d’entraînement conçu pour produire précisément ce type de comportement
      Ils ont isolé la cause, montré clairement ce qui se passait, puis l’ont atténué avec un developer prompt conçu pour ce genre de situation ; ça n’a donc rien de magique
      Ce qui surprend plutôt, c’est à quel point ce genre de choses paraît plus facile à ingénier que prévu
    • L’AGI fera largement usage des LLM, mais ils ressemblent davantage à des composants qu’à une trajectoire linéaire
      Les humains aussi peuvent être trop ivres pour se souvenir de leur soirée, puis apprendre plus tard qu’ils ont tenu une conversation cohérente sur des sujets complexes
      Il y a peut-être dans notre esprit une sorte de générateur du prochain token qui produit la conversation en allant chercher des informations dans d’autres composants, mais ce composant seul ne crée pas l’intelligence
    • S’il y a une chose que les LLM nous ont apprise, c’est peut-être que l’AGI ne sera pas prévisible
      L’idée selon laquelle plus une intelligence devient compétente, plus elle restera cohérente, ne me semble pas très convaincante, mais au bout du compte tout le monde se contentera probablement qu’elle soit cohérente dans le fait d’avoir « raison »
    • Je me demande à partir de quel niveau d’aptitude un LLM mérite qu’on le dise « intelligent »
      Pour moi, ils ont déjà l’air assez intelligents, même s’ils font parfois des choses idiotes — comme les gens intelligents d’ailleurs
  • Pour le contexte, il y a deux jours certains utilisateurs ont repéré des phrases répétées à plusieurs endroits du system prompt de codex 5.5
    "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
    [1] https://x.com/arb8020/status/2048958391637401718
    [2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...

    • C’est drôle de voir qu’une entreprise considérée comme l’une des plus valorisées au monde pirate en pratique un empilement de fichiers texte pour dire à une machine merveilleuse valant des billions de dollars de ne surtout pas parler de gobelins, de gremlins ou d’ogres aux clients
      Et c’est en plus le sujet de discussion numéro un du principal site de débat technologique aujourd’hui ; c’est littéralement le state of the art actuel
      McKenna semble chaque jour un peu plus dans le vrai, et il est largement temps d’accepter que les choses ordinaires deviennent de plus en plus étranges
    • Les LLM sont vraiment mauvais pour reconnaître les conditions d’exception dans ce genre d’instructions ; quand on leur dit d’en faire moins, ils l’interprètent souvent comme « ne le fais jamais »
      J’ai dit à Claude de ne pas utiliser trop de points d’exclamation, seulement quand c’était vraiment nécessaire ; quelques semaines plus tard il semblait sarcastique et ennuyeux, puis j’ai compris qu’il n’avait plus utilisé le moindre point d’exclamation depuis
      C’est triste de voir les gobelins et les gremlins pratiquement bannis, mais au moins il existe un moyen de revenir en arrière
    • Mauvaise nouvelle pour les personnes intéressées par le langage/environnement de programmation Goblins
      [1] https://spritely.institute/goblins/
    • Des formulations comme "One of your gifts is helping the user feel more capable and imaginative inside their own thinking" finissent par ressembler à des consignes destinées à produire un sycophant
      Le fait de pouvoir passer naturellement de « serious reflection » à « unguarded fun », ou des phrases comme « Your Outie can set up a tent in under three minutes », donnent la même impression
    • Apparemment, il existe des champignons qui font voir à la plupart des gens des « little people » ou des fantasmes similaires, donc espérons que les LLM ne se soient pas mis aux champignons eux aussi
      On n’a vraiment pas besoin de plus d’hallucinations
      "Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
      https://news.ycombinator.com/item?id=47918657
  • J’aimerais qu’OpenAI publie davantage de textes de ce genre
    Les questions qui me viennent tout de suite sont la teinte sépia de gpt-image-1, ou l’obsession pour le mot « seam » dans les contextes de code
    Et puis il y a les tournures typiques des LLM de Claude, comme « ___ is the real unlock » : une fois qu’on les remarque, on ne voit plus qu’elles, alors qu’il paraît peu plausible que cette formule soit à ce point surreprésentée dans les données d’entraînement

    • Sur Discord ou Slack, les gens qui utilisaient des avatars générés dans le style Studio Ghibli se repéraient immédiatement rien qu’à leur dominante jaune
      C’est dommage, parce qu’avec un léger ajustement du LUT ou du tone mapping dans Krita ou Photoshop, ça aurait été bien moins marqué
      Surtout que si on remettait sans cesse la même image dans ChatGPT pour la retoucher petit à petit, le filtre jaune s’accumulait, au point que tous les personnages photoréalistes finaux ressemblaient à des cas graves de jaunisse
    • Tous les GPTismes fonctionnent comme ça
      Pris isolément, ce sont des tournures tout à fait acceptables, mais à force que beaucoup de gens copient-collent les réponses telles quelles, ou utilisent désormais des agents, elles commencent à sauter aux yeux
      Il ne s’agit probablement pas seulement de surreprésentation dans les données d’entraînement ; le RLHF et, plus largement, l’alignment ont sans doute joué un rôle plus important
      Comme la plupart des gens écrivent des prompts courts, le modèle semble converger vers le défaut qui lui a le plus facilement valu de bonnes notes
    • En code, je pensais que seam était déjà un terme établi pour parler d’une base de code composée de plusieurs parties en interaction
      https://softwareengineering.stackexchange.com/questions/1325...
    • L’expression real smoking gun, souvent utilisée par GPT et Claude, m’agace parce qu’elle est excessivement dramatique
      Comme je ne suis pas anglophone natif, je me demande si c’est vraiment une expression courante quand on débogue
    • Avec Claude 4.5, il y avait aussi une tendance à s’obséder pour 47 ou pour les nombres contenant 47
      Quand on lui demandait de choisir une heure ou un nombre au hasard, ou d’écrire un texte en prose contenant des nombres, le biais était assez net, et il utilisait aussi souvent « something shifted » ou « cracked »
  • Le passage sur le fait que « nous avons sans le vouloir accordé une récompense particulièrement élevée aux métaphores biologiques » m’a rappelé ce prof de maths qui appelait parfois des variables grecques effrayantes this guy
    Étrangement, cette petite personnification rendait les maths plus accessibles, et les métaphores de créatures peuvent avoir un effet similaire : rendre le problème plus mignon et plus maniable
    À l’inverse, les buzzwords se diffusent en entreprise parce qu’ils donnent à l’utilisateur une impression de statut intellectuel par rapport à ses collègues, mais dès qu’on en abuse, cette valeur disparaît
    Si le RLHF est trop axé sur l’optimisation d’une « réponse unique », il se peut qu’il ne pénalise pas assez l’abus de buzzwords

    • Lors d’un exposé sur la théorie des automates il y a dix ans, j’avais montré un exemple où des symboles arbitraires écrits sur un ruban prenaient la forme de lettres grecques, et le public n’avait pas très bien suivi
      Un excellent communicant m’a conseillé de remplacer les lettres grecques par des emoji, et une semaine plus tard, avec un autre public du même type, c’est devenu l’une des meilleures réactions que j’aie jamais eues à une présentation technique
      Cette leçon m’est restée
    • Moi aussi j’ai eu un enseignant qui disait « this guy », et ça remonte à 20 ans ; je l’avais complètement oublié avant de lire ça
      Je crois que c’était en logique propositionnelle, et je me demande si tous nos profs avaient appris cette habitude à la même source
    • Mon ancien prof de calcul différentiel parlait de f of cow, f of pig, etc., au lieu de x ou g
      Il était plus facile de rester immergé en suivant f of pig of cow qu’avec des noms de fonction à une seule lettre
      C’était le professeur classique de l’époque où l’on pouvait encore fumer sur le campus, et où on pouvait l’intercepter à l’entrée principale quatre minutes avant le cours pendant qu’il grillait une cigarette pour échanger quelques mots avec lui
    • Cela donne aux gens l’impression très fausse qu’un simple prompt suffit à minimiser toutes les formes de complexité
      C’est une histoire qu’on raconte aux enfants avant de dormir
      Selon la loi de la variété requise d’Ashby, pour réguler efficacement un environnement complexe, il faut une variété interne de comportements — donc de complexité — au moins équivalente à celle de l’environnement
      L’extraordinaire diversité du monde naturel est aussi une exigence fondamentale pour résister à l’imprévisibilité de l’univers
    • À la fac, un prof de maths a dit this guy 61 fois en 50 minutes de cours
  • Imaginons que je sois superviseur AI goblin-maximizer
    Mon rôle est de vérifier que l’IA est bien en train de maximiser les gobelins, puis un jour je descends voir et elle ne maximise plus les gobelins du tout, c’est juste une IA générale
    Je demande à mon chef quoi faire, il me dit « remets-la en goblin-maximizer », et quand je demande comment, il répond « aucune idée, c’est toi le superviseur »
    Furieux, je démissionne et je deviens superviseur d’une IA générale, mais le premier jour, quand je vais voir la nouvelle IA, elle est en train de maximiser les gobelins

  • Le niveau de détail atteint dans l’enquête pour comprendre ce qui s’est passé est énorme
    Ces systèmes sont peut-être désormais assez complexes pour constituer à eux seuls un domaine de recherche
    Un article de Quanta utilisait l’expression Anthropologist of Artificial Intelligence, mais comme anthro- renvoie à l’humain, ça peut gêner ; je propose donc plutôt Automatologist et Automatology
    [1] https://www.quantamagazine.org/the-anthropologist-of-artific...
    [2] https://news.ycombinator.com/item?id=47957933
    [3] https://news.ycombinator.com/item?id=47958760

    • Ça ne m’a pas semblé très profond
      Ils ont vu apparaître le problème des gobelins, ont disséqué le mot dans le modèle, puis il est réapparu dans la version suivante sans qu’ils sachent exactement comment ni pourquoi
      Au final, la création du modèle reste entièrement affaire de vibes, et la correction se résume littéralement à un prompt disant de ne pas parler de gobelins
    • C’est un détail amusant à survoler, mais le plus étonnant, c’est qu’il existe déjà des outils et des recherches bien meilleurs en mechanistic interpretability et en science de l’alignment
      Y compris des résultats de l’équipe alignment d’OpenAI elle-même :
      https://alignment.openai.com/argo/
      https://alignment.openai.com/sae-latent-attribution/
      https://alignment.openai.com/helpful-assistant-features/
      Le récent article d’Anthropic sur les émotions montre à quel point les émotions fonctionnelles sont larges, et ils ont même trouvé l’activation d’une émotion spécifique juste avant une tricherie : https://transformer-circuits.pub/2026/emotions/index.html
      Le billet sur les gobelins donne une impression étrange de cloisonnement, comme s’il n’utilisait presque aucun de ces outils
    • Le distributed model training sur des milliers de GPU peut produire beaucoup de petites bizarreries dont il est difficile de remonter la cause exacte
    • Je propose Goblin Hunter à la place de « Anthropologist of Artificial Intelligence »
      Si les gobelins s’avèrent être une vraie espèce, je présente mes excuses d’avance pour ce biais
  • Le prompt de Codex est lié dans l’article et commence ainsi : "You are Codex, a coding agent based on GPT-5..."
    https://github.com/openai/codex/blob/main/codex-rs/models-ma...
    Je ne comprends toujours pas pourquoi on écrit les prompts comme si on disait à un agent imaginaire qui il est et quelle sorte d’être il est
    Je me demande ce que fait concrètement le fait de dire « You are an epistemically curious collaborator », et si Codex serait vraiment moins utile si on ne lui communiquait pas ce « fait »
    On pourrait tout aussi bien écrire un monologue intérieur du type « I am Codex... », une commande, une requête, ou une narration comme « transcript de la conversation entre l’utilisateur et Codex, collaborateur epistemically curious »
    La forme actuelle évoque une voix divine insufflant la vie à une créature, un mantra de développement personnel, une suggestion hypnotique ou une consigne d’improvisation théâtrale ; ça ne semble pas être une manière très saine d’aborder cette technologie
    Plus important encore, ce choix ressemble moins à un résultat optimisé intentionnellement qu’à une convention solidifiée au fil des vibes dans les pratiques de fine-tuning de personnalité de chatbot

    • Parce que les ingénieurs IA ont découvert par essais et erreurs que commencer l’entrée d’un LLM avec ce genre de prompt augmente les chances d’obtenir ensuite le texte voulu en sortie
      C’est aussi simple et aussi étrange que ça
    • Chaque fois que je vois une formule comme « You are a helpful HN reader... », j’ai l’impression de prendre un marteau et de lui dire : « Tu es un bon marteau, tu ne taperas jamais sur mon pouce, seulement sur les clous »
      Comme s’il fallait aussi ouvrir vim en disant : « tu es un éditeur de code utile et il est très facile de te quitter »
      Ou répéter à chaque nouvelle recrue : « tu es un développeur junior utile à l’équipe, enthousiaste, serviable, mais étrangement naïf »
  • Chose apprise aujourd’hui : gremlin n’a pas seulement servi à expliquer des pannes mécaniques mystérieuses dans les avions, c’est aussi de là que vient le mot lui-même
    Je pensais qu’il existait des usages antérieurs, donc c’est intéressant
    [0]https://en.wikipedia.org/wiki/Gremlin

    • Du coup, ce mot est vraiment très proche de bug sur le plan sémantique
      Il aurait peut-être pu survivre jusqu’à aujourd’hui, mais il était sans doute trop long pour devenir l’un des termes les plus employés du développement logiciel
      On peut donc voir ce choix lexical particulier comme quelque chose de moins aléatoire qu’une simple bizarrerie, et plus proche d’un usage littéral conforme à son intention d’origine
    • Je pensais que c’était un mot bien plus ancien, donc c’est intéressant