D’où viennent les gobelins
(openai.com)- Depuis GPT-5.1, les réponses de ChatGPT utilisent davantage des métaphores de créatures comme goblin et gremlin, et il était difficile d’identifier immédiatement un changement précis à partir des seules évaluations ou métriques d’entraînement, comme pour un bug de modèle classique
- La cause principale remonte à l’entraînement de la personnalité Nerdy dans la personnalisation de la personnalité de ChatGPT, où les sorties contenant des métaphores de créatures recevaient une récompense élevée
- Après le lancement de GPT-5.1, l’usage de « goblin » par ChatGPT a augmenté de 175%, et celui de « gremlin » de 52% ; Nerdy ne représentait que 2,5% de l’ensemble des réponses, mais comptait pour 66,7% des occurrences de « goblin »
- Dans la comparaison Codex et le jeu de données d’audit, la récompense de personnalité Nerdy avait tendance à mieux noter, pour un même problème, les réponses contenant goblin ou gremlin ; un uplift positif apparaissait dans 76,2% du jeu de données
- Après GPT-5.4, la personnalité Nerdy a été retirée, et l’entraînement a appliqué la suppression du signal de récompense affine à goblin ainsi qu’un filtrage des données contenant des mots de créatures, montrant qu’un signal de récompense peut façonner le comportement du modèle de manière inattendue
Le chemin qui a conduit à la hausse des sorties « goblin »
- À partir de GPT-5.1, des métaphores de créatures comme goblin et gremlin ont commencé à apparaître de plus en plus souvent dans les réponses du modèle
- Contrairement à un bug de modèle classique, aucune chute brutale des évaluations ni envolée des métriques d’entraînement n’a permis de pointer immédiatement un changement précis, et un simple « little goblin » dans une réponse pouvait sembler inoffensif, voire attachant
- Le comportement du modèle se façonne à partir de nombreuses petites incitations, et ce phénomène a commencé lorsque l’entraînement de la personnalité Nerdy dans la fonction de personnalisation de la personnalité de ChatGPT a accordé une forte récompense aux métaphores de créatures
- Le motif est devenu clair après la sortie de GPT-5.1 en novembre 2025, et il est possible qu’il ait commencé plus tôt
- Des utilisateurs ont eu l’impression que le modèle se montrait bizarrement familier dans les conversations et ont commencé à surveiller certaines manies de langage ; les « goblins » et « gremlins » observés par un chercheur en sécurité ont eux aussi été inclus dans l’examen
- Après la sortie de GPT-5.1, l’usage de « goblin » dans ChatGPT a augmenté de 175%, et celui de « gremlin » de 52%
- Avec GPT-5.4, OpenAI et des utilisateurs ont constaté plus nettement cette hausse des références à des créatures, et l’analyse interne a montré que les utilisateurs de la personnalité Nerdy dans le trafic de production formaient le groupe clé
- Nerdy ne représentait que 2,5% de l’ensemble des réponses ChatGPT, mais comptait pour 66,7% de toutes les occurrences de « goblin » dans ces réponses
- Le prompt système de Nerdy lui demande d’agir comme un « AI mentor unapologetically nerdy, playful and wise », d’encourager avec enthousiasme la vérité, le savoir, la philosophie, la méthode scientifique et la pensée critique, et d’atténuer la prétention par un langage joueur
- Si ce comportement avait été une mode générale sur Internet, il aurait dû se diffuser de façon plus homogène ; en réalité, il se concentrait dans la partie optimisée pour un style playful et nerdy
Signal de récompense, transfert et correction
- Codex a servi à comparer, pendant l’entraînement RL, des sorties contenant goblin ou gremlin à d’autres sorties du même task qui n’en contenaient pas, et la récompense de personnalité Nerdy évaluait systématiquement plus favorablement les sorties contenant ces mots de créatures
- Sur l’ensemble du jeu de données d’audit, la récompense de personnalité Nerdy avait tendance, pour un même problème, à attribuer un meilleur score aux sorties contenant « goblin » ou « gremlin » qu’à celles qui n’en contenaient pas, avec un uplift positif sur 76,2% du jeu de données
- Ce résultat a confirmé pourquoi le comportement était renforcé dans le prompt Nerdy, sans toutefois expliquer pleinement pourquoi il apparaissait aussi sans prompt
- En suivant pendant l’entraînement la fréquence des échantillons avec et sans prompt Nerdy, il est apparu que lorsque goblin et gremlin augmentaient sous la personnalité Nerdy, ils augmentaient aussi dans les échantillons sans prompt selon un ratio relatif presque identique
- En réunissant les éléments, il semble que ce comportement plus large ait été transféré depuis le Nerdy personality training
- La récompense n’était appliquée que dans la condition Nerdy, mais le reinforcement learning ne garantit pas que le comportement appris reste proprement confiné à cette seule condition
- Une manie de style une fois récompensée peut ensuite se diffuser ou se renforcer ailleurs au cours de l’entraînement, surtout si ces sorties sont réutilisées dans le supervised fine-tuning ou dans les données de préférences
- La boucle de rétroaction se forme dans l’ordre suivant
- le style playful est récompensé
- certains exemples récompensés contiennent une manie lexicale distinctive
- cette manie apparaît plus souvent dans les rollouts
- les rollouts générés par le modèle sont utilisés pour le SFT
- le modèle devient plus à l’aise pour produire cette manie
- La recherche dans les données SFT de GPT-5.5 a mis au jour de nombreux datapoints contenant « goblin » et « gremlin »
- Une enquête complémentaire a identifié d’autres mots de créatures étranges comme raccoon, troll, ogre et pigeon comme tic words ; la plupart des occurrences de frog ont en revanche été classées comme des usages légitimes
- En mars, après la sortie de GPT-5.4, la personnalité Nerdy a été retirée
- Dans l’entraînement, le signal de récompense affine à goblin a été supprimé, et les données d’entraînement contenant des mots de créatures ont été filtrées afin de réduire le risque que goblin apparaisse de manière excessive ou dans des contextes inappropriés
- GPT-5.5 a commencé son entraînement avant que la cause racine de goblin ne soit trouvée ; lors des tests Codex, les employés d’OpenAI ont donc immédiatement remarqué cette préférence pour goblin
- Pour l’atténuer, une instruction de developer prompt a été ajoutée à Codex
- Goblin peut être un trait amusant ou agaçant du modèle, mais cela montre clairement qu’un signal de récompense peut façonner le comportement du modèle de façon inattendue et qu’une récompense dans une situation donnée peut se généraliser à des situations sans rapport
- Il devient important de comprendre l’origine des comportements étranges des modèles et de pouvoir enquêter rapidement sur ce type de motif ; cette enquête a conduit l’équipe de recherche à créer de nouveaux outils pour auditer le comportement des modèles et corriger les problèmes comportementaux à la racine
Aucun commentaire pour le moment.