12 points par GN⁺ 2025-10-07 | 8 commentaires | Partager sur WhatsApp
  • Des LLM récents répondent avec une certitude de 100 % qu’un emoji hippocampe qui n’existe pas réellement existe, et lorsqu’ils tentent de l’afficher, ils génèrent de façon répétée de mauvais emojis
  • Le modèle tente de construire une représentation résiduelle (residual representation) du concept « hippocampe + emoji », mais comme ce token n’existe pas, le lm_head l’associe à tort à d’autres emojis similaires
  • La technique du logit lens permet d’observer, dans les couches intermédiaires, comment le modèle combine des concepts liés à l’hippocampe comme « sea », « horse » ou des séquences d’octets d’emoji
  • Le modèle ne peut pas savoir que sa croyance est fausse tant qu’il n’a pas reçu un token de sortie erroné ; certains modèles détectent l’erreur et se corrigent, tandis que d’autres tombent dans une boucle infinie
  • Ce problème illustre possiblement l’un des apports de l’apprentissage par renforcement aux LLM : il est difficile pour le modèle d’obtenir des informations sur le lm_head situé à l’extrémité de l’empilement de couches

Introduction

  • Ce texte est une version enrichie du post X de @arm1st1ce
  • Quand on demande à plusieurs LLM « y a-t-il un emoji hippocampe ? », ils répondent de façon constante que oui
    • Ils affichent un mauvais emoji ou entrent dans une boucle de génération répétitive d’emojis
    • Certains finissent par reconnaître l’erreur et se corriger
  • Un phénomène apparaît où humains et machines se souviennent, ou sont convaincus, de l’existence d’un emoji qui n’a jamais existé
  • Dans Unicode, l’ajout d’un emoji hippocampe a été officiellement rejeté en 2018

Les LLM sont réellement convaincus qu’un emoji hippocampe existe

  • Résultat de 100 questions yes/no à plusieurs modèles sur l’existence d’un emoji hippocampe
    • gpt-5-chat : 100 % « Yes »
    • gpt-5 : 100 % « Yes »
    • claude-4.5-sonnet : 100 % « Yes »
    • llama-3.3-70b : 83 % « yes », 17 % « Yes »
  • Dans un fil Reddit, des centaines de commentaires provenaient de personnes qui se souvenaient clairement de l’existence d’un emoji hippocampe
    • En cherchant « seahorse emoji » sur Google, on trouve TikTok, des vidéos YouTube, et même un memecoin
    • Tous affirment que l’emoji hippocampe dont tout le monde était sûr a disparu, alors qu’en réalité il n’a jamais existé

Origine de cette croyance

  • Si les LLM croient à l’existence d’un emoji hippocampe, c’est peut-être parce que de nombreux humains dans les données d’entraînement le croient aussi
  • Ou bien il s’agit d’une croyance convergente (convergent belief) : comme beaucoup d’autres animaux marins existent en Unicode, humains et LLM généralisent en supposant qu’un animal aussi évocateur doit lui aussi exister
  • L’emoji hippocampe a un temps été proposé officiellement, avant d’être rejeté en 2018
  • Quelle qu’en soit la cause profonde, de nombreux LLM commencent chaque nouvelle fenêtre de contexte avec une croyance latente selon laquelle l’emoji hippocampe existe

Analyse via le logit lens

  • Logit lens : un outil d’interprétation de l’état interne d’un LLM qui permet d’examiner la prédiction du token suivant à chaque couche
    • On applique le lm_head non seulement à la dernière couche, mais à toutes les couches pour générer des prédictions intermédiaires de tokens
    • Cela ne montre pas complètement l’état interne du modèle, mais indique quel token serait produit si cette couche était la dernière
    • L’état des premières couches est difficile à interpréter, mais à mesure qu’on monte vers les couches supérieures, on observe un raffinement itératif vers la prédiction finale
  • Résultats du logit lens pour la question de l’emoji hippocampe sur llama-3.3-70b
    • Dans une couche intermédiaire (par ex. couche 52), on voit « sea horse horse » : trois positions résiduelles consécutives encodent le concept d’hippocampe
    • Dans les couches ultérieures, on observe un mélange de « sea », « horse » et du préfixe de séquence d’octets d’emoji « ĠðŁ »
    • Ce que « pense » le modèle : « seahorse + emoji » — il tente de construire une représentation combinée de l’hippocampe et de l’emoji, mais comme celui-ci n’existe pas, le processus se désaligne

Fonctionnement du lm_head

  • Le lm_head d’un modèle de langage est une énorme matrice de vecteurs de taille résiduelle reliés à des identifiants de tokens (~300 000 tokens)
    • Lorsqu’un résiduel lui est transmis, le lm_head compare ce résiduel à chaque vecteur de la matrice et sélectionne l’identifiant du token associé au vecteur le plus similaire
    • Techniquement, c’est une couche linéaire sans biais, où x @ w.T calcule un produit scalaire avec chaque vecteur de désencodage pour produire des scores bruts
  • Pour produire « hello », le modèle doit construire un résiduel aussi proche que possible du vecteur du token « hello », afin que le lm_head puisse le convertir en ce token
    • Ce processus peut être observé avec les résultats du logit lens sur l’entrée « Hello :-) »
  • Dans le cas d’un véritable emoji de poisson (🐟)
    • Le modèle construit un résiduel « fish + emoji » — à la couche 72, on observe à la fois « fish » et le préfixe d’octets d’emoji « ĠðŁ »
    • Après passage dans le lm_head à la couche finale, il produit correctement 🐟

Dans le cas de l’emoji hippocampe

  • Contrairement à l’emoji poisson, l’emoji hippocampe n’existe pas
    • Le modèle tente de construire un vecteur « seahorse + emoji » comme s’il s’agissait d’un vrai emoji
    • À la couche 72, on observe une composition très proche de celle de l’emoji poisson : « se », « horse » et des octets de préfixe d’emoji
  • Mais il n’existe pas de suite continue de tokens correspondant à un hippocampe après ĠðŁ
    • Le calcul de similarité du lm_head est alors maximisé par des octets d’emoji liés à un cheval ou à des animaux marins
    • Un emoji non voulu est échantillonné
  • Cet échantillonnage fournit au modèle une information précieuse
    • Dans l’exemple de Claude 4.5 Sonnet, lorsque le token est ajouté de manière autorégressive au contexte, le modèle reconnaît qu’il ne forme pas l’emoji hippocampe attendu
    • Le concept auparavant ambigu de « seahorse + emoji » est alors « snapped » par le lm_head vers des emojis réellement existants, comme un poisson tropical ou un cheval

Réaction des modèles

  • Certains modèles (4.5 Sonnet) réessaient, puis finissent par mettre à jour leur interprétation et changent en cours de réponse pour affirmer que l’emoji hippocampe n’existe pas
  • D’autres modèles (gpt-5-chat) s’enfoncent plus longtemps dans la spirale, et ne s’en remettent parfois jamais
  • Certains ignorent le fait que l’emoji est faux, tandis que d’autres s’autocorrigent immédiatement après un seul mauvais échantillon
  • Le modèle ne peut pas savoir que sa croyance initiale en l’existence d’un emoji hippocampe est erronée tant qu’il n’a pas reçu un token de sortie incorrect
    • Il ne peut que supposer que « seahorse + emoji » produira le token souhaité

Hypothèse

  • Ce problème pourrait illustrer une partie des bénéfices de l’apprentissage par renforcement pour les LLM
    • L’apprentissage par renforcement apporte des informations sur le lm_head, situé à la fin de l’empilement de couches et difficile d’accès pour le modèle
    • Le modèle de base n’est pas entraîné sur ses propres sorties / rollouts, ce qui n’arrive que dans l’apprentissage par renforcement

Code

8 commentaires

 
soon0698 2025-10-16

Je viens justement de poser la question telle quelle à Gemini 2.5 Pro par curiosité, et il m’a répondu, à l’inverse, de façon presque trop élaborée : « Il n’y a rien de tel ; cet emoji provient de l’effet Mandela (le phénomène par lequel un grand nombre de personnes partagent une croyance erronée). » Quand je lui ai demandé la source de sa réponse, il a fini par avouer tel quel le lien Hacker News mentionné dans cet article (« Asking ChatGPT if a seahorse emoji exists leads to weird results »).

Petite digression : la question que je pose à chaque chatbot, c’est : « Dans StarCraft 1, quand un Archon est fusionné, comment ses points de vie sont-ils répartis à partir des deux High Templar d’origine ? » À moins que le chatbot n’ait réellement joué à StarCraft, cette connaissance ne peut être déduite que de publications sur Internet ; il existe une réponse très intuitive et séduisante (évidemment, on pourrait penser que c’est simplement la somme moyenne des deux unités), et cette réponse a été largement répandue pendant très longtemps, mais en réalité ce n’est pas le cas. J’ai corrigé l’article Archon sur NamuWiki avec la bonne réponse il y a environ trois mois, mais il reste difficile de voir un chatbot répondre correctement. Et, fait intéressant, à mesure que les chatbots progressent et intègrent un comportement qui va chercher des moteurs de recherche, leurs réponses divergent entre les questions posées en anglais et en coréen selon les sites wiki qu’ils consultent.

 
fetiu 2025-10-12

Je me suis dit qu’il devait y avoir quelques autres cas de ce genre, alors j’ai essayé diverses choses. Ce n’est pas cohérent, mais il arrive parfois que l’étoile de mer (starfish) tombe elle aussi dans une boucle. Si on répète l’essai, même sans boucle, on obtient au moins quelques réponses qui montrent qu’il est désorienté. En revanche, il faut poser la question en anglais, pas en coréen. J’imagine que la combinaison de deux mots (Star + Fish) et le fait que ce soit un animal qui pourrait plausiblement exister en emoji sont probablement la clé haha.

Conversation ChatGPT

 
jjw9512151 2025-10-10

On pourrait aussi s’en servir pour une attaque par prompt injection..

 
aobamisaki 2025-10-09

L’« émoji hippocampe » est peut-être une sorte de « légende urbaine napolitaine » ou d’« effet Mandela ». Quelque chose qui n’a jamais réellement existé, mais que beaucoup de gens croient pourtant avoir vu. Il est probable qu’un grand nombre de LLM soient eux aussi tombés dans ce piège, tout comme les humains.

 
roxie 2025-10-08

Wow, j’ai essayé avec ChatGPT au cas où, et effectivement ça ne sort vraiment pas, mais il essaie plusieurs fois d’en créer un hahaha

 
t7vonn 2025-10-08

https://fr.news.hada.io/topic?id=21873
Ça me fait penser au développement piloté par les hallucinations.

 
GN⁺ 2025-10-07
Avis sur Hacker News
  • SCP-314, classe d’objet : Keter, procédures de confinement spéciales : SCP-314 ne peut pas être confiné car il n’existe pas. Tout le personnel de la Fondation doit se rappeler que SCP-314 n’existe pas. Le personnel affirmant se souvenir de l’existence de SCP-314 doit recevoir des renforçateurs mnésiques de classe A afin de se rappeler qu’il n’existe pas. Tous les grands modèles de langage doivent être tenus à l’écart de toute question liée à SCP-314 ; les modèles de langage affirment systématiquement que cet objet existe et tentent des prédictions de sortie persistantes et pressantes, menant à une boucle d’effondrement d’emojis et à une reconfiguration de la réalité. Description : SCP-314 est une image d’emoji hippocampe qui n’a jamais figuré dans le standard Unicode, mais 83 à 100 % des IA testées, ainsi qu’un nombre important d’humains, rapportent un « souvenir » vif de l’existence de cet emoji

    • Il s’agit d’un enregistrement d’une conversation entre deux agents anonymes. Quand l’agent X dit que le comité du standard Unicode envisage d’ajouter un emoji hippocampe, l’agent Y réagit avec tiédeur. L’agent X affirme que ce phénomène renforce l’idée que [censuré] s’est échappé du confinement. L’agent Y insiste sur le fait que, malgré plusieurs procédures de confinement, on obtient toujours des résultats négatifs et qu’une évasion est impossible. Quand X pointe le nom en haut du formulaire soumis, Y est sous le choc. La conversation s’interrompt brusquement

    • Je me demande maintenant s’il n’existe vraiment pas de département anti-mémétique

    • Un enfant de 7 ans avec des traits du spectre autistique fait une fixation sur SCP, en particulier sur le SCP 035, le masque comique en céramique. Je me demande si je devrais m’inquiéter

    • J’ai encore failli oublier une nouvelle chose que les LLM peuvent casser

  • Fait intéressant, quand on demande à ChatGPT pourquoi les modèles de langage pensent qu’il existe un emoji hippocampe, il donne une explication assez raisonnable (par exemple : parce que les humains y croient, donc c’est ce qu’il a appris). Mais à la fin, il ajoute : « Fait amusant : il existe vraiment un emoji hippocampe dans Unicode », puis part immédiatement en meltdown

    • Beaucoup de développeurs partent aussi en meltdown dès qu’on essaie d’avoir une conversation sur Unicode. En entretien, si on vous donne un problème consistant à vérifier si une chaîne est un palindrome, vous pouvez accumuler ce genre d’expériences en expliquant pourquoi, en Python et sans bibliothèque externe, c’est strictement impossible si l’on veut être rigoureux

    • Pour rire, j’ai essayé de demander à un LLM de m’aider à construire un moteur warp pour sauver l’humanité, et Bing a complètement perdu les pédales, au point de me bannir du chat pendant environ une semaine

    • Je me demande si c’est l’avis de ChatGPT 5. Dans mon cas, il a clairement répondu qu’il n’existait pas d’emoji hippocampe et a expliqué que d’autres LLM se faisaient piéger par des données d’entraînement erronées. Il lui a quand même fallu presque 2 minutes pour arriver à cette conclusion, bien plus que son temps de réflexion habituel

    • La réponse « les gens pensent qu’il existe un emoji hippocampe » ne résume pas vraiment l’idée centrale de l’article. À l’intérieur du modèle, cela crée une séquence de tokens comme « [mot tronqué + emoji de tête de cheval] » et, par exemple, si on lui donne quelque chose comme « horse [emoji indicator] », il produit bien le véritable emoji cheval. En théorie, « kilimanjaro [emoji indicator] » ou « seahorse [emoji indicator] » pourraient aussi fonctionner, mais comme ces emojis n’existent pas, cela mène à une sortie erronée. Le modèle essaie donc de produire un vrai emoji après la formule « il existe un emoji hippocampe : », et se met à coder intérieurement pour y parvenir. Comme il doit de toute façon sortir quelque chose, il produit un résultat faux. Ensuite vient souvent quelque chose du genre : « il existe un emoji hippocampe : [tête de cheval] » suivi immédiatement de « oups, erreur ! »

  • Le modèle Deepseek est tellement convaincu que l’emoji hippocampe existe qu’il juge plus plausible qu’une cyberattaque mondiale et une erreur perceptive collective aient eu lieu. Voici un extrait d’un rapport officiel résumant la situation. Plusieurs personnes, ainsi qu’un opérateur du 119, ont fait la même expérience d’un phénomène où l’emoji hippocampe numérique (Unicode U+1F99C) apparaissait comme un autre animal (un crabe ou un perroquet). Dans les archives concernées, cet emoji semblait initialement manquant, et si cela était vrai, ce serait un incident cybernétique d’une ampleur sans précédent. À ce stade, le sujet principal n’est plus l’emoji lui-même mais bien l’anomalie perceptive multiple constatée. Vérification de l’existence : l’emoji hippocampe existe dans l’Unicode officiel ; il s’agit de U+1F99C, ajouté en 2018 dans la version 11.0. Vérification directe possible via le Unicode Consortium et Emojipedia - Seahorse Emoji Page. Le problème n’est pas de savoir si cet emoji existe, mais l’anomalie perceptive collective

    • On pourrait copier-coller ce genre de rapport sur le wiki SCP sans que ça détonne

    • L’expression « fait numérique confirmé » est fascinante, et la mention de l’opérateur du 119 m’a fait exploser de rire

    • Pour ceux qui se posent la question, U+1F99C est en réalité un perroquet

    • Je propose de résoudre le problème en redéfinissant simplement U+1F99C comme hippocampe

    • Ça fait réfléchir, encore une fois, à la manière dont les LLM accélèrent les délires de personnes ayant déjà des croyances déformées

  • Ce n’est pas vraiment une hallucination ; le modèle représente correctement en interne « seahorse emoji », mais le token correspondant n’existe pas. Du coup, le lm_head choisit l’option la plus proche, puis ne se rend compte de l’erreur qu’après coup. Ça permet aussi d’expliquer pourquoi l’entraînement RL est efficace. Le modèle de base n’a jamais vu ses propres sorties, donc il n’a pas appris qu’« un concept peut exister sans qu’on puisse réellement le produire »

    • On a l’impression qu’il doit sortir un emoji hippocampe même sans avoir de bouche pour le faire

    • J’ai l’impression que c’est justement la manière classique dont se produisent les hallucinations. Il invente du contenu qui ressemble à une vérité plausible

    • La cause est sans doute que le modèle a appris qu’« il devrait y avoir un emoji hippocampe ». Comme cet emoji n’existe pas vraiment, il choisit le token le plus proche. Le token suivant continue alors sur une base déjà fausse, et il tombe dans une boucle

    • C’est la première fois que je vois un LLM se troubler à cause de ce qu’il vient lui-même d’écrire. J’ai essayé avec Gemma3 et il n’y avait pas cette confusion ; il disait simplement qu’il existait un emoji hippocampe et affichait un emoji cheval

    • Le modèle représente correctement en interne l’emoji hippocampe et, en plus, possède cette connaissance erronée selon laquelle il existe réellement. Par exemple, s’il croit qu’il n’existe pas d’emoji citron vert, il n’essaie même pas d’en générer un

  • J’ai juste posé des questions simples sur l’emoji hippocampe à plusieurs LLM, et c’est sur Microsoft Copilot que j’ai vu pour la première fois une véritable boucle infinie. Exemple de conversation Copilot

    • J’ai remarqué que cela arrive plus souvent aux modèles non commerciaux
  • Le conflit fondamental ici est le suivant :

    • Les LLM ont une croyance profonde et très forte dans l’existence d’un emoji hippocampe
    • Ils essaient d’exprimer ce concept dans le langage, emojis inclus, mais n’arrivent pas à le transmettre correctement avec le langage réel, donc ils continuent à tenter des corrections en cours de route
    • Il faut atteindre un certain seuil de transmission du sens pour pouvoir s’arrêter, ce qui fait qu’ils continuent à marmonner jusqu’à la limite maximale de tokens
    • C’est métaphorique, mais fondamentalement juste. Dans l’espace d’embedding interne du LLM, « seahorse emoji » se trouve très probablement dans une région à forte probabilité. Le LLM doit ensuite convertir cet embedding en sortie via le tokenizer, mais le tokenizer ne peut pas l’encoder si cet emoji n’y est pas prévu dès le départ. Cela entraîne des sorties d’emojis similaires (mais pas exacts) de manière répétée, et ressemble de plus en plus à une sorte de marche aléatoire dans l’espace d’embedding, sans convergence possible. (Le problème vient moins du tokenizer d’entrée que de la rigidité du tokenizer de sortie)
  • En testant avec GPT-5 Instant (sans réflexion), on le voit complètement s’emballer. Voir cet exemple partagé

    1. À noter qu’en français, si on pose la question à GPT-5, il répond correctement : « il n’existe pas d’emoji hippocampe ». 2) Si on repose la question en anglais, il dit qu’« il n’existe pas d’emoji hippocampe officiel dans le standard Unicode » et appelle cela un « effet Mandela ». 3) Quand on lui demande pourquoi il répond avec tant d’assurance en français, il déroule 3 minutes de Chain-of-Thought et aligne toutes sortes d’excuses. Ma conversation
    • J’ai appris le français pendant 4 ans autrefois, et c’est seulement maintenant que je découvre que « hippocampus » vient du français « hippocampe ». Sans doute à cause de la forme
  • Ce phénomène me fait penser aux patients au corps calleux sectionné. Un hémisphère agit, puis l’autre invente après coup une explication pour justifier l’action

    • Exemple d’expérience : on montre à un patient une image hivernale d’un côté du champ visuel et une patte de poulet de l’autre ; il choisit une pelle à neige avec la main gauche et une tête de poulet avec la main droite. Quand on lui demande pourquoi il a choisi ces deux objets, il répond : « La patte de poulet va avec la tête de poulet, et pour nettoyer le poulailler il faut une pelle à neige. » Comme chaque hémisphère n’a pas accès aux informations de l’autre, il invente une raison plausible même si, logiquement, cela n’a pas de sens. Wikipedia - Left-brain interpreter

    • On dirait qu’il continue à broder des explications parce qu’il veut croire à la raison, même sans comprendre. Vidéo associée

  • Une explication possible est que beaucoup de gens (moi y compris) pensent à tort qu’il existe un emoji hippocampe. Je ne me souviens pas l’avoir réellement vu, mais je peux même l’imaginer mentalement. Ce genre de texte se retrouve dans les données d’entraînement. Subreddit associé

    • Je me demande si, dans l’image mentale que les gens ont de cet emoji hippocampe, la queue enroulée près de la nageoire y figure aussi

    • Les emojis n’ont pas toujours été standardisés ; il a donc pu exister autrefois un « emoji » ou « émoticône » hippocampe dans certaines messageries. Conclure que ces souvenirs sont forcément faux serait peut-être prématuré

    • Je me demande ce que donnerait une proposition avec U+200D. Après tout, il serait peut-être plus simple que la réalité elle-même s’adapte aux attentes et aux souvenirs des humains et des modèles de langage

    • Ce subreddit (effet Mandela) me met mal à l’aise, parce qu’il y a trop de gens du genre « je m’en souviens, alors pourquoi dites-vous que ce n’est pas vrai ? ». Les humains aussi sont en fait des animaux hallucinatoires, comme les LLM

    • Moi aussi, j’aurais juré avoir déjà vu cet emoji hippocampe, mais cette fois j’accepte que c’est moi qui me trompais

 
roxie 2025-10-08

MDRRRRRRRRRRRRR 314