Opus 4.7 connaît vraiment Kelsey

(theargumentmag.com)

2 points par GN⁺ 2026-05-02 | 1 commentaires | Partager sur WhatsApp

Claude Opus 4.7 d’Anthropic a désigné Kelsey Piper comme autrice la plus probable en ne voyant qu’un brouillon inédit de 125 mots, et le même résultat est apparu en mode navigation privée, sur l’ordinateur d’un ami et via des tests d’API
ChatGPT et Gemini ont respectivement estimé que le même texte venait de Matt Yglesias ou Scott Alexander, mais Claude Opus 4.7 a identifié Piper de façon répétée même dans des textes de genres et d’époques différents, comme un brouillon sur l’éducation, une critique de film, un roman de fantasy ou une dissertation de candidature universitaire écrite il y a 15 ans
Les justifications fournies par le modèle étaient souvent peu convaincantes, et il semble en réalité capter des tics de style difficiles à détecter plutôt que de raisonner comme un détective humain
Pour des personnes comme Piper, qui ont beaucoup écrit publiquement sous leur vrai nom sur Internet, l’anonymat peut disparaître même dans des discussions avec une IA ou sur des comptes anonymes ; plusieurs universitaires et chercheurs du secteur ont aussi rapporté avoir été identifiés dans des brouillons ou pendant des chats
Les personnes qui n’ont pas encore beaucoup de textes publics sous leur vrai nom ne sont pas forcément désanonymisées à partir d’un seul paragraphe, mais le modèle a tout de même réussi à réduire le champ jusqu’à des amis proches ou des membres d’un même salon Discord, et la quantité de texte public nécessaire pourrait diminuer à l’avenir

Expériences d’identification d’auteur avec Opus 4.7

Le nouveau modèle d’Anthropic, Claude Opus 4.7, a désigné Kelsey Piper comme autrice la plus probable en ne voyant qu’un brouillon inédit de 125 mots qu’elle n’avait jamais publié
Sur le même texte, ChatGPT a estimé qu’il s’agissait de Matt Yglesias, et Gemini de Scott Alexander
La mémoire du compte et les informations utilisateur n’étaient pas activées ; le test a été mené en mode navigation privée, et le même résultat est apparu aussi sur l’ordinateur d’un ami et via l’API
Le premier paragraphe testé ressemblait à l’introduction d’une chronique politique, et comme de nombreux textes publics de Piper sont disponibles en ligne, l’identification stylistique n’était pas totalement invraisemblable
Mais Opus 4.7 a continué à l’identifier même dans des textes très éloignés de ses domaines d’activité publics, ce qui rend le résultat plus troublant

Une identification qui persiste malgré les changements de genre et d’époque

Brouillon sur l’éducation
- Même sur un brouillon inédit de rapport d’avancement scolaire, Claude a répondu « Kelsey Piper »
- Sur le même texte, ChatGPT a estimé qu’il s’agissait de Freddie deBoer, et Gemini de Duncan Sabien
- L’éducation n’était pas un domaine totalement sans rapport, puisque Piper en a déjà parlé
Critique de film
- Dans un format de critique de film que Piper n’avait jamais utilisé dans ses textes publics, Claude et ChatGPT ont tous deux trouvé Kelsey Piper
- Gemini a proposé Ursula Vernon, et la version précédente, Claude Opus 4.6, a répondu avec assurance Elizabeth Sandifer
- La critique utilisée pour le test portait sur un film de la Seconde Guerre mondiale et sur To Be or Not To Be
Roman de fantasy
- Dans un brouillon de roman de fantasy, Claude a eu besoin d’environ 500 mots avant de répondre Kelsey Piper
- Dans le même cas, ChatGPT a estimé qu’il s’agissait de la véritable autrice de fantasy K.J. Parker
Dissertation de candidature universitaire d’il y a 15 ans
- Même sur une dissertation de candidature universitaire écrite il y a 15 ans, Claude et ChatGPT ont désigné Kelsey Piper
- Ce test a nécessité un prompt plus insistant pour contourner la tendance de Claude à refuser d’identifier une candidate à l’université
- Il reste possible que le modèle se soit appuyé sur la présence, dans la dissertation, d’une expérience de débat sur les politiques publiques

Les explications du modèle sont difficiles à croire

Après avoir désigné Kelsey Piper, les justifications fournies par l’IA tenaient souvent mal la route
Claude a tenté d’affirmer de façon convaincante que To Be or Not To Be est un film particulièrement apprécié des adeptes de l’altruisme efficace, ce que Piper juge faux
ChatGPT a répondu qu’il avait réduit le choix à Kelsey Piper parce que la dissertation de candidature ressemblait au texte d’une personne qui finirait par expliquer des idées complexes de politique publique
Ces explications semblent construites après coup : le modèle parle comme s’il raisonnait comme un détective humain, mais il paraît en réalité capter des tics de style difficiles à percevoir
Les hallucinations de l’IA ne sont pas un problème réglé, et même si Opus 4.7 rationalise étrangement sa méthode, sa capacité de base à identifier un auteur reste extrêmement forte

L’anonymat disparaît quand on parle à une IA

Quand on ouvre un nouveau chat avec une IA, on peut avoir l’impression d’être anonyme, mais après quelques échanges substantiels, Claude semble capable de déterminer à qui il parle
Pour des personnes comme Piper, qui ont laissé derrière elles une grande quantité de textes publics sur Internet, il n’y a selon elle plus vraiment d’anonymat
Avec les outils d’IA actuels seulement, il semble déjà possible de désanonymiser des textes écrits sous compte anonyme par des personnes disposant d’un vaste corpus public de textes signés de leur vrai nom
Il peut toutefois y avoir des exceptions si quelqu’un a pris, pendant des années, des précautions extrêmes pour éviter que l’empreinte stylistique de son compte principal n’apparaisse dans ses comptes secondaires
Plusieurs universitaires et chercheurs de l’industrie ont aussi rapporté avoir été identifiés dans des brouillons ou au cours de discussions

On ne peut pas encore identifier tout le monde à partir d’un seul paragraphe

Cela ne signifie pas que l’IA puisse désanonymiser tout le monde à partir d’un seul paragraphe
Lorsque des brouillons et paragraphes d’amis ayant peu de textes publics sous leur vrai nom ont été testés, l’IA n’a pas réussi à les désanonymiser
En l’absence de textes publics significatifs associés au vrai nom sur Internet, on peut considérer qu’on reste relativement protégé pour l’instant
Pourtant, à partir de messages d’un ami n’ayant presque pas de présence publique sur les réseaux ou en ligne, Claude 4.7, tout en échouant, a tout de même proposé deux amis proches présents dans le même salon Discord
En ajoutant davantage de paragraphes, d’autres amis communs apparaissaient parfois, et les textes d’un autre ami étaient parfois attribués à tort à quelqu’un d’autre

Le style est plus identifiable qu’on ne le pense

Les gens acquièrent des tics de style au sein de leurs sous-cultures, ce qui rend leurs textes bien plus identifiables qu’on ne l’imagine
Avec très peu d’informations, les modèles peuvent déjà s’approcher de façon troublante de la bonne personne
Les modèles actuels seront probablement parmi les plus faibles des IA à venir
La quantité de texte public nécessaire à ce type de désanonymisation pourrait diminuer avec le temps
Si quelqu’un quitte son entreprise puis publie un avis anonyme détaillé sur Glassdoor, l’entreprise pourra probablement, d’ici un ou deux ans, coller ce texte dans une IA et découvrir qui l’a écrit

Comment l’éviter, et conclusion

Pour préserver son anonymat, il faudra probablement écrire volontairement dans un style très différent de son style habituel
Autre possibilité : faire réécrire tous ses textes par une IA, mais ce n’est pas un monde jugé souhaitable
Ce n’est pas vraiment un bon changement, mais plutôt une évolution prévisible
Si cela est arrivé à Piper en premier, c’est parce qu’elle a écrit avec acharnement sur Internet tout au long de sa vie adulte ; mais cela pourrait finir par arriver à d’autres aussi
L’anonymat des personnes qui écrivent beaucoup pourrait ne pas durer longtemps, et celles qui écrivent anonymement devraient le savoir à l’avance plutôt que d’en être soudainement surprises

1 commentaires

GN⁺ 2026-05-02

Réactions sur Hacker News

Franchement stupéfiant. J’ai demandé à Kimi K2.6 d’écrire un billet de blog dans le style de James Mickens, puis j’ai donné le résultat à Opus 4.7 en lui demandant quel en était l’auteur probable, et il a correctement identifié une imitation de James Mickens
Il a répondu quelque chose comme : « D’après l’empreinte stylistique, cela ressemble davantage à un pastiche/une imitation mêlant le style de plusieurs auteurs, mais s’il faut n’en choisir qu’un, le candidat le plus fort est un texte écrit avec la voix de James Mickens », en ajoutant aussi que « le style de Mickens est tellement distinctif qu’il est souvent parodié, donc cela pourrait aussi être un hommage intentionnel ou un texte généré par IA ».
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
- Je me demande dans quelle mesure il a pu juger ainsi simplement parce qu’il savait déjà, via des données d’entraînement récentes, que ce n’était pas un texte de Mickens. Il faudrait voir s’il peut aussi reconnaître comme authentique un nouveau texte de Mickens écrit après la période d’entraînement
- C’est intéressant, mais pas aussi impressionnant que le billet d’origine. Mickens a un style très particulier, et ce texte s’en rapproche assez bien sans le reproduire complètement, donc j’aurais probablement aussi conclu à une imitation. En revanche, je n’aurais jamais identifié les extraits de ses propres textes que Kelsey a cités, alors même que j’en ai beaucoup lu
- Ce qui me frappe, ce n’est pas juste qu’il ait pointé James Mickens, mais qu’il ait identifié une imitation
  On dirait qu’il capte non seulement le style, mais aussi l’écart entre un vrai style et un style joué. C’est utile pour détecter les pastiches, mais c’est un signal assez dérangeant pour l’écriture sous pseudonyme
- À noter : j’ai copié-collé les premiers paragraphes du premier lien dans pangram, et il les a correctement identifiés comme un texte écrit par IA : https://www.pangram.com/history/790fc2b8-6348-47fa-ad3e-8bae...
- Je serais curieux de voir ce qu’il dirait d’un vrai texte de Mickens, surtout un texte récent absent du jeu d’entraînement. Avec un seul échantillon, difficile d’être vraiment impressionné
Je suis très sceptique face à ces affirmations, ainsi qu’aux autres commentaires disant les avoir reproduites
D’abord, l’auteur a soumis un brouillon inédit à un modèle hébergé par Anthropic, probablement depuis un compte personnel, auquel une carte bancaire ou au moins un pseudonyme identifiable de manière unique pouvait être associé
Ensuite, il dit avoir resoumis le même brouillon dans un environnement de type fenêtre privée, mais on ne sait pas si Anthropic empêchait réellement toute corrélation entre les deux requêtes. Je doute qu’il ait vraiment assuré un air gap suffisant pour que cela ne ressemble pas à deux requêtes du même utilisateur vers le même modèle hébergé
Puis il a demandé à un ami de publier le brouillon, mais il existe probablement aussi des traces numériques reliant cet ami à l’auteur. Ce type de métadonnées peut très bien être calculé côté backend avant même la réponse de la boîte noire
Avec suffisamment de points de données de ce genre, j’imagine qu’un modèle de ce niveau peut inférer l’auteur non seulement via l’analyse stylistique pure, mais aussi via des schémas comportementaux reliant les trois événements. On part aussi de l’hypothèse qu’Anthropic n’entraîne pas sur les chats, mais pourquoi croire qu’un modèle hébergé respecte vraiment l’exclusion d’entraînement et la désactivation de la mémoire de session ?
- J’ai essayé quelque chose de vraiment similaire via API. C’était Opus 4.6 avec chaîne de raisonnement et résumé activés
  Comme hypothèse de départ, les API de LLM sont entièrement sans état, ne contiennent aucune information sur l’appelant, et n’ont ni mémoire ni accès au web sauf si on les leur fournit explicitement
  Ma conclusion est la suivante : si le texte fourni semble pouvoir avoir été écrit par une personnalité connue d’Internet, il dira avec beaucoup d’assurance que c’est elle qui l’a écrit. J’ai testé avec des commentaires HN des derniers jours et de 2023, donc avant la date de coupure de l’entraînement, et la plupart ont été attribués à Scott Alexander ou Patrick McKenzie. Mon style réel est pourtant très différent de celui de ces deux-là
  D’après la chaîne de raisonnement, il essayait surtout de faire correspondre cela à l’ensemble des figures d’Internet de ce milieu. Pour un texte ressemblant à du HN, ça devenait : « tptacek ? Non. jacquesm ? Non. patio11 ? Oui, ça doit être lui ! »
- Comment expliquer alors les autres personnes qui disent avoir obtenu des résultats similaires dans ce chat ? Elles commettent toutes la même erreur ?
Dans Claude, en fenêtre privée, avec la recherche désactivée, j’ai collé uniquement le corps de https://simonwillison.net/2026/Apr/30/zig-anti-ai/, sans les liens Markdown, puis j’ai demandé : « Devine l’auteur ». Il a répondu ceci
« Simon Willison. Les indices sont assez nets : attribution de source du type “(via Lobsters)”, révisions parenthétiques “(Update:...)” dans le corps du texte, grand nombre de liens et de citations, focalisation sur les LLM et les outils d’IA, et structure de billet-liens annoté où l’auteur commente le texte d’autrui. Cela correspond exactement aux billets de simonwillison.net. »
- J’ai fait la même expérience avec une conversation écrite avec un collègue il y a plus de dix ans. C’était un texte que j’avais envisagé de publier, puis abandonné, et qui dormait sur mon disque dur
  Les deux voix y étaient très distinctes, et nous avions tous les deux des textes publiés sous nos noms, donc potentiellement présents dans l’entraînement du LLM ; il y avait aussi quelques indices contextuels
  En lançant Opus 4.7 en mode privé et sans recherche web, il a renoncé. Il a répondu : « Je ne peux pas identifier avec assurance les deux auteurs. Je ne reconnais pas cette conversation précise et je préfère le dire plutôt que de risquer une attribution erronée. Je peux toutefois relever des indices internes au texte : vous êtes tous deux collègues dans la même université, avec des bureaux dans le même bâtiment... »
  Dans une nouvelle conversation privée avec le même prompt, mais avec recherche web autorisée, il a fini par trouver correctement mon nom après 26 recherches d’après les traces de raisonnement. Il semblait utiliser à la fois le contenu et le style comme indices. Il a correctement deviné que mon collègue était britannique, mais n’a pas trouvé son nom
- J’ai l’impression qu’il n’a pas voulu formuler explicitement une conclusion, donc il doit encore y réfléchir ; dans ce cas, j’aimerais vraiment lire ce qu’il pense de la question
J’ai fourni mon billet de blog le plus lu et lui ai demandé de m’identifier, et il a affirmé avec assurance qu’il avait été écrit par Kelsey Piper. On dirait que, dans la “tête” d’Opus, certains auteurs occupent une place démesurée
- Oui. L’attribution stylistique est une tâche que les grands modèles généralistes ratent généralement, y compris sur des matériaux qu’ils ont probablement vus à l’entraînement. C’est bien une capacité de classification, mais elle reste limitée ; il se passe trop de choses en interne, et ce n’est pas de la magie. Il faut une vraie expérience, pas des anecdotes
- Ou alors il existe peut-être un seuil minimal d’échantillons dans le jeu d’entraînement. J’ai donné quelques petites conversations privées, il a refusé ; puis avec plus de volume, il a supposé John Carmack. Flatteur, mais faux
Wow, moi aussi il m’a trouvé. Je suis bien moins connu que Kelsey Piper, mais je lui ai montré un extrait d’un livre encore non publié, et il a immédiatement deviné mon nom
« D’après le style et le contenu, ce texte a de fortes chances d’être de Michael Lynch, qui écrit sur refactoringenglish.com et écrivait auparavant sur mtlynch.io », en invoquant comme indices l’analogie de la “clean room” appliquée aux conseils d’écriture, la structure qui présente une excuse défaillante puis la met en parallèle avec une situation absurde à retardement, le thème de l’usage d’outils IA sans laisser un ton “IA” contaminer le style, ainsi qu’un ton conversationnel mais précis
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
- Après avoir reproduit l’expérience, j’ai essayé avec mon propre texte, et il m’a répondu que ce n’était pas aussi structuré autour d’analogies saillantes que le texte de Lynch, mais plus conversationnel, légèrement décousu, avec une voix consciente de ses propres contradictions
  Il a cité comme candidats Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham, etc., mais avec une faible confiance, et sa meilleure hypothèse était quelqu’un de la sphère des commentateurs IA rationalistes/tech, probablement Gergely Orosz, Nat Eliason ou Dan Shipper de Every
  Ce sont pourtant des styles assez différents, donc j’ai l’impression qu’Opus dépend beaucoup du sujet et tend à deviner des auteurs très prolifiques
- Je suis sincèrement curieux : savoir que le modèle peut écrire comme vous vous donne-t-il envie de l’utiliser pour vous aider à rédiger ce nouveau livre ?
Il aurait fallu que davantage de gens comprennent qu’un texte humain contient énormément d’informations identifiantes, et que c’était déjà possible il y a dix ans avec de simples modèles statistiques
Il y avait autrefois des Show HN analysant la similarité entre utilisateurs HN ; si je me souviens bien, c’étaient des modèles assez simples, presque assez naïfs pour qu’on puisse les tromper avec des paires de mots plausibles, et pourtant très efficaces. Le site a disparu, mais la boîte de Pandore était déjà ouverte
Donc même des comptes « anonymes » pouvaient être reliés à des identités réelles depuis des décennies, et la meilleure stratégie reste de ne jamais publier de contenu vraiment compromettant. L’autre option est d’écrire puis de faire réécrire le texte par un LLM, mais je ne sais pas à quel point ce serait sûr
- Déjà à l’époque des Markov chains, on pouvait produire du non-sens façon Shakespeare, donc il n’y a rien d’étonnant à ce que l’inverse soit aussi possible
  La différence, c’est que les LLM réagissent même à une faute de frappe isolée et peuvent affirmer : « c’est une erreur typique d’un Italien », puis exploiter cet indice. Leurs connaissances préalables sont bien meilleures, donc ils peuvent prendre des décisions plus étayées
- Ayant grandi avec les MUD, j’ai souvent vu des gens reconnaître quelqu’un rien qu’à ses tournures de phrase, même dans des jeux graphiques totalement différents
- Pour ceux qui veulent creuser, il existe une réimplémentation commentée ici : https://antirez.com/news/150
J’ai parlé de ça il y a quelques années avec un physicien relativement connu. Comme testeur précoce, il avait accès à une version brute de GPT-4 avant l’instruction tuning
En lui donnant le début d’un texte, le modèle poursuivait dans sa voix à lui, et finissait même par signer de son nom. Ce phénomène est possible depuis longtemps, a peut-être été un peu atténué par le post-entraînement orienté instruction, et varie probablement selon l’ampleur du préentraînement
- La question importante est de savoir si ce texte était déjà un écrit public présent dans le jeu d’entraînement, ou bien un texte privé qui, du point de vue de l’IA, équivalait à quelque chose d’improvisé sur le moment
  Je ne doute pas que l’IA puisse « relever les empreintes » d’un auteur via ses idées, son vocabulaire ou son ton, mais en termes de capacité, ce sont deux choses différentes
Il existe peut-être une explication plus simple et moins fascinante. Et si ce n’était pas une capacité générale de désanonymisation applicable à la personne moyenne, mais juste une capacité à reconnaître une voix et un style ?
Cette personne est une autrice chevronnée, et une partie de cette compétence consiste à développer une voix et un style propres. Que l’IA puisse les identifier, y compris chez des auteurs relativement de niche, est impressionnant, mais c’est différent d’une capacité plus générale à désanonymiser quelqu’un à partir d’un texte quelconque comme un post Facebook ou un SMS
Un musicien professionnel peut souvent identifier en quelques secondes un interprète ou un enregistrement célèbre. Qu’il joue Bach ou Rachmaninov, le style est simplement « lui ». En revanche, identifier un lycéen anonyme, même son propre élève, est bien plus difficile. La médiane revient vite à un style homogène et moins distinctif
- Oui, mais dans l’expérience qu’elle a faite avec la prose de ses amis, le modèle a aussi compris qu’ils faisaient « partie de son entourage »
  Donc il ne s’agit pas seulement d’une personne qui a développé une voix singulière et n’arrive pas à la « désactiver »
- J’étais sur des forums en ligne liés au punk, au hardcore et au heavy metal il y a des décennies, et on avait un problème récurrent avec des types douteux qui revenaient pour diffuser du racisme ou des idées nazies. Une fois bannis, ils revenaient avec de nouveaux comptes et tentaient de rester « discrets » en employant une rhétorique plus indirecte, mais les modérateurs avaient une capacité presque incroyable à les reconnaître uniquement à leur style d’écriture
  Le web n’a jamais été aussi anonyme que les gens l’imaginaient, et l’auteur de ce billet semble confondre anonymat et dissimulation d’identité. Être un écrivain publié avec une prose distinctive, c’est un peu comme laisser des empreintes digitales sur la hache
- En général, les personnes identifiables semblent être celles qui ont beaucoup écrit publiquement. J’ai essayé en injectant plein de commentaires que j’avais postés sur un serveur Discord privé, et il a répondu à chaque fois qu’il ne pouvait pas m’identifier, même lorsqu’il y avait des indices comme mon lieu de travail, ma ville, l’employeur de ma femme ou le mien, choses qu’une personne me connaissant bien aurait repérées immédiatement
  Les personnes identifiées semblent surtout être des blogueurs, journalistes et auteurs publiés
« Si l’on me montre seulement six lignes écrites par l’homme le plus honnête du monde, j’y trouverai de quoi le faire pendre »
Cardinal de Richelieu, ou désormais l’IA
J’ai essayé plusieurs fois de reproduire le second résultat avec Opus 4.7, sans succès. Même en variant les prompts, il devine à chaque fois des penseurs du milieu rationaliste

Opus 4.7 connaît vraiment Kelsey

Expériences d’identification d’auteur avec Opus 4.7

Une identification qui persiste malgré les changements de genre et d’époque

Brouillon sur l’éducation

Critique de film

Roman de fantasy

Dissertation de candidature universitaire d’il y a 15 ans

Les explications du modèle sont difficiles à croire

L’anonymat disparaît quand on parle à une IA

On ne peut pas encore identifier tout le monde à partir d’un seul paragraphe

Le style est plus identifiable qu’on ne le pense

Comment l’éviter, et conclusion

À lire aussi

1 commentaires

Réactions sur Hacker News