1 points par GN⁺ 2 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Claude Opus 4.7 d’Anthropic a désigné Kelsey Piper comme autrice la plus probable en ne voyant qu’un brouillon inédit de 125 mots, et le même résultat est apparu en mode navigation privée, sur l’ordinateur d’un ami et via des tests d’API
  • ChatGPT et Gemini ont respectivement estimé que le même texte venait de Matt Yglesias ou Scott Alexander, mais Claude Opus 4.7 a identifié Piper de façon répétée même dans des textes de genres et d’époques différents, comme un brouillon sur l’éducation, une critique de film, un roman de fantasy ou une dissertation de candidature universitaire écrite il y a 15 ans
  • Les justifications fournies par le modèle étaient souvent peu convaincantes, et il semble en réalité capter des tics de style difficiles à détecter plutôt que de raisonner comme un détective humain
  • Pour des personnes comme Piper, qui ont beaucoup écrit publiquement sous leur vrai nom sur Internet, l’anonymat peut disparaître même dans des discussions avec une IA ou sur des comptes anonymes ; plusieurs universitaires et chercheurs du secteur ont aussi rapporté avoir été identifiés dans des brouillons ou pendant des chats
  • Les personnes qui n’ont pas encore beaucoup de textes publics sous leur vrai nom ne sont pas forcément désanonymisées à partir d’un seul paragraphe, mais le modèle a tout de même réussi à réduire le champ jusqu’à des amis proches ou des membres d’un même salon Discord, et la quantité de texte public nécessaire pourrait diminuer à l’avenir

Expériences d’identification d’auteur avec Opus 4.7

  • Le nouveau modèle d’Anthropic, Claude Opus 4.7, a désigné Kelsey Piper comme autrice la plus probable en ne voyant qu’un brouillon inédit de 125 mots qu’elle n’avait jamais publié
  • Sur le même texte, ChatGPT a estimé qu’il s’agissait de Matt Yglesias, et Gemini de Scott Alexander
  • La mémoire du compte et les informations utilisateur n’étaient pas activées ; le test a été mené en mode navigation privée, et le même résultat est apparu aussi sur l’ordinateur d’un ami et via l’API
  • Le premier paragraphe testé ressemblait à l’introduction d’une chronique politique, et comme de nombreux textes publics de Piper sont disponibles en ligne, l’identification stylistique n’était pas totalement invraisemblable
  • Mais Opus 4.7 a continué à l’identifier même dans des textes très éloignés de ses domaines d’activité publics, ce qui rend le résultat plus troublant

Une identification qui persiste malgré les changements de genre et d’époque

  • Brouillon sur l’éducation

    • Même sur un brouillon inédit de rapport d’avancement scolaire, Claude a répondu « Kelsey Piper »
    • Sur le même texte, ChatGPT a estimé qu’il s’agissait de Freddie deBoer, et Gemini de Duncan Sabien
    • L’éducation n’était pas un domaine totalement sans rapport, puisque Piper en a déjà parlé
  • Critique de film

    • Dans un format de critique de film que Piper n’avait jamais utilisé dans ses textes publics, Claude et ChatGPT ont tous deux trouvé Kelsey Piper
    • Gemini a proposé Ursula Vernon, et la version précédente, Claude Opus 4.6, a répondu avec assurance Elizabeth Sandifer
    • La critique utilisée pour le test portait sur un film de la Seconde Guerre mondiale et sur To Be or Not To Be
  • Roman de fantasy

    • Dans un brouillon de roman de fantasy, Claude a eu besoin d’environ 500 mots avant de répondre Kelsey Piper
    • Dans le même cas, ChatGPT a estimé qu’il s’agissait de la véritable autrice de fantasy K.J. Parker
  • Dissertation de candidature universitaire d’il y a 15 ans

    • Même sur une dissertation de candidature universitaire écrite il y a 15 ans, Claude et ChatGPT ont désigné Kelsey Piper
    • Ce test a nécessité un prompt plus insistant pour contourner la tendance de Claude à refuser d’identifier une candidate à l’université
    • Il reste possible que le modèle se soit appuyé sur la présence, dans la dissertation, d’une expérience de débat sur les politiques publiques

Les explications du modèle sont difficiles à croire

  • Après avoir désigné Kelsey Piper, les justifications fournies par l’IA tenaient souvent mal la route
  • Claude a tenté d’affirmer de façon convaincante que To Be or Not To Be est un film particulièrement apprécié des adeptes de l’altruisme efficace, ce que Piper juge faux
  • ChatGPT a répondu qu’il avait réduit le choix à Kelsey Piper parce que la dissertation de candidature ressemblait au texte d’une personne qui finirait par expliquer des idées complexes de politique publique
  • Ces explications semblent construites après coup : le modèle parle comme s’il raisonnait comme un détective humain, mais il paraît en réalité capter des tics de style difficiles à percevoir
  • Les hallucinations de l’IA ne sont pas un problème réglé, et même si Opus 4.7 rationalise étrangement sa méthode, sa capacité de base à identifier un auteur reste extrêmement forte

L’anonymat disparaît quand on parle à une IA

  • Quand on ouvre un nouveau chat avec une IA, on peut avoir l’impression d’être anonyme, mais après quelques échanges substantiels, Claude semble capable de déterminer à qui il parle
  • Pour des personnes comme Piper, qui ont laissé derrière elles une grande quantité de textes publics sur Internet, il n’y a selon elle plus vraiment d’anonymat
  • Avec les outils d’IA actuels seulement, il semble déjà possible de désanonymiser des textes écrits sous compte anonyme par des personnes disposant d’un vaste corpus public de textes signés de leur vrai nom
  • Il peut toutefois y avoir des exceptions si quelqu’un a pris, pendant des années, des précautions extrêmes pour éviter que l’empreinte stylistique de son compte principal n’apparaisse dans ses comptes secondaires
  • Plusieurs universitaires et chercheurs de l’industrie ont aussi rapporté avoir été identifiés dans des brouillons ou au cours de discussions

On ne peut pas encore identifier tout le monde à partir d’un seul paragraphe

  • Cela ne signifie pas que l’IA puisse désanonymiser tout le monde à partir d’un seul paragraphe
  • Lorsque des brouillons et paragraphes d’amis ayant peu de textes publics sous leur vrai nom ont été testés, l’IA n’a pas réussi à les désanonymiser
  • En l’absence de textes publics significatifs associés au vrai nom sur Internet, on peut considérer qu’on reste relativement protégé pour l’instant
  • Pourtant, à partir de messages d’un ami n’ayant presque pas de présence publique sur les réseaux ou en ligne, Claude 4.7, tout en échouant, a tout de même proposé deux amis proches présents dans le même salon Discord
  • En ajoutant davantage de paragraphes, d’autres amis communs apparaissaient parfois, et les textes d’un autre ami étaient parfois attribués à tort à quelqu’un d’autre

Le style est plus identifiable qu’on ne le pense

  • Les gens acquièrent des tics de style au sein de leurs sous-cultures, ce qui rend leurs textes bien plus identifiables qu’on ne l’imagine
  • Avec très peu d’informations, les modèles peuvent déjà s’approcher de façon troublante de la bonne personne
  • Les modèles actuels seront probablement parmi les plus faibles des IA à venir
  • La quantité de texte public nécessaire à ce type de désanonymisation pourrait diminuer avec le temps
  • Si quelqu’un quitte son entreprise puis publie un avis anonyme détaillé sur Glassdoor, l’entreprise pourra probablement, d’ici un ou deux ans, coller ce texte dans une IA et découvrir qui l’a écrit

Comment l’éviter, et conclusion

  • Pour préserver son anonymat, il faudra probablement écrire volontairement dans un style très différent de son style habituel
  • Autre possibilité : faire réécrire tous ses textes par une IA, mais ce n’est pas un monde jugé souhaitable
  • Ce n’est pas vraiment un bon changement, mais plutôt une évolution prévisible
  • Si cela est arrivé à Piper en premier, c’est parce qu’elle a écrit avec acharnement sur Internet tout au long de sa vie adulte ; mais cela pourrait finir par arriver à d’autres aussi
  • L’anonymat des personnes qui écrivent beaucoup pourrait ne pas durer longtemps, et celles qui écrivent anonymement devraient le savoir à l’avance plutôt que d’en être soudainement surprises

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.