PhysicsForums et la théorie de l’Internet mort

(hallofdreams.org)

1 points par GN⁺ 2025-01-26 | 1 commentaires | Partager sur WhatsApp

Dans les anciennes archives de PhysicsForums, une communauté scientifique lancée en 2001, des messages générés par LLM ont été insérés avec des dates passées et attribués à des noms d’utilisateurs existants
En comparant la relation de croissance monotone entre les ID de messages et leurs dates de publication, des schémas d’insertion rétroactive ont été repérés ; après exclusion d’exceptions légitimes comme la fusion avec MathHelpBoards, environ 115 000 messages sont estimés avoir été rédigés par un LLM
Dans le cas emblématique du compte ravenprp, les archives Wayback Machine de 2019 ne montraient que 74 messages, alors qu’il en affiche aujourd’hui 2 891 ; les 2 817 messages ajoutés s’étalent autour de la création du compte et jusqu’après la dernière connexion
Les messages générés par LLM représenteraient environ 1,6 % de l’ensemble des messages et environ 3 % du nombre total de mots, mais en incluant les FAQ et résumés, la part de mots écrits par des humains sur l’ensemble du site tombe à 66 %
Greg Bernhardt a répondu que des fonctionnalités IA et des expérimentations avec des comptes de test n’avaient pas atteint les critères de qualité, mais le fait d’attacher sans consentement des textes à l’identité d’utilisateurs existants nuit à la confiance de la communauté et à l’intégrité des archives

La valeur d’archive d’un ancien forum scientifique

PhysicsForums est une communauté scientifique lancée en 2001 par Greg Bernhardt, avec un fonctionnement de forum surtout centré sur des indices pour les devoirs de physique
Le site a connu une croissance relativement régulière jusqu’en 2012, puis l’attention s’est déplacée vers des sites centralisés comme StackExchange, ne laissant en 2025 qu’une petite communauté
Contrairement à beaucoup de premiers forums du Web, PhysicsForums a conservé ses URL de 2003 à 2025 et n’a pas supprimé ses anciens messages ni fermé le site, restant comme une capsule temporelle de l’Internet du début des années 2000

Les anomalies révélées par le compte ravenprp

Le compte ravenprp semble aujourd’hui avoir publié 2 891 messages en sept mois, de septembre 2006 à avril 2007
- Cela représente en moyenne plus de 13 messages par jour, avec des contenus adoptant tour à tour plusieurs identités : enseignant universitaire, étudiant en génie mécanique, recruteur pour une usine chimique, ingénieur structure, biologiste, physicien médical, chimiste, ingénieur aérospatial, etc.
- Certains messages sont indiqués comme ayant été publiés depuis trois ans avant la création du compte jusqu’à un an après la dernière connexion
- Un message plaisante même en disant être un « modèle de langage développé par OpenAI », alors que c’était sept ans avant la création d’OpenAI
Dans les archives Wayback Machine de 2019, ce compte ne comptait que 74 messages, mais il en affiche désormais 2 891
- Il semble qu’à un moment ultérieur des messages aient été insérés directement dans la base de données, sans que la date d’inscription ou la dernière connexion du profil soient mises à jour en conséquence
Si l’on ne regarde que les 74 messages d’origine, ravenprp ressemble plutôt à un étudiant en génie électrique qui posait des questions sur un livre MATLAB, traitait un problème de circuit intégré 555 timer et partageait un lien sur l’équation de Bernoulli
Les idées et les textes des 74 messages écrits par une personne réelle sont presque noyés sous les 2 817 messages ajoutés au même compte

Un schéma d’insertion rétroactive révélé par les ID de messages

Les messages et fils de PhysicsForums possèdent des ID numériques séquentiels
- Normalement, un ID de message plus élevé devrait correspondre à une date de publication plus tardive
- Il peut exister des exceptions, comme des suppressions, restaurations, séparations de fils ou problèmes de base de données, mais la tendance globale doit être monotone croissante
Sur 30 000 messages collectés aléatoirement, cette règle se vérifie sur la plupart des périodes
L’une des grandes exceptions est la fusion avec MathHelpBoards en 2022
- Une archive d’environ 150 000 messages a été intégrée en conservant les dates d’origine
En excluant la fusion avec MathHelpBoards et les cas qui semblent proches du moment réel de rédaction, environ 115 000 messages sont estimés avoir été écrits par un LLM puis attribués à des comptes humains
D’après l’échantillon représentatif, au moins 110 utilisateurs sont concernés
- Cela inclut des premiers commentateurs, des auteurs ponctuels, des lecteurs de longue date, ainsi que Greg Bernhardt, fondateur et administrateur
- Chaque compte se retrouve associé à des points de vue dont on ne sait pas si l’utilisateur réel y a consenti

Les problèmes de qualité créés par les FAQ et résumés générés par LLM

Dans un fil de 2007 consacré à la calculatrice graphique HP 50g, des réponses et une FAQ apparemment générées par LLM n’apportent pas de valeur aux informations d’origine
La réponse rédigée par LLM dans ce fil ne donne qu’un seul fait exact, l’existence du « HP 50g Connectivity Kit » ; le reste n’apparaît ni dans le manuel de la HP 50g, ni dans d’autres sources réelles
La FAQ mentionne les fonctions « GET » et « PUT », mais ces fonctions et « HP 50g Spreadsheet » n’apparaissent pas dans le manuel, et les résultats de recherche ne renvoient à rien d’autre que ce fil
Dans le décompte des mots de ce fil, les parties rédigées par LLM représentent 92 %
- Summary : 99 mots, non humain
- Springo : 38 mots, humain
- Phys.org : 34 mots, non humain
- Shinny_head : 11 mots, humain
- Ravenprp : 164 mots, non humain
- FAQ : 260 mots, non humain
À l’échelle du site, les messages LLM insérés rétroactivement représenteraient environ 1,6 % de l’ensemble des messages et environ 3 % de tous les mots
En incluant les FAQ et résumés générés par LLM, la part des mots écrits par des humains sur PhysicsForums est calculée à 66 %

Les contenus IA découverts par la communauté et les changements cachés

En novembre 2024, des utilisateurs de PhysicsForums ont repéré une anomalie : le compte Azntoon semblait avoir publié dans un fil de 2022, après sa dernière connexion datant de 2012
- La discussion de l’époque avait conclu à un possible problème de base de données
- Par la suite, la date de dernière connexion d’Azntoon a été changée en décembre 2022
Les utilisateurs du forum débattent depuis 2022 de la politique à adopter face aux réponses générées par ChatGPT
- Vanadium 50 s’est plaint que les « barely-lucid posts » de ChatGPT créaient beaucoup de travail et pouvaient être vus comme une attaque DoS
- Greg Bernhardt a indiqué que Stack Overflow semblait tenter une interdiction, et que PhysicsForums devrait au minimum citer explicitement les contenus ChatGPT
Le 1er avril 2023, pour le poisson d’avril, des noms affichés ont été remplacés par ChatGPT, mais cela n’a pas été interprété comme signifiant que les messages avaient réellement été écrits par ChatGPT
Les utilisateurs touchés par les LLM ont été masqués dans l’autocomplétion de recherche, et les liens de profil dans les messages ont aussi été retirés
- Il est donc devenu plus difficile de cliquer sur un profil pour vérifier des anomalies comme la date de dernière connexion
Pendant la rédaction de l’article, le problème des FAQ a aussi été découvert par la communauté, et une discussion sur les FAQ de mauvaise qualité a été ouverte
- Les FAQ ne semblaient pas visibles pour les utilisateurs connectés
- Les FAQ ont été supprimées, mais les résumés générés par LLM en haut des fils fermés restent présents

La réponse de Greg Bernhardt et l’explication des tests

Interrogé sur l’usage des LLM par PhysicsForums, Greg Bernhardt a répondu que plusieurs tests IA étaient en cours afin d’augmenter la valeur de la communauté
Dans un formulaire de feedback de 2024, de nombreux membres ont indiqué ne pas vouloir de fonctionnalités IA, et il a répondu qu’elles seraient fortement améliorées ou supprimées
Il a indiqué avoir expérimenté l’année précédente des réponses IA via des comptes de test, mais que la qualité n’avait pas atteint les critères requis
À une question complémentaire, il a répondu qu’un bot capable de fournir des réponses de qualité aux fils restés sans réponse pendant plus d’un an avait été envisagé, mais que l’essai avait échoué
Il a aussi indiqué envisager de nettoyer tous les fils sans réponse, car ils encombrent le forum

Identité des comptes et intégrité des archives

Remplir des comptes utilisateurs existants avec des textes générés par LLM ébranle l’attente selon laquelle, dans une communauté en ligne, l’identité d’un compte appartient à son utilisateur
Même lorsqu’un compte est relativement anonyme, les textes publiés par l’utilisateur sous ce nom et le temps qu’il y a consacré sont liés à une identité réelle
Lorsque le contrat social selon lequel on interagit principalement avec des humains est rompu, la valeur des interactions humaines offertes par une communauté en ligne diminue
Les anciens contenus Web sont déjà difficiles à retrouver à cause des serveurs disparus et des sites fermés ; si l’on y mêle des données générées par IA antidatées, l’étude des archives Internet devient encore plus difficile
L’exploitation d’un forum subit des pressions comme les coûts serveur, la maintenance de la base de données, les bots, les attaques DDoS, la concurrence publicitaire et la course aux clics, mais si un site abîme l’identité fondamentale de sa communauté et la confiance de ses utilisateurs pour survivre, ses fondations s’affaiblissent

1 commentaires

GN⁺ 2025-01-26

Avis de Hacker News

Ce que je ressens de plus en plus avec les contenus générés par des LLM, c’est que personne n’en veut.
Si l’on veut discuter avec une IA, on peut le faire directement. Si je lis un blog ou un forum de discussion, c’est parce que je veux lire des textes écrits par des humains, pas du remplissage copié-collé depuis un LLM sous un nom humain.
Ces temps-ci, je consacre pas mal de temps et d’énergie à éviter les contenus de LLM sur le Web. Quand je lis un texte et que je tombe sur un style ChatGPT du genre « As we dive into the ever-evolving realm of... », je reviens immédiatement en arrière ; dans la recherche d’images, j’ajoute une foule de filtres d’exclusion comme -AI, -Midjourney, -StableDiffusion. Pour certaines recherches, je limite même les résultats à avant 2022.
Si Google ajoutait un filtre global « supprimer le contenu généré » qui fonctionne vraiment, je l’activerais et ne le désactiverais plus jamais. Il y a aussi eu une étude montrant que les utilisateurs rejettent immédiatement les contenus qui semblent avoir été créés par une IA, quelle que soit leur qualité ; les éditeurs ont donc intérêt à blanchir humainement les textes IA pour les faire passer pour des écrits humains. C’est la première fois que je vois des méthodes comme manipuler les horodatages et détourner de vieux comptes.
- Je suis totalement d’accord. Jusqu’ici, j’ai heureusement vu ce genre de textes être sanctionnés par les votes sur les réseaux sociaux, mais je trouve étonnant que certains pensent qu’il est productif de coller des réponses de ChatGPT.
  Sur Reddit, on voit des messages du genre « je ne sais pas trop, mais ChatGPT dit ceci », et pire encore, des gens qui publient des copier-coller de ChatGPT comme si c’était leur propre texte. Le plus drôle, c’est que ça se voit parce que le style ressemble à un texte écrit par quelqu’un des RH.
- Le problème de l’approche « fournir la sortie d’un LLM comme service », c’est que même dans le meilleur des cas pour ces articles à listes façon ChatGPT qui encombrent mon fil, si j’avais besoin d’un résultat de LLM, je pourrais simplement le demander moi-même à un LLM.
  Cela pourrait avoir un peu de valeur si l’on n’a pas accès à un bon modèle, mais personne ne préfère une page statique de dix paragraphes pour répondre maladroitement à une seule question. Une vraie interface de chatbot peut présenter l’information d’une manière adaptée à mon cas ; un article à listes insipide, lui, n’est qu’un plus petit dénominateur commun conçu pour le public le plus large possible.
  Un autre problème, c’est que reformuler des informations ne crée pas d’informations nouvelles. Quand je cherche quel type d’huile mettre dans une voiture ou une recette de muffins aux myrtilles, il me faut de vraies preuves : le constructeur recommande-t-il une certaine catégorie d’huile, quelqu’un a-t-il vraiment testé la recette et vérifié le résultat ? Régurgiter le texte d’autres sources n’ajoute généralement rien à ma vie.
- Ça me rappelle l’époque, quand ChatGPT 3 venait de sortir, où les commentaires de Hacker News étaient remplis de messages du type « voici ce que ChatGPT dit sur ce sujet ».
- Moi aussi, et pourtant j’aime les LLM en eux-mêmes. C’est amusant et intéressant de discuter avec eux et d’écrire avec eux, mais tout le monde sait qu’ils sont peu fiables.
  Si un texte me semble généré par un LLM, je le prends comme un signe que l’auteur n’en sait pas plus que moi, et je n’ai aucun moyen de croire que l’information est correcte.
- Une bonne comparaison, ce sont les vendeurs en magasin. Personne n’a envie de parler à un vendeur. Même un client ignorant en sait généralement plus sur les produits du magasin que le vendeur, si bien que celui-ci n’est presque d’aucune aide.
  Beaucoup de clients détestent les vendeurs, et certains quittent le magasin ou n’y entrent même pas à cause d’eux, ce qui fait perdre des ventes au magasin. Et pourtant, cette pratique a continué. Il faut s’attendre au pire avec l’IA aussi. Ni le sens de l’éthique, ni le jugement commercial, ni la rationalité n’empêcheront les entreprises d’imposer l’IA partout. On dirait qu’elles considèrent qu’irriter les clients est plus important.
Le sentiment qu’au début des années 2010, Google a progressivement cessé de faire remonter les posts de forums traditionnels et les blogs en tête des résultats, quelle que soit leur qualité, s’ils n’étaient pas de « gros » sites, correspond aussi à mon expérience avec mon blog
En revanche, le fait qu’entre 2003 et 2025 ils n’aient pas changé d’URL, n’aient pas supprimé les anciens posts et que le site n’ait pas disparu est remarquable. Même mes favoris de 2008 vers mon blog fonctionnent encore
Le CMS a désormais disparu et tout est devenu un site statique, mais il y a beaucoup trop d’organisations qui, lorsqu’elles « rafraîchissent » leur présence web, ne font même pas ce minimum de rangement
- Je pense que le vrai point d’inflexion a été 2014. C’est le moment où Google a masqué dans son UI les filtres « Blogs » et surtout « Discussions », avant de les supprimer complètement, au point qu’ils ne soient plus accessibles même via des URL magiques
  Discussions de l’époque : https://techcrunch.com/2014/01/23/googles-search-filters-now..., http://googlesystem.blogspot.com/2014/03/bring-back-forum-se..., https://www.ghacks.net/2014/01/23/search-discussions-blogs-p..., https://www.seroundtable.com/google-search-filters-gone-1799..., https://www.webmasterworld.com/google/4687960.htm, https://www.thecoli.com/threads/i-cant-google-search-by-disc..., https://www.neogaf.com/threads/anyone-else-annoyed-google-re..., https://webapps.stackexchange.com/questions/57249/has-the-op..., https://www.bladeforums.com/threads/how-to-do-google-discuss..., https://browsermedia.agency/blog/alternatives-discussion-sea...
- Je me souviens que plusieurs forums de programmation traditionnels que je fréquentais dans les années 2000 ont été durement touchés vers 2013 par la mise à jour Google Panda. Leur optimisation pour la recherche s’est dégradée et ils ont commencé à décliner
  Les forums et les blogs avaient une culture que Reddit ou les réseaux sociaux ne parviennent pas à reproduire, et c’est dommage de la perdre
Ça me rend triste que cela arrive à PhysicsForums. C’était l’un des premiers sites web que j’utilisais souvent, il y a 15 ans, quand j’étais passionné de physique, puis plus tard quand j’ai commencé ma carrière
Je le lisais surtout, et j’y contribuais parfois ; je me souviens encore de membres dont je pensais qu’un jour je deviendrais aussi intelligent et cultivé qu’eux. Dans le mouvement de migration vers les réseaux sociaux après le Printemps arabe, à mesure que l’époque où les forums étaient au centre des discussions passait, l’ambiance a commencé à changer
À partir d’environ 2018, je n’y allais plus sauf en arrivant depuis Google, puis plus tard via la recherche Kagi, mais les archives restent utiles pour répondre à des questions. J’ai du mal à être d’accord avec le jugement de l’article selon lequel personne ne s’en soucie parce que les liens ne sont pas partagés sur Twitter
L’article enterre beaucoup trop le point essentiel. Presque à la toute fin, le propriétaire du site confirme qu’il a lui-même ajouté des commentaires IA antidatés. Peut-être que c’était évident
- L’enquête sur ce qui s’est passé sur ce site précis sert surtout d’outil pour illustrer des questions bien plus larges sur les contenus en ligne, l’identité et les LLM
- Je n’ai pas trouvé. Était-ce une tentative de semer des posts pour redynamiser le site ?
Lorsqu’on crée un compte dans une communauté en ligne, il existe une sorte de contrat social selon lequel on va surtout interagir avec des humains. Il y aura bien des comptes promotionnels, des bots et des annonceurs, mais l’accord entre les utilisateurs et le fournisseur de la communauté est que ce dernier s’efforce de nous protéger contre eux, tandis que nous apportons participation et contenu.
C’est pour cela que l’expérience de Meta avec des utilisateurs générés par IA est ridicule et répugnante. Si l’on peut interagir avec quelque chose qui prétend être humain, et que le résultat est au mieux un déchet tiède, alors la valeur des interactions humaines via Internet disparaît.
C’est une catastrophe. Je ne vois pas d’avenir où le texte artificiel généré ne finit pas par submerger toutes les parties d’Internet au point de les rendre inutilisables. L’ère du contenu généré par les utilisateurs est peut-être terminée.
- Il existe des solutions. L’une d’elles est un système de confiance socialisé. Sur Nostr, si je sais que Lyn Alden, que je suis, est bien la vraie personne, ce n’est pas seulement parce qu’elle le dit, mais aussi parce que beaucoup d’autres personnes la suivent.
  Il existe aussi des comptes bots d’usurpation d’identité, mais on peut les bloquer facilement en regardant le nombre d’abonnés. Une fois que je connais la clé publique utilisée par Lyn, je peux être sûr que les messages publiés sous celle-ci viennent d’elle.
  Elle pourrait publier des inepties de LLM, mais les gens s’en rendraient vite compte et se désabonneraient. Le point important est que, sauf si je le veux, il n’y a pas d’algorithme qui décide de ce qui apparaît dans mon fil, ce qui rend difficile l’arrivée de contenu LLM aléatoire dans mon feed.
  Une autre option est la preuve d’identité à connaissance nulle, qui prouve qu’on est humain sans exposer ses données personnelles ni dépendre d’un serveur central qui se connecterait à notre place : https://zksync.mirror.xyz/kWRhD81C7il4YWGrkDplfhIZcmViisRe3l...
- À tout le moins, le contenu ouvert et public généré par les utilisateurs semble condamné.
  J’ai entendu dire que certains serveurs Discord ne donnent pas accès à tous les canaux tant qu’on n’a pas rencontré un administrateur en personne, été garanti par quelqu’un du groupe, ou “vérifié” par appel vidéo.
  C’est l’avenir. Il faut quelque chose avec une structure à la Discord, mais avec des mécanismes de page web, c’est-à-dire un espace où l’on peut mettre non seulement des messages, mais aussi des collections de documents, et qui soit accessible via un navigateur.
  Cela dit, selon le mode de découverte, ce nouvel “Internet” ne sera plus un moyen de s’échapper facilement d’une réalité ou d’un lieu donné. Dans les années 90 et 2000, l’un des grands moteurs de l’usage d’Internet était la curiosité d’explorer des nouveautés introuvables dans sa communauté locale, et l’ancien Google, auquel on pouvait faire confiance, en était un moteur essentiel.
  Pour les personnes vraiment antisociales, ce serait une mauvaise évolution, même si ce type de profil pourrait au contraire prospérer dans un environnement rempli d’IA. Si les hubs d’accès possibles de ce nouvel Internet humain de groupe à groupe gardent des halls d’entrée ouverts, on pourrait obtenir le meilleur des deux mondes.
- Les forums sur invitation seulement, ou ceux qui procèdent sous une forme ou une autre à une vérification d’identité réelle, pourraient être la réponse. Google et Facebook sont bien placés pour fournir à d’autres sites web de vrais services d’identité en ligne, ce qui rend d’autant plus drôle le fait que Facebook fabrique lui-même des bots.
  Au bout du compte, on finira peut-être avec une authentification d’identité en ligne délivrée par les banques ou les États.
- Ironiquement, sur Facebook, comme je ne suis ami qu’avec des gens que je connais vraiment, la plupart de ce que je vois dans mon fil vient bien d’eux.
- La conclusion honnête, c’est que les plateformes qui autorisent ou encouragent le contenu IA vont probablement commencer à ressembler à des jeux vidéo. Si tout le monde à l’école est une célébrité des médias IA, alors plus personne n’est célèbre.
  Il y aura certainement un marché pour un jeu où l’on devient instantanément une célébrité influenceuse, mais il sera bien plus petit que le marché des réseaux sociaux.
Je ne comprends pas exactement le problème du “backdating” ou du piratage de comptes. Comment cela s’est-il passé précisément ? Même après avoir lu l’article, j’ai l’impression d’avoir raté quelque chose.
- Dans la dernière section, l’administrateur de PhysicsForums dit qu’ils expérimentent des réponses générées par LLM, donc il semble que le propriétaire du site soit responsable.
  D’après la réponse de Greg Bernhardt, plusieurs tests d’IA sont en cours pour ajouter de la valeur à la communauté, et de nombreux membres ne veulent pas de fonctionnalités d’IA. L’an dernier, ils ont expérimenté des réponses IA avec des comptes de test, mais cela n’a pas satisfait leurs critères de qualité, et il a demandé de signaler tout compte de test qui aurait été oublié.
  Je n’ai absolument aucune idée de pourquoi ils ont recyclé de vieux comptes humains en “comptes de test” IA.
- C’est probablement le propriétaire du site qui l’a fait. Que ce soit une nouvelle direction, ou que l’équipe d’origine soit devenue désespérée ou cupide, cela revient au même.
- La personne qui exploite le site ou la base de données n’a qu’à insérer des lignes avec de fausses dates sous des noms de comptes existants, probablement abandonnés.
- Je me posais la même question. J’ai eu du mal à lire l’article jusqu’au bout. La découverte en elle-même est intéressante, mais le texte n’est pas bien écrit et il est difficile de suivre la pensée de l’auteur. Les citations insérées au milieu rendent le tout particulièrement confus.
J’aime l’hypothèse selon laquelle il s’agissait à l’origine de vrais comptes.
Si vous gérez un forum, ou un blog avec une section de commentaires active, que ressentiriez-vous si des utilisateurs venaient jeter un œil sans rien dire pendant une semaine ? Au début, vous créez des sujets sous votre propre nom et vous écrivez des réponses utiles, puis vous finissez par avoir l’air d’un idiot qui parle tout seul.
Si c’est un forum avec un bon trafic et beaucoup de pubs spammy, on imagine bien la tentation quand des visiteurs repartent faute de nouveaux messages.
Il m’est arrivé autrefois, sur un forum un peu stagnant, de créer deux comptes aux noms similaires depuis la même IP et de débattre avec moi-même. Au début, je pensais que l’administrateur ou d’autres utilisateurs s’en apercevraient, mais j’ai vite appris qu’il se passe tellement de choses étranges que rien ne paraît vraiment étrange.
- Ce serait presque mieux de poster tout seul que de vivre l’expérience actuelle où l’écrasante majorité des autres auteurs sont des spambots. Cela m’est déjà arrivé sur deux forums.
L’idée — ou la réalité — qu’un propriétaire de site puisse détourner les comptes des gens pour produire des textes usurpant leur identité, sans doute pour des revenus publicitaires, est révoltante et déprimante au point de couper les jambes.
Les problèmes de confiance et d’attribution ont toujours existé sur le Web, mais pour plusieurs raisons, cela paraît aujourd’hui bien pire. Je ne sais pas jusqu’à quel point les choses devront encore se dégrader pour qu’un grand basculement se produise.
Je ne vois pas bien non plus quelle serait la solution. Faut-il déposer son nom ou son handle comme marque, et menacer de poursuites alors qu’on n’a pas vraiment d’argent ? Faut-il que tout le monde signe ses textes avec une clé privée via une infrastructure à clé publique, et que chacun dépense du CPU à vérifier les signatures pour détecter les usurpations ? Faut-il capturer des attentes collectives implicites et les formaliser dans les cadres fragmentés des systèmes juridiques du monde entier ? Par exemple en créant une petite « entreprise » crédible qui vend des conseils et des opinions sous ce nom, puis en reprochant à l’usurpateur d’avoir porté atteinte à la marque.
- L’usurpation d’identité consistant à faire croire que quelqu’un a dit quelque chose qu’il n’a jamais dit devrait être considérée comme quelque chose du type diffamation.
  La formulation de ces réponses me met aussi assez mal à l’aise. Même avec un diplôme d’ingénieur, quand je réponds en ligne sur un ton léger, je dis rarement « en tant qu’ingénieur ». Parce que pour répondre sous cette autorité éthique, il faut avoir fait une analyse suffisante. Or le bot ne semble pas avoir ce genre de scrupules.
  La personne appelée ravenprp était étudiante en ingénierie il y a quelques années. Comme elle ne commentait pas sous son vrai nom, c’est peut-être moins grave, mais vu la nature du contenu de ce site, on peut facilement imaginer une situation où quelqu’un qui travaille réellement dans un domaine et possède une réputation professionnelle est usurpé « en tant qu’ingénieur ».
  Le site contient même l’historique des questions et réponses de cette personne pendant sa formation, ce qui peut très bien induire les gens en erreur et leur faire croire qu’un véritable ingénieur répond à leurs questions. Je sais que la notion de réputation professionnelle individuelle s’est beaucoup affaiblie dans notre monde moderne ultra-corporatisé, mais plus j’y pense, plus je trouve cela vraiment lamentable et, en réalité, presque dangereux.
- C’est triste. Pour éviter ce genre de problème bizarre, je mets une mention de copyright en bas de mon CV.
  Je me suis toujours demandé si les gens pourraient apposer une sorte de marque cryptographique sur leurs écrits, reliée à une archive quelque part. Je pensais surtout à sauvegarder des avis Yelp pour qu’ils ne disparaissent pas, mais je ne sais pas si cela pourrait aussi empêcher des textes que quelqu’un n’a jamais écrits.
- Ne faudrait-il pas créer un protocole qui nous permette de garder le contrôle sur les contenus que nous produisons, tandis que les forums ou des endroits comme Facebook ne seraient que des dispositifs de découverte et des facilitateurs d’interaction, et non les dépositaires de toutes les communications ? La capacité à accéder indépendamment à la source de l’information devient de plus en plus importante.
- Avec mes amis proches, j’échange des clés publiques en personne. Une solution à grande échelle serait très orwellienne. Pour se connecter à un FAI, il faudrait une carte d’identité nationale sous forme de smart card, et peut-être même une authentification biométrique.
- Ne signez pas vos écrits !
Le forum ShackNews https://www.shacknews.com/chatty était similaire. En remontant dans le temps, on peut trouver des messages écrits pendant les événements du 11-Septembre.
- Ars Technica a commencé en ajoutant à un forum de télécoms l’idée nouvelle de couvrir l’actualité tech. Le forum existe encore, mais la camaraderie des débuts n’est plus vraiment la même.
À vue de nez, les Américains, et peut-être les Européens, semblent aimer toutes sortes de forums spécialisés comme PhysicsForum. À l’inverse, les Chinois semblent préférer des lieux centralisés.
Par exemple, Zhihu (zhihu.com) était un clone de Quora, mais c’est désormais le plus grand site où trouver des discussions approfondies dans pratiquement tous les domaines : mathématiques, apprentissage automatique, histoire, physique, ingénierie, sciences en général, etc. Une foule de chercheurs, de spécialistes et de passionnés y partagent leurs analyses.
En revanche, la qualité de Quora semble s’être dégradée au fil des ans, et la plupart des spécialistes sont dispersés dans toutes sortes de forums spécialisés. Je me demande d’où vient cette différence.

PhysicsForums et la théorie de l’Internet mort

La valeur d’archive d’un ancien forum scientifique

Les anomalies révélées par le compte ravenprp

Un schéma d’insertion rétroactive révélé par les ID de messages

Les problèmes de qualité créés par les FAQ et résumés générés par LLM

Les contenus IA découverts par la communauté et les changements cachés

La réponse de Greg Bernhardt et l’explication des tests

Identité des comptes et intégrité des archives

À lire aussi

1 commentaires

Avis de Hacker News