- Une analyse récente des modèles de commentaires des nouveaux comptes Hacker News a mis en évidence une différence nette avec les utilisateurs existants
- Parmi les commentaires des nouveaux comptes, 17,47 % utilisaient des symboles spéciaux comme le tiret cadratin (—) ou des flèches, soit environ 10 fois plus que les 1,83 % observés sur les comptes existants
- Les nouveaux comptes avaient aussi une probabilité plus élevée de mentionner des termes liés à l’IA et aux LLM, à 18,67 %, contre 11,8 % pour les comptes existants
- L’analyse compare des échantillons d’environ 700 commentaires chacun, à partir des données de
/newcomments et /noobcomments
- Ces statistiques suggèrent une possible hausse des comptes automatisés (bots) au sein de la communauté HN
Observation de signes anormaux dans les commentaires HN
- Depuis quelques mois, on observe un phénomène qui donne l’impression d’une forte hausse des bots sur HN
- Certains comptes publient uniquement des chaînes de caractères ou des nombres dénués de sens
- Exemples : des textes obscurs comme « 13 60 well and t6ctctfuvuh7hguhuig8h88gd… » ou des commentaires constitués d’un seul élément comme « 1662476506 » ou « Аё »
- En plus de ces comptes, on trouve aussi de nombreux commentaires ordinaires en apparence, mais maladroits ou hors sujet
Méthode de collecte et d’analyse des données
- Comparaison analytique par scraping des pages
/newcomments (commentaires récents) et /noobcomments (commentaires de nouveaux comptes)
- Environ 700 échantillons de commentaires ont été collectés dans chaque groupe pour calculer des statistiques simples
Principaux résultats statistiques
- 17,47 % des commentaires de nouveaux comptes contenaient des symboles spéciaux comme le tiret cadratin ou des flèches, contre 1,83 % pour les comptes existants, soit un écart d’environ 10 fois
- Significativité statistique : p = 7e-20
- 18,67 % des commentaires de nouveaux comptes contenaient des mentions de l’IA ou des LLM, contre 11,8 % pour les comptes existants
- Significativité statistique : p = 0.0018
Interprétation et questions soulevées
- Des utilisateurs humains peuvent eux aussi utiliser le tiret cadratin, mais le niveau d’utilisation excessif chez les nouveaux comptes est difficile à expliquer
- Cette différence laisse penser qu’il pourrait exister des comptes générés automatiquement parmi les nouveaux comptes HN
Références
- Le code source et les données utilisés pour l’analyse sont publiés dans un dépôt GitHub (vlofgren/hn-green-clankers)
- Marginalia.nu a publié cette étude dans le cadre de sa série « Weird AI Crap »
1 commentaires
Réactions sur Hacker News
Autrefois, sur HN, on utilisait souvent les em dash et les en dash
C’était simplement par goût pour la typographie, avec l’habitude d’utiliser des tirets à la place des points-virgules
J’avais configuré un raccourci clavier avec AHK, et maintenant, à cause de ça, mes textes donnent l’impression d’avoir été écrits par un LLM
On m’a déjà pris plusieurs fois pour une IA, donc c’est dommage qu’un goût typographique autrefois plaisant soit désormais perçu négativement
En réalité, il existe juste encore des gens qui font attention aux phrases complètes, à l’orthographe, à la grammaire et aux majuscules
Aujourd’hui, on dirait que écrire un peu de façon brouillonne est devenu un signal d’humanité. Les futurs chatbots finiront sans doute par l’apprendre eux aussi
Les phrases deviennent un peu plus maladroites, mais j’aime bien cette impression d’authenticité artisanale
En revanche, je n’abandonnerai jamais les deux espaces en fin de phrase. Mon prof de dactylo de 1993 disait qu’une phrase a aussi besoin d’espace pour respirer
J’ai depuis longtemps l’habitude de les taper avec option+8 sur Mac, mais maintenant ça aussi ressemble au style d’un LLM
J’ai comparé statistiquement les mots fréquemment utilisés dans les commentaires des nouveaux utilisateurs de HN
Des mots comme “ai”, “actually”, “code”, “real” ou “built” apparaissent bien plus souvent dans les nouveaux comptes
C’est documenté en détail dans ce tableau de données
D’un point de vue académique, ce n’est pas approprié, mais ici on peut y voir une intuition intéressante
En revanche, calculer une taille d’effet comme le d de Cohen permettrait de mesurer l’ampleur réelle de la différence
La plupart du temps, c’est juste un mot de remplissage qui nuit à la clarté du texte
Certains avancent l’hypothèse que des bots poussent artificiellement les sujets liés à l’IA
J’utilise les em-dash depuis longtemps, donc c’est dommage de ne plus pouvoir les employer de peur d’être pris pour une IA
Sur Mac, on peut les saisir facilement avec
alt+shift+-, et on a l’impression qu’une bonne pratique typographique a été contaminéeSi cela est là, peu importe la ponctuation utilisée, le texte paraîtra humain
Pour reprendre la main sur la typographie, je partage ce guide des codes Alt sur Mac
En fin de compte, la manière d’exprimer propre à chacun finit toujours par transparaître
Les données sont publiées sous forme de base SQLite dans ce dépôt GitHub
On peut exécuter directement des requêtes SQL dans le navigateur via Datasette Lite
Quand on regarde la liste des utilisateurs qui emploient souvent l’em-dash, la plupart semblent être des comptes normaux
sourceà la requête, on remarque des comptes green qui utilisent beaucoup l’em-dashCela donne l’impression d’une crise qui dépasse HN et touche l’ensemble du discours anonyme en ligne
Quand la confiance s’effondre, c’est la plateforme elle-même qui se désagrège
La vérification d’identité semble être la seule solution, même si elle n’est pas parfaite
J’ai présenté cette idée dans mon billet de blog
On entre peut-être dans une époque où il faudra prouver qu’on est humain
Si la valeur d’un commentaire est prouvée par une quantité de calcul de hachage, la confiance devient possible même sans identité
Si les bots ne parviennent pas à conserver un karma positif, ils n’obtiennent pas de droits, donc une défense reste possible sans vérification d’identité complète
En ce moment, on remarque sur HN un schéma de commentaires formels mais fades
Cela se répète sous des structures du type “this is [résumé] / not just x, it’s y / punchy ending”
Le compte snowhale en est un exemple clair
Cela pourrait relever d’une stratégie visant à manipuler le récit en constituant un réseau de votes
Dans ces résultats de recherche, plusieurs comptes répètent la même formule
Ils ne lisent pas le contexte de la conversation et donnent souvent une impression étrange de déconnexion
Comme les humains, elle se donne des airs de neutralité, mais les biais des données d’entraînement sont déjà incorporés en elle
La neutralité totale est peut-être une illusion
Il suffit d’ajouter dans le prompt : “Parle comme moi, n’écris pas comme une IA, sois concis”, et la moitié du problème est réglée
Au contraire, cette controverse a permis à beaucoup de gens de découvrir l’existence de l’em-dash pour la première fois
Désormais, il y a même pas mal de nouveaux utilisateurs humains qui en mettent dans chaque phrase
La plupart des comptes bots que j’ai repérés utilisent très peu l’em-dash
Par exemple, aplomb1026 a publié deux longs commentaires à 30 secondes d’intervalle
C’est évident en regardant le premier commentaire et le deuxième
Si leur configuration n’avait pas été ratée de cette façon, la plupart des gens ne l’auraient probablement pas remarqué
Parmi les autres bots cités, il y a dirtytoken7 et fdefitte
Les diplômés de littérature anglaise utilisent l’em-dash depuis longtemps, mais maintenant ils se retiennent de peur d’avoir l’air d’une IA
Si l’IA commence un jour à employer aussi les trémas à la New Yorker (diaeresis), là ce sera vraiment insupportable
Malgré ça, je continuais à les utiliser en interne
Et si, au lieu de chercher à « ne pas avoir l’air d’une IA », on choisissait plutôt de « se fondre dans la révolte des robots » ?
Je propose ⸻ (le tiret U+2E3B)