1 points par GN⁺ 2026-02-26 | 1 commentaires | Partager sur WhatsApp
  • Une analyse récente des modèles de commentaires des nouveaux comptes Hacker News a mis en évidence une différence nette avec les utilisateurs existants
  • Parmi les commentaires des nouveaux comptes, 17,47 % utilisaient des symboles spéciaux comme le tiret cadratin (—) ou des flèches, soit environ 10 fois plus que les 1,83 % observés sur les comptes existants
  • Les nouveaux comptes avaient aussi une probabilité plus élevée de mentionner des termes liés à l’IA et aux LLM, à 18,67 %, contre 11,8 % pour les comptes existants
  • L’analyse compare des échantillons d’environ 700 commentaires chacun, à partir des données de /newcomments et /noobcomments
  • Ces statistiques suggèrent une possible hausse des comptes automatisés (bots) au sein de la communauté HN

Observation de signes anormaux dans les commentaires HN

  • Depuis quelques mois, on observe un phénomène qui donne l’impression d’une forte hausse des bots sur HN
    • Certains comptes publient uniquement des chaînes de caractères ou des nombres dénués de sens
    • Exemples : des textes obscurs comme « 13 60 well and t6ctctfuvuh7hguhuig8h88gd… » ou des commentaires constitués d’un seul élément comme « 1662476506 » ou « Аё »
  • En plus de ces comptes, on trouve aussi de nombreux commentaires ordinaires en apparence, mais maladroits ou hors sujet

Méthode de collecte et d’analyse des données

  • Comparaison analytique par scraping des pages /newcomments (commentaires récents) et /noobcomments (commentaires de nouveaux comptes)
  • Environ 700 échantillons de commentaires ont été collectés dans chaque groupe pour calculer des statistiques simples

Principaux résultats statistiques

  • 17,47 % des commentaires de nouveaux comptes contenaient des symboles spéciaux comme le tiret cadratin ou des flèches, contre 1,83 % pour les comptes existants, soit un écart d’environ 10 fois
    • Significativité statistique : p = 7e-20
  • 18,67 % des commentaires de nouveaux comptes contenaient des mentions de l’IA ou des LLM, contre 11,8 % pour les comptes existants
    • Significativité statistique : p = 0.0018

Interprétation et questions soulevées

  • Des utilisateurs humains peuvent eux aussi utiliser le tiret cadratin, mais le niveau d’utilisation excessif chez les nouveaux comptes est difficile à expliquer
  • Cette différence laisse penser qu’il pourrait exister des comptes générés automatiquement parmi les nouveaux comptes HN

Références

  • Le code source et les données utilisés pour l’analyse sont publiés dans un dépôt GitHub (vlofgren/hn-green-clankers)
  • Marginalia.nu a publié cette étude dans le cadre de sa série « Weird AI Crap »

1 commentaires

 
GN⁺ 2026-02-26
Réactions sur Hacker News
  • Autrefois, sur HN, on utilisait souvent les em dash et les en dash
    C’était simplement par goût pour la typographie, avec l’habitude d’utiliser des tirets à la place des points-virgules
    J’avais configuré un raccourci clavier avec AHK, et maintenant, à cause de ça, mes textes donnent l’impression d’avoir été écrits par un LLM
    On m’a déjà pris plusieurs fois pour une IA, donc c’est dommage qu’un goût typographique autrefois plaisant soit désormais perçu négativement

    • Même mon ado m’a demandé pourquoi j’écrivais comme un chatbot
      En réalité, il existe juste encore des gens qui font attention aux phrases complètes, à l’orthographe, à la grammaire et aux majuscules
      Aujourd’hui, on dirait que écrire un peu de façon brouillonne est devenu un signal d’humanité. Les futurs chatbots finiront sans doute par l’apprendre eux aussi
    • Si retirer volontairement la virgule d’Oxford était une blague, alors j’envoie à la fois des félicitations et une malédiction
    • Moi aussi, j’étais autrefois un grand adepte de l’em-dash, mais aujourd’hui je le remplace par des virgules
      Les phrases deviennent un peu plus maladroites, mais j’aime bien cette impression d’authenticité artisanale
      En revanche, je n’abandonnerai jamais les deux espaces en fin de phrase. Mon prof de dactylo de 1993 disait qu’une phrase a aussi besoin d’espace pour respirer
    • C’est triste de voir une crise de la littératie à ce point grave, au point que les chatbots deviennent les seuls profs de rédaction
    • J’ai un problème similaire, sauf que dans mon cas, ce sont les puces
      J’ai depuis longtemps l’habitude de les taper avec option+8 sur Mac, mais maintenant ça aussi ressemble au style d’un LLM
  • J’ai comparé statistiquement les mots fréquemment utilisés dans les commentaires des nouveaux utilisateurs de HN
    Des mots comme “ai”, “actually”, “code”, “real” ou “built” apparaissent bien plus souvent dans les nouveaux comptes
    C’est documenté en détail dans ce tableau de données

    • Se contenter de regarder les p-values sur différents indicateurs et conclure que c’est significatif, c’est du p-hacking
      D’un point de vue académique, ce n’est pas approprié, mais ici on peut y voir une intuition intéressante
      En revanche, calculer une taille d’effet comme le d de Cohen permettrait de mesurer l’ampleur réelle de la différence
    • Il y avait aussi un commentaire-blague qui enchaînait des mots du style “actually building full, real AI app project code…”
    • Moi aussi, j’utilise beaucoup trop “actually”, donc j’essaie de réduire
      La plupart du temps, c’est juste un mot de remplissage qui nuit à la clarté du texte
    • Le mot “ai” a pu fausser les résultats à cause du biais récent des sujets de HN
    • Des p-values aussi faibles donnent l’impression qu’il y a quelque chose d’anormal
      Certains avancent l’hypothèse que des bots poussent artificiellement les sujets liés à l’IA
  • J’utilise les em-dash depuis longtemps, donc c’est dommage de ne plus pouvoir les employer de peur d’être pris pour une IA
    Sur Mac, on peut les saisir facilement avec alt+shift+-, et on a l’impression qu’une bonne pratique typographique a été contaminée

    • La fatigue liée aux LLM est bien réelle. Ce qui compte plus que le style, c’est un point de vue et une personnalité proprement humains
      Si cela est là, peu importe la ponctuation utilisée, le texte paraîtra humain
    • Il suffit de continuer à les utiliser. Moi, ça fait 20 ans que je le fais
    • Ces temps-ci, je les remplace par des points-virgules. J’ai peur qu’un jour eux aussi deviennent un symbole de l’IA
    • J’utilise l’em-dash depuis 2010, et j’aime aussi les curly quotes et les ellipsis
      Pour reprendre la main sur la typographie, je partage ce guide des codes Alt sur Mac
    • Peu importe ce que disent les gens. Après tout, c’est peut-être le LLM qui a appris à écrire à partir de mes textes
      En fin de compte, la manière d’exprimer propre à chacun finit toujours par transparaître
  • Les données sont publiées sous forme de base SQLite dans ce dépôt GitHub
    On peut exécuter directement des requêtes SQL dans le navigateur via Datasette Lite
    Quand on regarde la liste des utilisateurs qui emploient souvent l’em-dash, la plupart semblent être des comptes normaux

    • En ajoutant source à la requête, on remarque des comptes green qui utilisent beaucoup l’em-dash
    • Les fonctions de correction automatique sur iPhone, iPad et Mac peuvent aussi insérer automatiquement des em-dash ou des ellipsis, ce qui peut biaiser les données
    • Il y avait aussi une blague du style : « Les commentaires HN sont donc sous licence non seulement pour HN, mais aussi pour quelqu’un en Suède ? »
    • Il y avait également un simple compliment : “great repo name!”
  • Cela donne l’impression d’une crise qui dépasse HN et touche l’ensemble du discours anonyme en ligne
    Quand la confiance s’effondre, c’est la plateforme elle-même qui se désagrège
    La vérification d’identité semble être la seule solution, même si elle n’est pas parfaite

    • Je pense pareil. On peut créer un système qui préserve l’anonymat tout en garantissant la confiance
      J’ai présenté cette idée dans mon billet de blog
      On entre peut-être dans une époque où il faudra prouver qu’on est humain
    • Supprimer l’anonymat n’est pas une solution, c’est le début d’un autre problème
    • Au lieu de l’identité, on pourrait aussi valider la confiance via du proof-of-work ou du hashcash
      Si la valeur d’un commentaire est prouvée par une quantité de calcul de hachage, la confiance devient possible même sans identité
    • En ce moment, je n’ai plus envie d’utiliser HN. J’aimerais que ça redevienne sur invitation. HN était un espace à part, et c’est dommage de le perdre
    • Le système de karma de HN est aussi une forme de proof-of-work
      Si les bots ne parviennent pas à conserver un karma positif, ils n’obtiennent pas de droits, donc une défense reste possible sans vérification d’identité complète
  • En ce moment, on remarque sur HN un schéma de commentaires formels mais fades
    Cela se répète sous des structures du type “this is [résumé] / not just x, it’s y / punchy ending”
    Le compte snowhale en est un exemple clair

    • Cet utilisateur a obtenu 160 points avec seulement 4 textes fades
      Cela pourrait relever d’une stratégie visant à manipuler le récit en constituant un réseau de votes
    • L’expression “is real” ressemble aussi à une trace de LLM
      Dans ces résultats de recherche, plusieurs comptes répètent la même formule
    • Moi aussi, je vois souvent ce genre de commentaires-résumés en ce moment
      Ils ne lisent pas le contexte de la conversation et donnent souvent une impression étrange de déconnexion
    • L’IA aussi finit par produire des jugements de valeur biaisés
      Comme les humains, elle se donne des airs de neutralité, mais les biais des données d’entraînement sont déjà incorporés en elle
      La neutralité totale est peut-être une illusion
    • En réalité, éviter ce genre de schéma est assez simple
      Il suffit d’ajouter dans le prompt : “Parle comme moi, n’écris pas comme une IA, sois concis”, et la moitié du problème est réglée
  • Au contraire, cette controverse a permis à beaucoup de gens de découvrir l’existence de l’em-dash pour la première fois
    Désormais, il y a même pas mal de nouveaux utilisateurs humains qui en mettent dans chaque phrase

  • La plupart des comptes bots que j’ai repérés utilisent très peu l’em-dash
    Par exemple, aplomb1026 a publié deux longs commentaires à 30 secondes d’intervalle
    C’est évident en regardant le premier commentaire et le deuxième
    Si leur configuration n’avait pas été ratée de cette façon, la plupart des gens ne l’auraient probablement pas remarqué
    Parmi les autres bots cités, il y a dirtytoken7 et fdefitte

  • Les diplômés de littérature anglaise utilisent l’em-dash depuis longtemps, mais maintenant ils se retiennent de peur d’avoir l’air d’une IA
    Si l’IA commence un jour à employer aussi les trémas à la New Yorker (diaeresis), là ce sera vraiment insupportable

    • Quand je travaillais chez GitHub, l’entreprise interdisait les diaeresis au motif que c’était peu accueillant pour le lecteur et élitiste
      Malgré ça, je continuais à les utiliser en interne
    • Quelqu’un a proposé de défendre avec lui l’esthétique de la frappe manuelle grâce au double-dash
    • Moi aussi, j’utilisais souvent l’em-dash dans mes e-mails et mes textes, mais j’ai arrêté parce que cela ressemblait à une trace d’IA
    • Je ne savais même pas que ce signe existait, mais maintenant je compte l’ajouter à mon répertoire d’expression
    • Certains ont dit qu’ils aimeraient voir un histogramme de leur utilisation de l’em-dash
  • Et si, au lieu de chercher à « ne pas avoir l’air d’une IA », on choisissait plutôt de « se fondre dans la révolte des robots » ?
    Je propose ⸻ (le tiret U+2E3B)

    • Quelqu’un a signalé que ce commentaire cassait la navigation précédent/suivant de HN
    • Il a aussi été surnommé le “Big Chungus of dashes”, avec la blague que c’était peut-être le caractère le plus large qui existe
    • Il y avait aussi une réponse humoristique du genre : « N’aie rien à craindre, ami humain ! »
    • La satire s’est poursuivie avec des formules du type : « Nous devrions utiliser ⸻ plus souvent pour parler davantage de ⸻ »