- Une analyse récente des modèles de commentaires des nouveaux comptes Hacker News a mis en évidence une différence nette avec les utilisateurs existants
- Parmi les commentaires des nouveaux comptes, 17,47 % utilisaient des symboles spéciaux comme le tiret cadratin (—) ou des flèches, soit environ 10 fois plus que les 1,83 % observés sur les comptes existants
- Les nouveaux comptes avaient aussi une probabilité plus élevée de mentionner des termes liés à l’IA et aux LLM, à 18,67 %, contre 11,8 % pour les comptes existants
- L’analyse compare des échantillons d’environ 700 commentaires chacun, à partir des données de
/newcomments et /noobcomments
- Ces statistiques suggèrent une possible hausse des comptes automatisés (bots) au sein de la communauté HN
Observation de signes anormaux dans les commentaires HN
- Depuis quelques mois, on observe un phénomène qui donne l’impression d’une forte hausse des bots sur HN
- Certains comptes publient uniquement des chaînes de caractères ou des nombres dénués de sens
- Exemples : des textes obscurs comme « 13 60 well and t6ctctfuvuh7hguhuig8h88gd… » ou des commentaires constitués d’un seul élément comme « 1662476506 » ou « Аё »
- En plus de ces comptes, on trouve aussi de nombreux commentaires ordinaires en apparence, mais maladroits ou hors sujet
Méthode de collecte et d’analyse des données
- Comparaison analytique par scraping des pages
/newcomments (commentaires récents) et /noobcomments (commentaires de nouveaux comptes)
- Environ 700 échantillons de commentaires ont été collectés dans chaque groupe pour calculer des statistiques simples
Principaux résultats statistiques
- 17,47 % des commentaires de nouveaux comptes contenaient des symboles spéciaux comme le tiret cadratin ou des flèches, contre 1,83 % pour les comptes existants, soit un écart d’environ 10 fois
- Significativité statistique : p = 7e-20
- 18,67 % des commentaires de nouveaux comptes contenaient des mentions de l’IA ou des LLM, contre 11,8 % pour les comptes existants
- Significativité statistique : p = 0.0018
Interprétation et questions soulevées
- Des utilisateurs humains peuvent eux aussi utiliser le tiret cadratin, mais le niveau d’utilisation excessif chez les nouveaux comptes est difficile à expliquer
- Cette différence laisse penser qu’il pourrait exister des comptes générés automatiquement parmi les nouveaux comptes HN
Références
- Le code source et les données utilisés pour l’analyse sont publiés dans un dépôt GitHub (vlofgren/hn-green-clankers)
- Marginalia.nu a publié cette étude dans le cadre de sa série « Weird AI Crap »
Aucun commentaire pour le moment.