Des bots, beaucoup trop de bots

(wakatime.com)

1 points par GN⁺ 2024-10-02 | 1 commentaires | Partager sur WhatsApp

ProductHunt est une plateforme de lancement de produits qui compte plus d’un million d’inscrits, mais une analyse des données publiques classe plus de 60 % des inscrits comme des comptes de bots automatisés
Après avoir lancé directement un produit en insérant une injection de prompt LLM dans sa description, il est apparu que presque tous les commentaires étaient automatisés, et qu’une grande partie des commentaires récents semblait aussi générée par ChatGPT
Comme il est difficile d’affirmer avec certitude qu’un compte est un bot à partir des seules données publiques, l’identification s’est faite via un score de risque combinant durée d’activité, schémas d’upvotes, recoupements avec d’autres bots et contenu des commentaires
Depuis 2018, les inscriptions de bots ont dépassé celles des vrais utilisateurs, et en 2022 les upvotes de bots ont dépassé les upvotes réels, ce qui renforce la possibilité que des rings de vote influencent le classement
Lancer un produit sur ProductHunt peut encore offrir de la visibilité, mais il est plus réaliste de s’y préparer rapidement et d’éviter d’y consacrer trop de temps plutôt que d’espérer un vrai échange dans les commentaires ou un effet SEO

Activité de bots mise en évidence sur ProductHunt

Depuis début 2014, ProductHunt était utile pour suivre les lancements des derniers produits tech, trouver des outils similaires dans les commentaires ou recueillir des retours sur son propre produit
Comme la plupart des commentaires récents sur les produits semblaient être des commentaires générés par ChatGPT, un lancement test a été réalisé en ajoutant une simple injection de prompt LLM dans la description du produit
Après le lancement, presque tous les commentaires se sont révélés automatisés, ce qui a renforcé l’idée que répondre aux commentaires sur ProductHunt pouvait être une perte de temps pour les créateurs
Des e-mails proposant des upvotes payants arrivaient en continu, et sur Reddit on trouvait aussi un témoignage indiquant avoir acheté des upvotes ProductHunt à deux reprises

Données publiques utilisées pour l’analyse

L’analyse porte sur les listes publiquement accessibles d’utilisateurs, de lancements, d’upvotes et de commentaires sur ProductHunt
L’ampleur des données est la suivante
- Inscriptions utilisateurs : plus d’un million
- Lancements : plus de 300 000
- Commentaires : 2,5 millions
- Upvotes : 20 millions
Chaque produit dispose d’un classement quotidien correspondant au score 24 heures après minuit heure PDT le jour du lancement
- La 1re place a un daily rank de 1
- Certains produits ont un rang null, possiblement en raison d’une suppression, d’un signalement ou d’une absence de publication

Méthode d’identification des comptes bots

Détecter des bots à partir des seules données publiques étant difficile, un critère unique ne suffisait pas
Au départ, l’analyse visait à repérer des tendances à partir des horaires de commentaires des utilisateurs
- Un utilisateur totalisait 677 jours d’inscription, 2 009 commentaires et 4 649 upvotes, ce qui faisait penser à un power user automatisé, mais il n’a pas été classé comme bot
- Un autre utilisateur affichait 140 jours d’inscription, 173 commentaires et 246 upvotes ; l’intervalle entre les commentaires était régulier et le graphique paraissait anguleux, en forme de boîte, plutôt que fluide
Au final, plusieurs signaux ont été combinés pour attribuer à chaque utilisateur un score de risque
- durée d’activité du compte
- schémas d’upvotes dans le temps
- nombre d’upvotes partagés avec d’autres bots
- contenu des commentaires
Les commentaires générés par ChatGPT contenaient plus souvent des mots comme game-changer
Les commentaires de bots incluaient parfois des caractères généralement difficiles à saisir, comme un tiret cadratin, ou reprenaient tels quels des noms de produits très longs ou contenant ™
Certains comptes bots réutilisaient à l’identique le nom et la biographie LinkedIn de vraies personnes, mais ces personnes ont répondu qu’elles n’avaient jamais créé de compte ProductHunt
Le clustering a donné quelques résultats, mais beaucoup de comptes bots étaient jetables et, parmi plusieurs votes aléatoires, n’avaient souvent qu’un seul chevauchement avec d’autres bots
- sur cupy et cudf, les méthodes nécessaires sur GPU n’étaient pas implémentées, donc le clustering n’a été exécuté que sur de petits jeux de données
- quelqu’un de plus expérimenté pourrait probablement améliorer la détection des bots
Résultat de l’analyse : plus de 60 % des inscriptions utilisateurs ont été détectées comme des comptes de bots automatisés
- tous les bots n’ont pas été détectés, c’est donc une estimation prudente
- avec des données internes à ProductHunt, il serait plus facile d’identifier plus précisément l’activité des bots

Évolution de l’activité des bots dans le temps

Inscriptions utilisateurs
- Depuis 2018, plus de bots que de vrais utilisateurs sont créés
Commentaires
- Depuis fin 2022, les commentaires de bots ont fortement augmenté
- Cela coïncide à peu près avec le moment où ChatGPT est devenu largement accessible
- Le pic de 2024 peut s’expliquer par la suppression progressive des comptes bots au fil du temps
- Les comptes récents ont probablement moins été supprimés, ce qui rend leurs commentaires plus faciles à observer
Upvotes
- En 2022, les upvotes de bots ont dépassé ceux des vrais utilisateurs
- Les bots forment des rings de vote pour augmenter les chances d’apparaître dans la newsletter ProductHunt
Classement
- La plupart des lancements ne reçoivent que quelques upvotes réels
- Comme les bots votent de manière aléatoire pour se fondre dans la masse, la courbe de tendance des upvotes de bots est plus lisse que celle des vrais utilisateurs

Relation entre classement quotidien et upvotes de bots

Les lancements classés n°1 sur ProductHunt sont présentés dans les newsletters quotidiennes et hebdomadaires
Pour atteindre la 1re place, 15 % de votes de bots semblaient constituer un niveau « sûr »
Les lancements dont la part de votes de bots dépassait 60 % ne semblaient, pour une raison ou une autre, pas atteindre la 1re place
Si l’on ne regarde que les lancements depuis 2020, les posts récents les mieux classés contiennent une plus grande part d’upvotes de bots
L’hypothèse est que les lancements qui achètent des upvotes ont moins de chances d’être des produits de haute qualité, et restent donc plus souvent dans le top 5 qu’à la 1re place

Efficacité réelle d’un lancement sur ProductHunt

Même si la majorité des commentaires et des upvotes sont le fait de bots, il peut encore rester de vrais utilisateurs sur ProductHunt
Si l’on paie des bots pour apparaître dans la newsletter, davantage de vraies personnes peuvent quand même voir le produit
Un lancement sur ProductHunt n’a aucun effet SEO de backlink
- pour que Google compte un lien comme backlink, l’élément de lien a pointant vers le produit ne doit pas contenir nofollow
- les liens produits sur ProductHunt incluent nofollow, donc les moteurs de recherche ne les comptent pas comme backlinks
- si l’on saisit un seul lien vers le produit, l’élément réel n’est pas un lien mais un élément button qui ouvre la page produit en JavaScript
- d’autres sites d’agrégation peuvent reprendre le lancement et ajouter un lien, mais ProductHunt lui-même n’est pas compté comme backlink
Certains investisseurs accordent de l’importance au badge ProductHunt #1, ce qui peut aider lors de discussions avec eux
Globalement, lancer un produit sur ProductHunt peut valoir le coup, mais mieux vaut ne pas passer plus de quelques minutes à le préparer ni perdre du temps à répondre aux commentaires

Analyses restantes et projets liés

L’objectif était aussi de créer une liste des lancements sans votes de bots pour voir si le n°1 du jour changerait une fois ces votes retirés
Comme il n’était pas souhaitable de désigner des lancements fortement upvotés par des bots alors qu’ils n’avaient peut-être rien payé, ni d’offrir une promotion supplémentaire à ceux qui avaient payé, cette analyse est reportée à un futur article
La discussion associée se trouve sur HN
La tentative d’améliorer les problèmes de ProductHunt est également présentée via wonderful.dev et wonderful.dev/alan

1 commentaires

GN⁺ 2024-10-02

Avis sur Hacker News

Je me demande si ProductHunt utilise une quelconque solution CAPTCHA
Les CAPTCHA sont souvent très critiqués, mais je pense qu’ils restent très utiles pour bloquer la plupart de ces attaques de spam. Les problèmes d’utilisabilité, d’accessibilité et de vie privée se sont améliorés ces dernières années avec des approches qui fonctionnent sans saisie utilisateur et protègent aussi les données personnelles ; quant à la critique selon laquelle des bots sophistiqués peuvent les contourner, les techniques traditionnelles restent largement utiles pour arrêter les bots à faible effort. Contre les attaques qui utilisent de vrais humains, les CAPTCHA ne sont de toute façon pas adaptés, donc les sites doivent prévoir d’autres moyens de défense, mais je ne pense pas que ce soit la cause principale du spam que l’on voit aujourd’hui
- Je réfléchis en ce moment à la possibilité de créer une sorte de système avec une mise en jeu, qui prouverait qu’on a de fortes chances d’être humain
  Par exemple, sur un site de « preuveur », on ferait un don unique de 5 dollars à l’association caritative de son choix, on recevrait un jeton prouvant qu’on a dépensé de l’argent, puis des sites partenaires comme HN pourraient brûler ce jeton pour marquer le compte comme très probablement humain, ou au minimum comme un bot dont le propriétaire perd quelque chose s’il est bloqué. Ce serait bien plus respectueux de la vie privée que plusieurs systèmes de vérification d’identité nationale et, même si cela peut donner l’impression d’« acheter son droit à la parole », ce serait en réalité potentiellement moins cher que le temps, les déplacements et les démarches administratives nécessaires dans des systèmes gratuits. Les gros problèmes seraient sans doute les paiements frauduleux avec des cartes volées pour acheter des jetons, les sites de preuve qui prennent l’argent puis disparaissent, les sites de destination qui collectent discrètement les jetons de preuve, et le traitement décentralisé où plusieurs sites de dons et sites de comptes feraient chacun confiance à des jetons différents
- Il existe déjà une industrie de services de résolution de CAPTCHA, qui emploie surtout des humains dans des régions où la main-d’œuvre est bon marché
  Sur l’un des services populaires, cela coûte environ 0,001 à 0,002 $ par reCAPTCHA, et son utilisation ne demande pas un grand niveau technique. Même si chaque commentaire nécessitait un CAPTCHA, pour environ 50 dollars par an on pourrait spammer un site avec 100 commentaires par jour ; cela filtrerait peut-être le script kiddie moyen, mais si le spam permet de gagner de l’argent, la rentabilité est facile à atteindre. Il est difficile de qualifier ce type de services de « cas limite »
- Les exploitants de sites web veulent rendre leurs données publiques tout en empêchant qu’on les copie
  C’est une contradiction intrinsèque, comme un DRM qui ne fonctionne pas. Les développeurs web gonflent aussi énormément les sites avec des mégaoctets de JavaScript et des designs excessivement complexes, alors qu’un simple site statique avec un CDN pourrait coûter bien moins cher
- La solution presque parfaite consiste à examiner manuellement toutes les soumissions
  On peut utiliser un système automatisé comme première ligne de défense contre le spam, puis embaucher des personnes pour vérifier une par une les soumissions qui passent. Même pour les contenus publiés par des humains, ce processus permettrait aussi de garantir un certain niveau de qualité. Les soumissions légitimes bloquées par le filtre antispam initial pourraient faire l’objet d’une contestation par e-mail, par exemple, et être placées dans une file de revue manuelle. Ce n’est pas simple, et la publication peut prendre du temps, mais le spam et les contenus de mauvaise qualité pourraient pratiquement tomber à zéro
- Comme j’utilise un VPN, je tombe déjà souvent sur des CAPTCHA, donc j’aimerais qu’il n’y en ait pas davantage
  Il faut penser à tout le temps humain gaspillé dans ces choses-là
Quand j’ai publié un produit sur ProductHunt il y a environ 5 ans, j’ai déjà reçu des dizaines d’offres de promotion garantissant la première place
Les messages ont afflué littéralement une heure après la publication, et aujourd’hui c’est probablement encore pire
Il est problématique de partir d’une classification arbitraire où il n’existe aucun moyen de vérifier si un utilisateur est un bot ou non, puis de construire une analyse dessus
Si cette classification est fausse, toute l’analyse l’est aussi. Ce qui m’a particulièrement frappé, c’est la partie disant que « les commentaires de bots ont fortement augmenté vers la fin 2022, quand ChatGPT a commencé à être largement utilisé » : l’un des critères de classification est que « les commentaires générés par ChatGPT ont une fréquence élevée de mots comme game-changer, contiennent des caractères difficiles à taper comme des tirets cadratins ou ™, et reprennent tels quels de longs noms de produits ». Autrement dit, on classe comme bots ceux qui se comportent comme ChatGPT, puis on présente comme une découverte intéressante le fait que ce type d’utilisateurs ait augmenté après le lancement de ChatGPT. Il est aussi possible qu’il y ait eu beaucoup de bots avant, mais qu’ils utilisaient d’autres logiciels, se comportaient différemment et n’aient donc pas été détectés
- C’est juste, mais si la classification des bots utilisant ChatGPT est exacte, alors la forte hausse réelle des commentaires générés par ChatGPT est en soi remarquable
  Et si cette classification est correcte, même si l’on sous-estime le nombre total de bots en excluant ceux qui n’utilisent pas ChatGPT, le fait que les commentaires générés par des bots aient largement dépassé ceux de vrais humains reste important. Bien sûr, comme tu le dis, il y a beaucoup de « si » ici, et si les prémisses s’effondrent, la conclusion s’effondre aussi
- L’article commence par des tests d’injection de prompt, et les prémisses sont accompagnées de preuves
  Sinon, il faudrait proposer une méthode de classification alternative ; à défaut, cela paraît malveillant et peu utile
- Ce type de méthode statistique peut être précis pour déterminer si une section de commentaires est remplie de bots, mais il est beaucoup moins précis pour décider si un commentaire individuel est écrit par un bot
La vraie question est de savoir qui se trouve sur ProductHunt
Des clients ? J’en doute. Des indie hackers ? C’est possible. Il faut se demander à qui nous vendons, et s’il y a vraiment un intérêt à lancer sur PH au départ
- Très bon point
  Nous avons lancé sur PH, fini premiers du jour et premiers de la semaine, mais cela n’a presque pas augmenté le nombre de nouveaux clients ; en revanche, nous avons reçu beaucoup de sollicitations entrantes d’investisseurs. C’est utile si l’on est en levée de fonds, mais sinon il faut aller là où se trouvent ses clients. Nos clients n’étaient pas des utilisateurs de PH
L’analyse est excellente, mais ce qui me surprend encore plus, c’est que ProductHunt soit un « vrai » site web
J’avais bloqué PH avec ublacklist il y a longtemps, parce que cela ressemblait à de la promotion SEO / du contenu poubelle, et c’était trop proche de ces sites de type « VS / comparatif / les 5 meilleures apps » avec très peu de contenu. Ce genre de sites apparaît plus vite qu’on ne peut les filtrer à la main. Même après avoir revérifié et compris qu’il ne s’agissait pas de contenu purement généré, si j’étais tombé dessus par hasard dans des résultats de recherche, je ne verrais toujours pas la proposition de valeur
- Je connais plusieurs entreprises qui accordent pas mal d’importance au fait d’obtenir un bon classement sur PH, mais ma réaction a été la même
  Est-ce vraiment un endroit dont les vrais utilisateurs finaux ou les entreprises se soucient ?
La tendance entre bots et humains est un peu inquiétante
Les humains détectés semblent voter et commenter de moins en moins au fil du temps, tandis que les bots augmentent au contraire. Est-ce un autre signe que la théorie de l’Internet mort est juste ?
- Le nom de DIT est mal choisi
  Comme cela ne s’est pas encore produit mais devrait se réaliser à l’avenir, prophétie de l’Internet mort aurait sans doute été une meilleure expression
- À ce sujet, les vrais humains sur HN sont limités à 5 commentaires toutes les 6 heures, mais un acteur malveillant peut contourner cette limite simplement en créant des centaines de comptes
Autrefois, il existait le Web of Trust (WOT), où l’on votait pour des sites web
Un web of trust pour humains pourrait-il aider à se défendre contre les bots ? Si j’ai une dizaine de comptes capables de garantir que je suis bien une vraie personne, et si d’autres personnes peuvent aussi voter pour moi, on peut construire un réseau de confiance. Bien sûr, il faut des graines de départ, mais on peut l’établir assez facilement au moyen de comptes vérifiés ou de connexions et d’interactions sur les réseaux sociaux. X et Meta savent probablement avec assez de certitude quels comptes sont des bots, mais ne semblent pas intéressés par le fait de proposer ce savoir sous forme de service
- L’IA va continuer à s’améliorer
  On n’est probablement pas loin de voir apparaître une IA dont le but serait de bâtir une présence en ligne donnant l’impression qu’une vraie personne se trouve derrière. Elle pourrait même publier des vidéos générées où un faux personnage mène des activités banales. À terme, il faudra sans doute un web of trust, des preuves et des scores de réputation d’agents, avec des éléments comme des interactions en face à face dans le monde réel, un certain soutien des pouvoirs publics, ou des caméras capables d’authentifier les images et les métadonnées. Les personnes qui consomment du contenu et veulent en vérifier l’authenticité devront participer à ce système ou rester auprès des médias établis, et certains pays pourraient créer des lois pour aider leurs citoyens à consommer des informations véridiques. Cela dit, je ne vois pas de moyen de bâtir un réseau de confiance assez solide sans connaître réellement l’identité de l’autre personne. Ce réseau de confiance servira donc aussi aux criminels et aux gouvernements pour trouver des cibles. Le coût social du fait de permettre à l’IA de se faire passer pour un humain est si élevé qu’une loi l’interdisant pourrait en valoir la peine
- Au final, il faut se rappeler que vous n’êtes pas le client : c’est un annonceur qui l’est
  La fonction principale de ces services est de gonfler le nombre d’utilisateurs afin de vendre davantage de publicité
- Un tel système sera emporté et déformé pour répondre à des objectifs de commodité nationale
J’ai quelques posts sur Reddit avec peu de commentaires, et à peu près chaque semaine, un bot basé sur GPT vient laisser une question très convenue du genre : « Waouh ! Voilà qui donne vraiment matière à réflexion, je me demande pourquoi c’est important »
Ça ressemble à une tentative pour me faire injecter davantage de données dans le système. Je ne serais pas surpris que Reddit fasse tourner lui-même ce genre de bots pour stimuler l’engagement
- Il suffit de regarder l’histoire de Reddit
  Avant que les bots soient possibles, la curation se faisait avec de faux comptes gérés manuellement par des humains ; maintenant que les bots sont possibles, je suis fermement convaincu que la majorité des commentaires et des posts des subreddits populaires sont produits par des bots. Et je pense qu’une bonne partie d’entre eux sont directement opérés par Reddit

Des bots, beaucoup trop de bots

Activité de bots mise en évidence sur ProductHunt

Données publiques utilisées pour l’analyse

Méthode d’identification des comptes bots

Évolution de l’activité des bots dans le temps

Inscriptions utilisateurs

Commentaires

Upvotes

Classement

Relation entre classement quotidien et upvotes de bots

Efficacité réelle d’un lancement sur ProductHunt

Analyses restantes et projets liés

À lire aussi

1 commentaires

Avis sur Hacker News