65 % des publications sur Hacker News affichent un sentiment négatif, et elles obtiennent de meilleures performances
(philippdubach.com)- Une étude d’analyse de sentiment des publications sur Hacker News a classé environ 65 % d’entre elles comme négatives, et ces publications ont enregistré en moyenne de meilleurs scores
- Le score moyen des publications négatives est de 35,6 points, contre 28 points de moyenne générale, soit une prime de performance d’environ 27 %
- L’analyse a porté sur 32 000 publications et 340 000 commentaires, avec un biais négatif cohérent observé dans 6 types de modèles
- Les modèles utilisés incluent DistilBERT, BERT Multi, RoBERTa, Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B, et le tableau de bord final utilise les résultats de DistilBERT pour des raisons d’efficacité
- La négativité observée relève surtout de la critique constructive — critiques techniques, mécontentement vis-à-vis du secteur, frustration liée aux API — ce qui suggère une corrélation entre engagement et caractère polémique
Résultats de l’analyse de sentiment sur Hacker News
- Le score moyen des publications sur Hacker News est de 28 points, tandis que les publications au sentiment négatif atteignent en moyenne 35,6 points, ce qui traduit un engagement plus élevé
- Les performances des publications négatives sont 27 % supérieures à la moyenne générale
- L’étude porte sur la dynamique d’attention sur HN (Hacker News), en incluant notamment courbes de décroissance, attachement préférentiel, probabilité de survie et prédiction de l’engagement initial
- Le préprint associé est disponible sur SSRN
Données et configuration des modèles
- L’analyse porte sur 32 000 publications et 340 000 commentaires
- Environ 65 % de l’ensemble a été classé comme négatif
- Le chercheur mentionne la possibilité que le classificateur soit biaisé vers le négatif, mais la même tendance a été confirmée sur les 6 modèles
- Les modèles utilisés sont DistilBERT, BERT Multi, RoBERTa (basés sur des transformeurs) et Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B (basés sur des LLM)
- La distribution des sentiments varie selon les modèles, mais le biais vers le négatif reste commun à tous
- Le tableau de bord final utilise les résultats de DistilBERT, qui fonctionne efficacement dans un pipeline basé sur Cloudflare
Définition et caractéristiques du sentiment négatif
- Les contenus classés comme « négatifs » incluent critiques techniques, scepticisme face aux annonces, mécontentement envers les pratiques du secteur et frustration liée aux API
- La majeure partie de cette négativité relève de critiques de fond plutôt que d’attaques personnelles
- La critique technique est d’une nature différente de l’attaque personnelle
- Le chercheur reconnaît les deux hypothèses : la négativité provoque-t-elle l’engagement, ou bien les contenus polémiques attirent-ils à la fois des formulations négatives et l’attention ?
Plan de publication à venir
- Le chercheur prévoit de publier prochainement l’ensemble du code, le dataset et un tableau de bord pour les archiveurs HN
2 commentaires
Les gens s’intéressent davantage aux ragots et au bruit. [included généralisation hâtive]
Avis sur Hacker News
Je pense que le classifieur de l’OP repose sur deux hypothèses qui influencent les résultats
Je suis en train d’écrire un commentaire critique, mais ça ne veut pas forcément dire qu’il est « négatif ». Au contraire, c’est parce que les données et les conclusions de l’OP sont claires qu’une critique est possible. Ce type de critique constructive est justement, à mon avis, la preuve d’une bonne discussion
Tu as partiellement raison sur le fait que l’attitude sceptique soit classée comme négative. Les données d’entraînement SST-2 considèrent l’évaluation critique comme négative. Mais ici, « négatif » signifie évaluatif, pas hostile. La culture critique de HN est lue comme négative par ce genre de modèle, mais c’est un phénomène naturel dans le contexte du discours technique.
La neutralité existe comme un score continu autour de 0,5. Les utilisateurs de HN ont tendance à adopter des positions tranchées, d’où une distribution polarisée. Ça vaudrait le coup d’essayer un modèle à trois classes à l’avenir.
Ton commentaire est critique, mais relève d’un discours de haute qualité. Je vois la négativité de HN non pas comme de l’hostilité, mais comme une critique constructive qui favorise la participation
Lien vers le modèle DistilBERT SST-2
Les posts négatifs que j’ai publiés ont eu de meilleures réactions que les posts neutres ou positifs.
Le titre « Richard Stallman is Dead » a eu le meilleur taux de clics, et un autre modèle prédit la probabilité que le ratio commentaires/votes dépasse 0,5. Le clickbait, les débats de genre et les sujets liés à l’automobile étaient particulièrement performants.
Une moyenne de 35 points me paraît difficile à croire. Avant, la moyenne tournait plutôt autour de 8, donc je suis curieux du critère d’échantillonnage
Il est possible que les posts à 0 point aient été omis, ce qui aurait pu faire monter la moyenne. Merci pour le retour, je vais vérifier ça avant la publication de l’article. Ton classifieur est intéressant aussi
J’observe un phénomène similaire dans les commentaires. Les commentaires courts et sarcastiques marchent bien mieux que les longues analyses.
C’est frustrant de voir des commentaires longs et soignés ignorés, alors qu’un message court écrit à la volée peut « exploser »
HN n’aime pas les blagues, sauf si elles s’accompagnent d’une explication
En tenant un blog, on ressentirait peut-être mieux ce critère d’engagement
Si « négatif » inclut la critique technique, le mécontentement vis-à-vis de l’industrie ou la frustration envers les API, alors la plupart des discussions sur HN entrent dans cette catégorie.
Répondre seulement « j’aime bien » à un post promotionnel sur OpenAI n’a aucun intérêt ; c’est l’analyse critique qui constitue une participation utile.
À l’inverse, je pense qu’un post populaire sans commentaires est plutôt la preuve que le site fonctionne bien
Nous nous filtrons nous-mêmes pour privilégier les réactions négatives. Le contenu positif est autosuffisant et n’incite pas à réagir, alors que le contenu négatif déclenche l’interaction
C’est pour ça qu’on est plus attiré par les mauvaises nouvelles, tandis que les bonnes sont simplement passées en scrollant. C’est le cœur de l’économie de l’attention
La critique technique n’est pas la même chose qu’une attaque personnelle. La négativité sur HN relève en grande partie d’une critique constructive.
Quand le cynisme devient excessif, il y a toujours quelqu’un pour se plaindre des plaintes.
Personnellement, je préfère qu’on me dise « tu as quelque chose coincé entre les dents » plutôt qu’on me fasse des compliments
La modération de HN retire rapidement les contenus hostiles, donc ce qui reste est en majorité de la critique productive.
Ce qui est intéressant, c’est que cette « négativité » est associée à un taux d’engagement supérieur de 27 %. Autrement dit, la communauté technique valorise davantage la critique que la promotion
Je prévois de préciser dans l’article que le « sentiment négatif » désigne, selon le modèle SST-2, une critique évaluative, et non des propos toxiques
À l’époque où l’accès à l’API Reddit était encore possible, j’ai fait une expérience avec l’app lecteur rif pour bloquer les subreddits à tonalité négative.
Après en avoir bloqué plusieurs centaines, il ne restait plus que du contenu positif sur les animaux ou les hobbies. J’ai réalisé à quel point Reddit est centré sur la négativité, et en même temps, une fois cette dimension retirée, ça devenait assez ennuyeux
Lien vers la liste de blocage
Ces posts donnent l’impression de bots qui parlent à des bots. Je soupçonne Reddit de laisser cette structure se développer pour augmenter l’exposition à la publicité
Sur Internet, il n’y a guère de combinaison plus puissante que le fait de se plaindre ou corriger quelqu’un.
En tant qu’utilisateur en ESL (English as a Second Language), l’un des premiers termes d’Internet que j’ai appris était « flamewar »
Selon l’article, l’inégalité d’attention sur HN est très forte. Avec un coefficient de Gini de 0,89, elle est plus élevée que sur Twitter
Cela vient probablement de la structure d’exposition de HN. Les nouveaux posts commencent sur /newest, et s’ils ne captent pas l’attention d’une petite minorité au début, ils disparaissent pratiquement.
Contrairement à Reddit, où il existe une exposition par défaut, HN exige de franchir ce premier filtre pour arriver en page principale
Les ingénieurs ont pour métier de résoudre des problèmes, donc ils développent naturellement une pensée critique.
Dans les salons professionnels, les ingénieurs abordaient les choses les bras croisés et avec froideur, tandis que la communauté maker débordait d’énergie positive.
Au fond, c’est la différence entre « le verre est à moitié vide » et « le verre est à moitié plein »