6 points par GN⁺ 2026-02-23 | 1 commentaires | Partager sur WhatsApp
  • Projet public de liste noire destiné à bloquer les fermes de contenus générés par l’IA dans uBlock Origin
  • Les sites rédigés par l’IA générative sont souvent remplis de publicités et de liens d’affiliation, avec des informations peu fiables
  • Les utilisateurs peuvent s’abonner au fichier list.txt ou ajouter directement l’URL pour appliquer la liste de blocage
  • Les caractéristiques et critères d’identification des sites générés par l’IA sont détaillés, et la liste peut être étendue via les Pull Requests des contributeurs
  • Peut servir d’outil pratique pour réduire la pollution des résultats de recherche par les contenus IA

Aperçu du projet

  • AI uBlock Blacklist fournit une liste de blocage des contenus générés par l’IA utilisable avec l’extension uBlock Origin
  • Les sites rédigés par l’IA générative sont ajoutés manuellement à la liste à mesure qu’ils sont repérés lors de la navigation
  • Aucun outil d’automatisation n’est utilisé, car il est explicitement indiqué qu’il est difficile de déterminer par algorithme si un contenu est généré par l’IA

Objectif du projet

  • Les sites rédigés par l’IA générative ont peu d’informations utiles et une structure pensée pour monétiser via la publicité et les liens d’affiliation
  • Les contenus rédigés par l’IA peuvent être publiés en masse sans vérification et contenir des informations dangereuses
    • Il est mentionné, par exemple, la possibilité de conseils dangereux comme provoquer un court-circuit, exécuter la commande rm -rf /, ou mélanger de l’eau de Javel et de l’ammoniaque
  • Pour ces raisons, les contenus générés par l’IA ne sont pas fiables et doivent être bloqués
  • L’auteur étant italien, de nombreux sites en italien sont inclus, et les contributions pour ajouter des sites dans d’autres langues sont les bienvenues

Comment ajouter un site web

  • Les utilisateurs sans connaissances techniques peuvent signaler des sites suspects via une GitHub Issue
  • En cas d’ajout direct via Pull Request, il est possible de bloquer au niveau du domaine ou d’un chemin de blog spécifique
    • Exemple : ||example.com/@slopUser^$doc ou au format ||example.com^$doc
  • Lorsqu’une organisation vendant des services de SEO et de marketing digital gère plusieurs fermes de contenus, il est recommandé d’ajouter aussi les sites associés

Critères d’identification des fermes de contenus IA

  • Introductions et conclusions inutiles, titres exagérés comme ‘Comprehensive Guide’, absence de liens externes et de sources, nombreux liens d’affiliation
  • Des milliers d’articles en peu de temps, informations erronées (hallucinations), articles publiés après novembre 2022, images et logos générés par l’IA
  • Texte mal mis en forme, syntaxe Markdown non rendue, longs passages hors sujet, présence répétée en tête des résultats de recherche
  • Absence de coordonnées, page de présentation vague, contenus faisant l’éloge de l’IA sont également présentés comme des caractéristiques majeures

Utilisation des Google Dorks

  • Lorsque des phrases générées par l’IA sont copiées telles quelles puis publiées, il est possible de repérer des pages IA en recherchant des formulations spécifiques
    • Exemples : "Sure! Here's an article about" (anglais), "Certo! Ecco un articolo" (italien)
  • Les pages contenant ce type de formulation sont ajoutées à la liste noire au niveau du domaine entier

Projets similaires

  • Le projet uBlockOrigin & uBlacklist Huge AI Blocklist masque tous les résultats liés à l’IA
  • Ce projet s’en distingue en conservant les outils IA légitimes tout en bloquant uniquement les fermes de contenus IA

1 commentaires

 
GN⁺ 2026-02-23
Avis sur Hacker News
  • L’idée semblait intéressante et j’ai moi aussi voulu contribuer à la liste, mais je me suis arrêté en voyant la formule « Cry about it » dans la FAQ
    Je pense qu’une telle attitude est inappropriée pour gérer une blacklist publique. Cela donne l’impression que le mainteneur se croit infaillible

    • Mon site personnel a connu quelque chose de similaire. Des amis n’arrivaient plus à y accéder, donc je pensais à un problème de serveur, mais mon site figurait dans une blocklist de PiHole
      J’ai demandé le retrait, mais je n’ai jamais reçu de réponse, et le site est toujours bloqué
    • Certains estiment que ce genre de réclamation est aussi peu fiable qu’une demande de levée de ban VAC
    • Avec une telle attitude, ce projet a peu de chances d’être encore maintenu dans 5 ans. Ce genre de chose devrait être géré par une équipe éprouvée comme Easylist
    • D’autres ont rappelé qu’il s’agit d’une liste uBlock Origin personnelle
    • Mais cela semble avoir été corrigé depuis. Le commit correspondant est visible ici
  • Avec une approche plus réaliste, une nouvelle liste est apparue pour bloquer uniquement les content farms et les sites de faible qualité
    Cela semble être une meilleure alternative aux listes de blocage IA trop larges
    Voir uBlockOrigin-HUGE-AI-Blocklist
    La discussion associée est aussi active sur Reddit

    • L’ancienne liste ressemble davantage à une simple liste de détestation. Elle inclut même des sites qui publient ouvertement du contenu IA
    • Le fait que la liste des sites soit organisée dans un tableur est intéressant. Après être tombé autrefois sur un groupe média saturé de SEO, j’ai cherché des sites similaires pour les ajouter à uBlacklist
      J’ai partagé le processus de recherche et la liste dans mon gist
    • En revanche, cette liste n’a pas été mise à jour depuis 5 mois
    • Certains disent avoir ajouté les deux listes
  • Avec le temps, le problème des faux positifs devient de plus en plus grave. Des domaines sont revendus, des sites changent d’orientation ou certains contenus disparaissent
    Avec une attitude du type « Cry about it », cela ne devient qu’un trou noir diffamatoire. Il faut au minimum un mécanisme d’expiration ou de réexamen

  • uBlock Origin dispose déjà d’une liste de blocage des widgets IA. C’est grâce à cette fonction que j’utilise encore Firefox. Sur Chromium, cela ne sert à rien

  • Je suis d’accord avec le principe, mais une attitude du type « écrire avec l’IA, c’est un problème de compétence » est injuste envers les utilisateurs de Grammarly ou les non-anglophones

    • Les groupes qualifiés de « skill issue » n’ont jamais été connus pour ne pas s’en plaindre
    • Personnellement, je trouve les phrases en anglais maladroit ou les textes au style traduit plus humains et plus variés que les textes générés par IA
      Quoi qu’il en soit, ce projet vise des content farms plutôt que des auteurs individuels, donc ce n’est pas exactement le même sujet
    • Mais cet auteur ne retire pas des domaines de la liste même quand leur propriétaire change. Par exemple, Whitehouse.com était autrefois un site porno, mais ce n’est plus le cas aujourd’hui
    • Certains disent que si l’on ne maîtrise pas bien l’anglais, il suffit d’utiliser un traducteur automatique
    • Dans mon travail, j’utilise Grammarly pour respecter les directives de marque. Je ne m’en sers pas pour transformer mon style en prose d’IA.
      L’auteur semble plutôt viser les fermes de bots IA
  • Malgré tout, Internet n’a pas encore vu apparaître de whitelist

    • Avec la fin de l’ère centrée sur les apps, cette menace semble écartée
  • J’utilise un outil qui détermine si un texte a été écrit par une IA à partir de tropes, puis reconstruit le prompt d’origine
    tropes.fyi/aidr

  • Cette orientation est bonne. J’aimerais qu’il soit possible de bloquer davantage de catégories de sites
    En entreprise, on classe les sites et on contrôle l’accès via des services de réputation d’URL
    Je pense que les particuliers aussi ont besoin de ce type d’infrastructure financée par la foule
    Par exemple, ce serait bien d’avoir un fonds non lucratif d’un milliard de dollars par an pour un écosystème de confiance autour des navigateurs, VPN, DNS, e-mail, autorités de certification, etc.

  • Il existe aussi des extensions comme botblock.ai qui détectent les réponses IA sur Twitter

    • Mais certains rétorquent que le mieux est simplement de ne pas utiliser Twitter
    • En pratique, cela ne semble pas très bien fonctionner. Par exemple, un compte manifestement piloté par IA est jugé humain à 100 %
      Image de preuve
    • Twitter est déjà devenu une plateforme publicitaire à 8 $, avec les comptes payants mis en avant en haut
  • Quand un site affiche trop de publicité, je préfère simplement le fermer. Si l’équilibre publicitaire reste raisonnable, je continue à l’utiliser
    Je suis fatigué de la guerre des adblockers. À chaque fois, un nouveau nom de plugin apparaît, et cela ressemble à une compétition sans fin

    • Le vrai problème, c’est que la publicité sert souvent de vecteur de malware