Liste noire AI uBlock

(github.com/alvi-se)

6 points par GN⁺ 2026-02-23 | 1 commentaires | Partager sur WhatsApp

Projet public de liste noire destiné à bloquer les fermes de contenus générés par l’IA dans uBlock Origin
Les sites rédigés par l’IA générative sont souvent remplis de publicités et de liens d’affiliation, avec des informations peu fiables
Les utilisateurs peuvent s’abonner au fichier list.txt ou ajouter directement l’URL pour appliquer la liste de blocage
Les caractéristiques et critères d’identification des sites générés par l’IA sont détaillés, et la liste peut être étendue via les Pull Requests des contributeurs
Peut servir d’outil pratique pour réduire la pollution des résultats de recherche par les contenus IA

Aperçu du projet

AI uBlock Blacklist fournit une liste de blocage des contenus générés par l’IA utilisable avec l’extension uBlock Origin
- Les utilisateurs peuvent cliquer sur le lien d’abonnement Adblock Plus ou ajouter directement https://raw.githubusercontent.com/alvi-se/ai-ublock-blacklist/…
Les sites rédigés par l’IA générative sont ajoutés manuellement à la liste à mesure qu’ils sont repérés lors de la navigation
Aucun outil d’automatisation n’est utilisé, car il est explicitement indiqué qu’il est difficile de déterminer par algorithme si un contenu est généré par l’IA

Objectif du projet

Les sites rédigés par l’IA générative ont peu d’informations utiles et une structure pensée pour monétiser via la publicité et les liens d’affiliation
Les contenus rédigés par l’IA peuvent être publiés en masse sans vérification et contenir des informations dangereuses
- Il est mentionné, par exemple, la possibilité de conseils dangereux comme provoquer un court-circuit, exécuter la commande rm -rf /, ou mélanger de l’eau de Javel et de l’ammoniaque
Pour ces raisons, les contenus générés par l’IA ne sont pas fiables et doivent être bloqués
L’auteur étant italien, de nombreux sites en italien sont inclus, et les contributions pour ajouter des sites dans d’autres langues sont les bienvenues

Comment ajouter un site web

Les utilisateurs sans connaissances techniques peuvent signaler des sites suspects via une GitHub Issue
En cas d’ajout direct via Pull Request, il est possible de bloquer au niveau du domaine ou d’un chemin de blog spécifique
- Exemple : ||example.com/@slopUser^$doc ou au format ||example.com^$doc
Lorsqu’une organisation vendant des services de SEO et de marketing digital gère plusieurs fermes de contenus, il est recommandé d’ajouter aussi les sites associés

Critères d’identification des fermes de contenus IA

Introductions et conclusions inutiles, titres exagérés comme ‘Comprehensive Guide’, absence de liens externes et de sources, nombreux liens d’affiliation
Des milliers d’articles en peu de temps, informations erronées (hallucinations), articles publiés après novembre 2022, images et logos générés par l’IA
Texte mal mis en forme, syntaxe Markdown non rendue, longs passages hors sujet, présence répétée en tête des résultats de recherche
Absence de coordonnées, page de présentation vague, contenus faisant l’éloge de l’IA sont également présentés comme des caractéristiques majeures

Utilisation des Google Dorks

Lorsque des phrases générées par l’IA sont copiées telles quelles puis publiées, il est possible de repérer des pages IA en recherchant des formulations spécifiques
- Exemples : "Sure! Here's an article about" (anglais), "Certo! Ecco un articolo" (italien)
Les pages contenant ce type de formulation sont ajoutées à la liste noire au niveau du domaine entier

Projets similaires

Le projet uBlockOrigin & uBlacklist Huge AI Blocklist masque tous les résultats liés à l’IA
Ce projet s’en distingue en conservant les outils IA légitimes tout en bloquant uniquement les fermes de contenus IA

1 commentaires

GN⁺ 2026-02-23

Avis sur Hacker News

L’idée semblait intéressante et j’ai moi aussi voulu contribuer à la liste, mais je me suis arrêté en voyant la formule « Cry about it » dans la FAQ
Je pense qu’une telle attitude est inappropriée pour gérer une blacklist publique. Cela donne l’impression que le mainteneur se croit infaillible
- Mon site personnel a connu quelque chose de similaire. Des amis n’arrivaient plus à y accéder, donc je pensais à un problème de serveur, mais mon site figurait dans une blocklist de PiHole
  J’ai demandé le retrait, mais je n’ai jamais reçu de réponse, et le site est toujours bloqué
- Certains estiment que ce genre de réclamation est aussi peu fiable qu’une demande de levée de ban VAC
- Avec une telle attitude, ce projet a peu de chances d’être encore maintenu dans 5 ans. Ce genre de chose devrait être géré par une équipe éprouvée comme Easylist
- D’autres ont rappelé qu’il s’agit d’une liste uBlock Origin personnelle
- Mais cela semble avoir été corrigé depuis. Le commit correspondant est visible ici
Avec une approche plus réaliste, une nouvelle liste est apparue pour bloquer uniquement les content farms et les sites de faible qualité
Cela semble être une meilleure alternative aux listes de blocage IA trop larges
Voir uBlockOrigin-HUGE-AI-Blocklist
La discussion associée est aussi active sur Reddit
- L’ancienne liste ressemble davantage à une simple liste de détestation. Elle inclut même des sites qui publient ouvertement du contenu IA
- Le fait que la liste des sites soit organisée dans un tableur est intéressant. Après être tombé autrefois sur un groupe média saturé de SEO, j’ai cherché des sites similaires pour les ajouter à uBlacklist
  J’ai partagé le processus de recherche et la liste dans mon gist
- En revanche, cette liste n’a pas été mise à jour depuis 5 mois
- Certains disent avoir ajouté les deux listes
Avec le temps, le problème des faux positifs devient de plus en plus grave. Des domaines sont revendus, des sites changent d’orientation ou certains contenus disparaissent
Avec une attitude du type « Cry about it », cela ne devient qu’un trou noir diffamatoire. Il faut au minimum un mécanisme d’expiration ou de réexamen
uBlock Origin dispose déjà d’une liste de blocage des widgets IA. C’est grâce à cette fonction que j’utilise encore Firefox. Sur Chromium, cela ne sert à rien
Je suis d’accord avec le principe, mais une attitude du type « écrire avec l’IA, c’est un problème de compétence » est injuste envers les utilisateurs de Grammarly ou les non-anglophones
- Les groupes qualifiés de « skill issue » n’ont jamais été connus pour ne pas s’en plaindre
- Personnellement, je trouve les phrases en anglais maladroit ou les textes au style traduit plus humains et plus variés que les textes générés par IA
  Quoi qu’il en soit, ce projet vise des content farms plutôt que des auteurs individuels, donc ce n’est pas exactement le même sujet
- Mais cet auteur ne retire pas des domaines de la liste même quand leur propriétaire change. Par exemple, Whitehouse.com était autrefois un site porno, mais ce n’est plus le cas aujourd’hui
- Certains disent que si l’on ne maîtrise pas bien l’anglais, il suffit d’utiliser un traducteur automatique
- Dans mon travail, j’utilise Grammarly pour respecter les directives de marque. Je ne m’en sers pas pour transformer mon style en prose d’IA.
  L’auteur semble plutôt viser les fermes de bots IA
Malgré tout, Internet n’a pas encore vu apparaître de whitelist
- Avec la fin de l’ère centrée sur les apps, cette menace semble écartée
J’utilise un outil qui détermine si un texte a été écrit par une IA à partir de tropes, puis reconstruit le prompt d’origine
tropes.fyi/aidr
- Certains ont trouvé l’idée amusante et ont partagé un exemple ainsi qu’un autre exemple
Cette orientation est bonne. J’aimerais qu’il soit possible de bloquer davantage de catégories de sites
En entreprise, on classe les sites et on contrôle l’accès via des services de réputation d’URL
Je pense que les particuliers aussi ont besoin de ce type d’infrastructure financée par la foule
Par exemple, ce serait bien d’avoir un fonds non lucratif d’un milliard de dollars par an pour un écosystème de confiance autour des navigateurs, VPN, DNS, e-mail, autorités de certification, etc.
Il existe aussi des extensions comme botblock.ai qui détectent les réponses IA sur Twitter
- Mais certains rétorquent que le mieux est simplement de ne pas utiliser Twitter
- En pratique, cela ne semble pas très bien fonctionner. Par exemple, un compte manifestement piloté par IA est jugé humain à 100 %
  Image de preuve
- Twitter est déjà devenu une plateforme publicitaire à 8 $, avec les comptes payants mis en avant en haut
Quand un site affiche trop de publicité, je préfère simplement le fermer. Si l’équilibre publicitaire reste raisonnable, je continue à l’utiliser
Je suis fatigué de la guerre des adblockers. À chaque fois, un nouveau nom de plugin apparaît, et cela ressemble à une compétition sans fin
- Le vrai problème, c’est que la publicité sert souvent de vecteur de malware

Liste noire AI uBlock

Aperçu du projet

Objectif du projet

Comment ajouter un site web

Critères d’identification des fermes de contenus IA

Utilisation des Google Dorks

Projets similaires

À lire aussi

1 commentaires

Avis sur Hacker News