- Projet public de liste noire destiné à bloquer les fermes de contenus générés par l’IA dans uBlock Origin
- Les sites rédigés par l’IA générative sont souvent remplis de publicités et de liens d’affiliation, avec des informations peu fiables
- Les utilisateurs peuvent s’abonner au fichier
list.txt ou ajouter directement l’URL pour appliquer la liste de blocage
- Les caractéristiques et critères d’identification des sites générés par l’IA sont détaillés, et la liste peut être étendue via les Pull Requests des contributeurs
- Peut servir d’outil pratique pour réduire la pollution des résultats de recherche par les contenus IA
Aperçu du projet
- AI uBlock Blacklist fournit une liste de blocage des contenus générés par l’IA utilisable avec l’extension uBlock Origin
- Les sites rédigés par l’IA générative sont ajoutés manuellement à la liste à mesure qu’ils sont repérés lors de la navigation
- Aucun outil d’automatisation n’est utilisé, car il est explicitement indiqué qu’il est difficile de déterminer par algorithme si un contenu est généré par l’IA
Objectif du projet
- Les sites rédigés par l’IA générative ont peu d’informations utiles et une structure pensée pour monétiser via la publicité et les liens d’affiliation
- Les contenus rédigés par l’IA peuvent être publiés en masse sans vérification et contenir des informations dangereuses
- Il est mentionné, par exemple, la possibilité de conseils dangereux comme provoquer un court-circuit, exécuter la commande
rm -rf /, ou mélanger de l’eau de Javel et de l’ammoniaque
- Pour ces raisons, les contenus générés par l’IA ne sont pas fiables et doivent être bloqués
- L’auteur étant italien, de nombreux sites en italien sont inclus, et les contributions pour ajouter des sites dans d’autres langues sont les bienvenues
Comment ajouter un site web
- Les utilisateurs sans connaissances techniques peuvent signaler des sites suspects via une GitHub Issue
- En cas d’ajout direct via Pull Request, il est possible de bloquer au niveau du domaine ou d’un chemin de blog spécifique
- Exemple :
||example.com/@slopUser^$doc ou au format ||example.com^$doc
- Lorsqu’une organisation vendant des services de SEO et de marketing digital gère plusieurs fermes de contenus, il est recommandé d’ajouter aussi les sites associés
Critères d’identification des fermes de contenus IA
- Introductions et conclusions inutiles, titres exagérés comme ‘Comprehensive Guide’, absence de liens externes et de sources, nombreux liens d’affiliation
- Des milliers d’articles en peu de temps, informations erronées (hallucinations), articles publiés après novembre 2022, images et logos générés par l’IA
- Texte mal mis en forme, syntaxe Markdown non rendue, longs passages hors sujet, présence répétée en tête des résultats de recherche
- Absence de coordonnées, page de présentation vague, contenus faisant l’éloge de l’IA sont également présentés comme des caractéristiques majeures
Utilisation des Google Dorks
- Lorsque des phrases générées par l’IA sont copiées telles quelles puis publiées, il est possible de repérer des pages IA en recherchant des formulations spécifiques
- Exemples :
"Sure! Here's an article about" (anglais), "Certo! Ecco un articolo" (italien)
- Les pages contenant ce type de formulation sont ajoutées à la liste noire au niveau du domaine entier
Projets similaires
1 commentaires
Avis sur Hacker News
L’idée semblait intéressante et j’ai moi aussi voulu contribuer à la liste, mais je me suis arrêté en voyant la formule « Cry about it » dans la FAQ
Je pense qu’une telle attitude est inappropriée pour gérer une blacklist publique. Cela donne l’impression que le mainteneur se croit infaillible
J’ai demandé le retrait, mais je n’ai jamais reçu de réponse, et le site est toujours bloqué
Avec une approche plus réaliste, une nouvelle liste est apparue pour bloquer uniquement les content farms et les sites de faible qualité
Cela semble être une meilleure alternative aux listes de blocage IA trop larges
Voir uBlockOrigin-HUGE-AI-Blocklist
La discussion associée est aussi active sur Reddit
J’ai partagé le processus de recherche et la liste dans mon gist
Avec le temps, le problème des faux positifs devient de plus en plus grave. Des domaines sont revendus, des sites changent d’orientation ou certains contenus disparaissent
Avec une attitude du type « Cry about it », cela ne devient qu’un trou noir diffamatoire. Il faut au minimum un mécanisme d’expiration ou de réexamen
uBlock Origin dispose déjà d’une liste de blocage des widgets IA. C’est grâce à cette fonction que j’utilise encore Firefox. Sur Chromium, cela ne sert à rien
Je suis d’accord avec le principe, mais une attitude du type « écrire avec l’IA, c’est un problème de compétence » est injuste envers les utilisateurs de Grammarly ou les non-anglophones
Quoi qu’il en soit, ce projet vise des content farms plutôt que des auteurs individuels, donc ce n’est pas exactement le même sujet
L’auteur semble plutôt viser les fermes de bots IA
Malgré tout, Internet n’a pas encore vu apparaître de whitelist
J’utilise un outil qui détermine si un texte a été écrit par une IA à partir de tropes, puis reconstruit le prompt d’origine
tropes.fyi/aidr
Cette orientation est bonne. J’aimerais qu’il soit possible de bloquer davantage de catégories de sites
En entreprise, on classe les sites et on contrôle l’accès via des services de réputation d’URL
Je pense que les particuliers aussi ont besoin de ce type d’infrastructure financée par la foule
Par exemple, ce serait bien d’avoir un fonds non lucratif d’un milliard de dollars par an pour un écosystème de confiance autour des navigateurs, VPN, DNS, e-mail, autorités de certification, etc.
Il existe aussi des extensions comme botblock.ai qui détectent les réponses IA sur Twitter
Image de preuve
Quand un site affiche trop de publicité, je préfère simplement le fermer. Si l’équilibre publicitaire reste raisonnable, je continue à l’utiliser
Je suis fatigué de la guerre des adblockers. À chaque fois, un nouveau nom de plugin apparaît, et cela ressemble à une compétition sans fin