- Projet public de liste noire destiné à bloquer les fermes de contenus générés par l’IA dans uBlock Origin
- Les sites rédigés par l’IA générative sont souvent remplis de publicités et de liens d’affiliation, avec des informations peu fiables
- Les utilisateurs peuvent s’abonner au fichier
list.txt ou ajouter directement l’URL pour appliquer la liste de blocage
- Les caractéristiques et critères d’identification des sites générés par l’IA sont détaillés, et la liste peut être étendue via les Pull Requests des contributeurs
- Peut servir d’outil pratique pour réduire la pollution des résultats de recherche par les contenus IA
Aperçu du projet
- AI uBlock Blacklist fournit une liste de blocage des contenus générés par l’IA utilisable avec l’extension uBlock Origin
- Les sites rédigés par l’IA générative sont ajoutés manuellement à la liste à mesure qu’ils sont repérés lors de la navigation
- Aucun outil d’automatisation n’est utilisé, car il est explicitement indiqué qu’il est difficile de déterminer par algorithme si un contenu est généré par l’IA
Objectif du projet
- Les sites rédigés par l’IA générative ont peu d’informations utiles et une structure pensée pour monétiser via la publicité et les liens d’affiliation
- Les contenus rédigés par l’IA peuvent être publiés en masse sans vérification et contenir des informations dangereuses
- Il est mentionné, par exemple, la possibilité de conseils dangereux comme provoquer un court-circuit, exécuter la commande
rm -rf /, ou mélanger de l’eau de Javel et de l’ammoniaque
- Pour ces raisons, les contenus générés par l’IA ne sont pas fiables et doivent être bloqués
- L’auteur étant italien, de nombreux sites en italien sont inclus, et les contributions pour ajouter des sites dans d’autres langues sont les bienvenues
Comment ajouter un site web
- Les utilisateurs sans connaissances techniques peuvent signaler des sites suspects via une GitHub Issue
- En cas d’ajout direct via Pull Request, il est possible de bloquer au niveau du domaine ou d’un chemin de blog spécifique
- Exemple :
||example.com/@slopUser^$doc ou au format ||example.com^$doc
- Lorsqu’une organisation vendant des services de SEO et de marketing digital gère plusieurs fermes de contenus, il est recommandé d’ajouter aussi les sites associés
Critères d’identification des fermes de contenus IA
- Introductions et conclusions inutiles, titres exagérés comme ‘Comprehensive Guide’, absence de liens externes et de sources, nombreux liens d’affiliation
- Des milliers d’articles en peu de temps, informations erronées (hallucinations), articles publiés après novembre 2022, images et logos générés par l’IA
- Texte mal mis en forme, syntaxe Markdown non rendue, longs passages hors sujet, présence répétée en tête des résultats de recherche
- Absence de coordonnées, page de présentation vague, contenus faisant l’éloge de l’IA sont également présentés comme des caractéristiques majeures
Utilisation des Google Dorks
- Lorsque des phrases générées par l’IA sont copiées telles quelles puis publiées, il est possible de repérer des pages IA en recherchant des formulations spécifiques
- Exemples :
"Sure! Here's an article about" (anglais), "Certo! Ecco un articolo" (italien)
- Les pages contenant ce type de formulation sont ajoutées à la liste noire au niveau du domaine entier
Projets similaires
Aucun commentaire pour le moment.