- Une extension de navigateur conçue pour éviter la pollution par les contenus générés par l’IA, pensée pour ne rechercher que du contenu rédigé par des humains
- Utilise la Google Search API pour ne renvoyer que des résultats publiés avant le 30 novembre 2022
- Disponible au téléchargement et à l’usage sur Chrome et Firefox
- Repose sur le constat d’une explosion des textes, images et vidéos générés par l’IA sur Internet depuis l’arrivée de ChatGPT et d’autres grands modèles de langage
- Offre un environnement de recherche fiable aux utilisateurs qui souhaitent accéder uniquement à des contenus créés par des humains
Présentation de Slop Evader
- Slop Evader est une extension de navigateur destinée à éviter les contenus générés par l’IA, disponible sur Chrome et Firefox
- Les utilisateurs peuvent installer l’extension pour filtrer les contenus produits par l’IA
- Cet outil n’affiche dans les résultats de recherche que des contenus créés avant la sortie de ChatGPT (30 novembre 2022)
- Il s’appuie sur la Google Search API pour limiter les résultats selon la date
Contexte de développement
- Depuis la sortie de ChatGPT et d’autres grands modèles de langage (LLM), la quantité de textes, d’images et de vidéos créés par l’IA sur Internet a fortement augmenté
- Slop Evader a été conçu pour éviter cette pollution de l’information en ligne causée par les contenus générés par l’IA
- Grâce à cette extension, les utilisateurs peuvent ne parcourir que des contenus directement rédigés ou produits par des humains
Fonctionnalités et portée
- En limitant les résultats de recherche aux contenus publiés avant le 30 novembre 2022, l’outil réduit au minimum l’impact des contenus générés par l’IA
- Basé sur la Google Search API, il conserve une expérience proche de celle d’un moteur de recherche classique
- Face à la diffusion rapide des contenus IA, il sert d’outil garantissant un accès à l’information centré sur l’humain
1 commentaires
Avis Hacker News
Il s’agit apparemment d’un outil qui ne recherche que du contenu antérieur à la sortie de ChatGPT (30 novembre 2022)
Mais la dégradation de la qualité de la recherche semble avoir commencé bien avant
Ce n’était pas seulement Google : tous les moteurs de recherche se dégradaient déjà, et l’IA n’a fait qu’accélérer cette baisse
Le problème venait surtout de la greffe forcée de l’interface de recherche YouTube sur la recherche Google
Ce que veulent les utilisateurs, ce ne sont pas des « xyz recherchés par d’autres personnes », mais des résultats précis ; à la place, les pubs et les éléments conçus pour attirer le clic n’ont fait qu’accentuer la confusion de l’interface
On peut y désactiver complètement les fonctions IA
Il compte actuellement environ 61 000 membres, avec une croissance de 2 000 par mois (lien vers les stats)
Vers 2020, il y avait déjà beaucoup de pages SEO remplies de contenu récupéré ou de spam de mots-clés
On voyait aussi beaucoup de textes produits par de simples modèles de langage ou des chaînes de Markov
Le commentaire se moque du vocabulaire corporate qui enrobe la dégradation du quotidien des gens
Principalement pour chercher de la documentation liée à la programmation, et les résultats restent assez précis
C’est peut-être parce que mes recherches sont simples, mais DDG reste encore utilisable
Quelqu’un a dit : « Nous exploitons des “tokens à faible bruit de fond”, comme l’acier à faible radioactivité (low-background steel) d’après la Seconde Guerre mondiale », et cette image ne me sort plus de la tête
Le sujet est résumé dans Latent Space
Je ne suis pas certain que les tokens produits par des humains soient réellement plus “riches en signal” que ceux produits par l’IA
D’après l’explication de Wikipédia, c’est parce que les niveaux de radioactivité ont suffisamment baissé après le Traité d’interdiction partielle des essais nucléaires de 1963
C’est ce qu’on appelait « être juché sur les épaules de géants »
Ce genre de projet me fait penser à l’univers de Cyberpunk 2077
Dans ce récit, le premier Internet a été contaminé par des IA dangereuses, puis un immense pare-feu a été érigé afin de bâtir un nouvel Internet centré sur les humains
Je me dis qu’un jour, on aura peut-être besoin d’un Internet réservé aux humains
Bien sûr, ce serait difficile à réaliser dans la pratique, mais j’imagine quelque chose comme un réseau fondé d’abord sur le monde physique, où il faudrait prouver en continu qu’on est humain
La plupart des contenus sont déjà influencés par l’IA, et il y a une différence entre s’en inspirer simplement et faire de la fraude par copier-coller
Il faut donc s’adapter
Des réseaux autonomes comme Mastodon, Discord ou Matrix vont peut-être dans ce sens
Il existe un classement HN du nombre d’utilisations du tiret cadratin (—) avant ChatGPT
Lien
Cette fonction est possible même sans extension
Il suffit d’ajouter le filtre
before:dans une recherche GoogleExemple : Happiness before:2022
Je ne suis pas sûr que le contenu généré par l’IA soit un problème si énorme
Dans la plupart des cas, il n’a fait que remplacer le spam SEO des fermes de contenu
Je ne lisais déjà pas ce type d’articles avant, et aujourd’hui les phrases sont juste un peu plus fluides
Tant qu’on garde une bonne hygiène de recherche, ça reste gérable selon moi
En revanche, sur r/chess de Reddit, beaucoup publient des réponses ChatGPT comme si c’étaient les leurs
Ensuite, il a continué la discussion avec ChatGPT en affirmant que c’était moi qui avais tort
Cette perspective me met mal à l’aise
Maintenant, on se retrouve avec des dizaines de variantes formellement différentes d’une même réponse erronée
Des gens postent en croyant avoir découvert une percée philosophique
Des endroits comme /r/localllama sont aussi remplis de spam IA, et certains « Show HN » ne sont que de faux portfolios générés par des LLM
J’ai moi-même déjà perdu du temps sur ce genre de posts
Comme sur les sites de recettes, on pouvait sauter les passages inutiles
Mais aujourd’hui, presque toutes les requêtes sont recouvertes de phrases générées par IA
Avant, des requêtes rares permettaient encore d’obtenir des résultats précis ; désormais, il faut traverser des pages sans signification
Désormais, ce texte humain est absorbé comme données d’entraînement pour les LLM, puis réutilisé dans la génération suivante de contenu IA
Et cela arrive même sans consentement
L’expression « l’acier à faible radioactivité d’Internet » est intéressante
Lien Wikipédia associé
Voici ce qui m’est arrivé en faisant des recherches avec ChatGPT
Au final, j’ai résolu le problème en retrouvant le document rédigé par un humain sur le site de l’institution source
Ce genre de situation survient souvent dans les zones frontières de la connaissance
La première réponse peut être correcte, ou non
Mais avec un chatbot, il est difficile de sortir d’une mauvaise direction une fois qu’elle est prise
Si les résultats concordent, on estime que le risque d’hallucination est plus faible
Pour la recherche d’images, same.energy est pas mal
Le site est laissé à l’abandon depuis des années, mais il fonctionne toujours, et il y a très peu d’images IA
Le produit lui-même est plutôt excellent
Les résultats Google étaient déjà à 90 % de la boue SEO avant ChatGPT
Il suffit d’utiliser Kagi et de bloquer les sites SEO
Je me demande s’il existe une liste de filtres ou des critères précis pour les identifier