Un outil pour ne rechercher que les contenus créés avant la sortie de ChatGPT

(tegabrain.com)

16 points par GN⁺ 2025-12-02 | 1 commentaires | Partager sur WhatsApp

Une extension de navigateur conçue pour éviter la pollution par les contenus générés par l’IA, pensée pour ne rechercher que du contenu rédigé par des humains
Utilise la Google Search API pour ne renvoyer que des résultats publiés avant le 30 novembre 2022
Disponible au téléchargement et à l’usage sur Chrome et Firefox
Repose sur le constat d’une explosion des textes, images et vidéos générés par l’IA sur Internet depuis l’arrivée de ChatGPT et d’autres grands modèles de langage
Offre un environnement de recherche fiable aux utilisateurs qui souhaitent accéder uniquement à des contenus créés par des humains

Présentation de Slop Evader

Slop Evader est une extension de navigateur destinée à éviter les contenus générés par l’IA, disponible sur Chrome et Firefox
- Les utilisateurs peuvent installer l’extension pour filtrer les contenus produits par l’IA
Cet outil n’affiche dans les résultats de recherche que des contenus créés avant la sortie de ChatGPT (30 novembre 2022)
- Il s’appuie sur la Google Search API pour limiter les résultats selon la date

Contexte de développement

Depuis la sortie de ChatGPT et d’autres grands modèles de langage (LLM), la quantité de textes, d’images et de vidéos créés par l’IA sur Internet a fortement augmenté
Slop Evader a été conçu pour éviter cette pollution de l’information en ligne causée par les contenus générés par l’IA
Grâce à cette extension, les utilisateurs peuvent ne parcourir que des contenus directement rédigés ou produits par des humains

Fonctionnalités et portée

En limitant les résultats de recherche aux contenus publiés avant le 30 novembre 2022, l’outil réduit au minimum l’impact des contenus générés par l’IA
Basé sur la Google Search API, il conserve une expérience proche de celle d’un moteur de recherche classique
Face à la diffusion rapide des contenus IA, il sert d’outil garantissant un accès à l’information centré sur l’humain

1 commentaires

GN⁺ 2025-12-02

Avis Hacker News

Il s’agit apparemment d’un outil qui ne recherche que du contenu antérieur à la sortie de ChatGPT (30 novembre 2022)
Mais la dégradation de la qualité de la recherche semble avoir commencé bien avant
Ce n’était pas seulement Google : tous les moteurs de recherche se dégradaient déjà, et l’IA n’a fait qu’accélérer cette baisse
Le problème venait surtout de la greffe forcée de l’interface de recherche YouTube sur la recherche Google
Ce que veulent les utilisateurs, ce ne sont pas des « xyz recherchés par d’autres personnes », mais des résultats précis ; à la place, les pubs et les éléments conçus pour attirer le clic n’ont fait qu’accentuer la confusion de l’interface
- Je voudrais demander s’ils connaissent le moteur de recherche Kagi
  On peut y désactiver complètement les fonctions IA
  Il compte actuellement environ 61 000 membres, avec une croissance de 2 000 par mois (lien vers les stats)
- En réalité, le contenu généré automatiquement existait déjà avant ChatGPT
  Vers 2020, il y avait déjà beaucoup de pages SEO remplies de contenu récupéré ou de spam de mots-clés
  On voyait aussi beaucoup de textes produits par de simples modèles de langage ou des chaînes de Markov
- En parodiant la phrase « Google made the search results worse », quelqu’un lance des blagues d’autocomplétion comme « worse results near me » ou « best worse results »
- Il est souligné que l’objectif de Google n’est pas d’aider l’utilisateur à trouver l’information, mais d’augmenter le temps passé
  Le commentaire se moque du vocabulaire corporate qui enrobe la dégradation du quotidien des gens
- J’utilise DuckDuckGo depuis plus de dix ans
  Principalement pour chercher de la documentation liée à la programmation, et les résultats restent assez précis
  C’est peut-être parce que mes recherches sont simples, mais DDG reste encore utilisable
Quelqu’un a dit : « Nous exploitons des “tokens à faible bruit de fond”, comme l’acier à faible radioactivité (low-background steel) d’après la Seconde Guerre mondiale », et cette image ne me sort plus de la tête
Le sujet est résumé dans Latent Space
Je ne suis pas certain que les tokens produits par des humains soient réellement plus “riches en signal” que ceux produits par l’IA
- En pratique, l’acier à faible radioactivité n’est plus vraiment nécessaire
  D’après l’explication de Wikipédia, c’est parce que les niveaux de radioactivité ont suffisamment baissé après le Traité d’interdiction partielle des essais nucléaires de 1963
- Aujourd’hui, les données synthétiques sont tellement courantes que cette idée n’a plus rien de nouveau
- « La personne qui a dit ça, c’était moi, swyx », précise l’un des intervenants
- Les générations humaines ont toujours construit sur l’héritage imparfait de la génération précédente
  C’est ce qu’on appelait « être juché sur les épaules de géants »
Ce genre de projet me fait penser à l’univers de Cyberpunk 2077
Dans ce récit, le premier Internet a été contaminé par des IA dangereuses, puis un immense pare-feu a été érigé afin de bâtir un nouvel Internet centré sur les humains
Je me dis qu’un jour, on aura peut-être besoin d’un Internet réservé aux humains
Bien sûr, ce serait difficile à réaliser dans la pratique, mais j’imagine quelque chose comme un réseau fondé d’abord sur le monde physique, où il faudrait prouver en continu qu’on est humain
- Le problème, c’est qu’il est impossible à vérifier qu’un contenu provienne réellement d’une pensée humaine
  La plupart des contenus sont déjà influencés par l’IA, et il y a une différence entre s’en inspirer simplement et faire de la fraude par copier-coller
- Comme l’a dit Nick Bostrom, une technologie qui bouleverse la civilisation, une fois libérée dans le monde, ne peut plus être remballée
  Il faut donc s’adapter
  Des réseaux autonomes comme Mastodon, Discord ou Matrix vont peut-être dans ce sens
- Les gens migrent déjà vers des groupes privés sur Signal, WhatsApp ou Telegram
- On retrouvait déjà des idées proches dans la trilogie Starfish de Peter Watts ou dans Anathem de Neal Stephenson
- Même un « Internet réservé aux humains » n’aurait aucun sens si les humains eux-mêmes sont influencés par l’IA
Il existe un classement HN du nombre d’utilisations du tiret cadratin (—) avant ChatGPT
Lien
- Il est proposé d’inclure aussi les personnes qui utilisent le double tiret (--)
- En regardant les commentaires de l’utilisateur numéro 1, on remarque aussi l’habitude d’utiliser un accent grave inversé (`) à la place de l’apostrophe
- Quelqu’un plaisante en disant qu’il faudrait aussi penser aux utilisateurs du tiret demi-cadratin (–)
Cette fonction est possible même sans extension
Il suffit d’ajouter le filtre before: dans une recherche Google
Exemple : Happiness before:2022
Je ne suis pas sûr que le contenu généré par l’IA soit un problème si énorme
Dans la plupart des cas, il n’a fait que remplacer le spam SEO des fermes de contenu
Je ne lisais déjà pas ce type d’articles avant, et aujourd’hui les phrases sont juste un peu plus fluides
Tant qu’on garde une bonne hygiène de recherche, ça reste gérable selon moi
En revanche, sur r/chess de Reddit, beaucoup publient des réponses ChatGPT comme si c’étaient les leurs
- Un collègue m’a envoyé un rapport de bug rédigé avec ChatGPT, mais il se trompait complètement sur la nature du bug
  Ensuite, il a continué la discussion avec ChatGPT en affirmant que c’était moi qui avais tort
  Cette perspective me met mal à l’aise
- Avant, il n’y avait qu’une ou deux mauvaises réponses, donc c’était facile de les filtrer
  Maintenant, on se retrouve avec des dizaines de variantes formellement différentes d’une même réponse erronée
- Les subreddits scientifiques et techniques débordent eux aussi de republications de ChatGPT
  Des gens postent en croyant avoir découvert une percée philosophique
  Des endroits comme /r/localllama sont aussi remplis de spam IA, et certains « Show HN » ne sont que de faux portfolios générés par des LLM
  J’ai moi-même déjà perdu du temps sur ce genre de posts
- L’ancien spam SEO avait au moins un ancrage factuel
  Comme sur les sites de recettes, on pouvait sauter les passages inutiles
  Mais aujourd’hui, presque toutes les requêtes sont recouvertes de phrases générées par IA
  Avant, des requêtes rares permettaient encore d’obtenir des résultats précis ; désormais, il faut traverser des pages sans signification
- En réponse, quelqu’un note qu’autrefois, si l’on écrivait un bon texte, les moteurs de recherche le trouvaient d’eux-mêmes
  Désormais, ce texte humain est absorbé comme données d’entraînement pour les LLM, puis réutilisé dans la génération suivante de contenu IA
  Et cela arrive même sans consentement
L’expression « l’acier à faible radioactivité d’Internet » est intéressante
Lien Wikipédia associé
- Le même sujet avait déjà été mentionné sur HN il y a six mois
Voici ce qui m’est arrivé en faisant des recherches avec ChatGPT
- Il hallucinait des réponses fausses avec assurance
- Il enregistrait ce contenu dans sa mémoire et le conservait
- Quand je lui ai demandé ses sources, il se citait lui-même via deux faux articles générés par IA
  Au final, j’ai résolu le problème en retrouvant le document rédigé par un humain sur le site de l’institution source
  Ce genre de situation survient souvent dans les zones frontières de la connaissance
- L’IA donne l’impression de fouiller parmi des réponses Stack Overflow
  La première réponse peut être correcte, ou non
  Mais avec un chatbot, il est difficile de sortir d’une mauvaise direction une fois qu’elle est prise
- Une solution simple consiste à poser la même question à trois LLM différents
  Si les résultats concordent, on estime que le risque d’hallucination est plus faible
Pour la recherche d’images, same.energy est pas mal
Le site est laissé à l’abandon depuis des années, mais il fonctionne toujours, et il y a très peu d’images IA
Le produit lui-même est plutôt excellent
Les résultats Google étaient déjà à 90 % de la boue SEO avant ChatGPT
Il suffit d’utiliser Kagi et de bloquer les sites SEO
- Mais comment Kagi fait-il pour distinguer les sites SEO ?
  Je me demande s’il existe une liste de filtres ou des critères précis pour les identifier

Un outil pour ne rechercher que les contenus créés avant la sortie de ChatGPT

Présentation de Slop Evader

Contexte de développement

Fonctionnalités et portée

À lire aussi

1 commentaires

Avis Hacker News