SlopStop : le système communautaire de détection des contenus générés par IA dans la recherche Kagi

(blog.kagi.com)

5 points par GN⁺ 2025-11-14 | 1 commentaires | Partager sur WhatsApp

Pour assainir un environnement web pollué par le spam généré par IA et les fermes de contenus, Kagi Search introduit « SlopStop », un système de détection participatif reposant sur la communauté
SlopStop affiche dans les résultats de recherche un « score d’AI slop » en temps réel pour les textes, images et vidéos générés par IA, et permet aux utilisateurs de signaler eux-mêmes les contenus de faible qualité
Grâce à un déclassement automatique au niveau du domaine et à des fonctions de filtrage des médias générés par IA, le système renforce la mise en avant d’informations plus fiables
SlopStop s’articule avec le projet « Small Web » afin de privilégier les créateurs centrés sur l’humain et les contenus authentiques
Kagi vise ainsi à constituer le plus grand jeu de données d’AI slop au monde, qui sera ensuite utilisé pour des technologies de défense contre les hallucinations de l’IA et la désinformation

Définition de l’AI Slop et réponse de Kagi

L’AI slop désigne des contenus IA trompeurs ou de faible valeur, produits pour manipuler le classement dans les moteurs de recherche ou capter l’attention
- Parmi les exemples figurent les faux avis, la fausse expertise, les informations erronées et les fermes de contenus axées sur la monétisation
Kagi ne rejette pas l’IA en elle-même, mais précise que les contenus IA qui remplacent l’intuition humaine et la connexion entre personnes sont nuisibles
La philosophie de Kagi est une « expérience de recherche où l’humain garde le contrôle », et l’entreprise déclassait déjà les pages de faible qualité centrées sur la publicité et les trackers
SlopStop étend le filtre d’images existant afin de détecter les contenus générés par IA dans tous les formats, y compris les vidéos, articles et domaines

Fonctionnement de SlopStop

Une fonction d’affichage du score d’AI slop a été ajoutée aux résultats de recherche, afin que l’utilisateur puisse vérifier immédiatement la fiabilité d’un contenu
Les utilisateurs peuvent signaler des contenus de faible qualité dans les résultats web, image et vidéo via l’option « Signaler comme contenu généré par IA »
- Kagi vérifie ensuite ces signalements à l’aide de ses propres signaux, puis déclasse automatiquement les domaines présentant une forte proportion de contenus IA
- Dans le cas de domaines mixtes, seules les pages individuelles reçoivent un marquage de contenu généré par IA
Les images et vidéos générées par IA sont étiquetées et automatiquement déclassées dès confirmation, et l’utilisateur peut choisir un filtre bloquant totalement les médias IA
Le CEO Vlad a déclaré que « l’AI slop est une menace existentielle pour un internet centré sur l’humain, et SlopStop en est la première étape d’élimination »

L’association entre SlopStop et Small Web

Même si le développement de l’IA est rapide, SlopStop et Small Web visent ensemble à restaurer un écosystème web centré sur l’humain
Small Web met en place une liste blanche de créateurs humains vérifiés afin de donner la priorité aux contenus authentiques
Plus SlopStop filtre les contenus IA, plus la visibilité des contenus créatifs et humains augmente
Les deux systèmes fonctionnent comme une double ligne de défense protégeant internet de la commercialisation et de la pollution artificielle

Construction et usage du jeu de données AI Slop

SlopStop constitue une étape de renforcement de la fiabilité dans l’ensemble de l’écosystème Kagi, avec pour objectif de bâtir le plus grand jeu de données de domaines AI slop au monde en combinant signalements communautaires et technologies internes de détection
Ce jeu de données servira au développement de technologies de détection contre les hallucinations de l’IA, les fausses affirmations et la désinformation
Kagi cite les résultats d’une enquête de NewsGuard, selon lesquels 30 à 41 % des autres chatbots produisent des réponses erronées
La base de données sera publiée ultérieurement, et les utilisateurs intéressés pourront recevoir des mises à jour en s’inscrivant

Participation des utilisateurs et protection de la qualité

Kagi cherche à développer une solution finale automatisée grâce à une exploitation de SlopStop fondée sur le crowdsourcing
Les utilisateurs peuvent participer en cliquant sur l’icône de bouclier à côté d’un résultat de recherche puis en choisissant « Signaler comme contenu généré par IA »
Tous les signalements sont vérifiés puis pris en compte par l’équipe d’examen de Kagi, contribuant à l’amélioration de la qualité de recherche
Kagi fournit le fonctionnement du système et des canaux de retour via la documentation technique et le forum consacrés à SlopStop
Kagi souligne que « la participation de chaque utilisateur contribue à créer une expérience de recherche plus fiable »

1 commentaires

GN⁺ 2025-11-14

Avis Hacker News

C’est vraiment une nouvelle intéressante. J’aimerais que HN s’en inspire aussi et ajoute un drapeau similaire
- J’ai demandé à @freediver l’accès à la base de données. Ça devrait bientôt être intégré à hcker.news
  J’aime l’approche centrée sur la communauté de Kagi. La liste Small Web publiée est vraiment utile.
  Sur HN, appliquer le filtre smallweb rend la page d’accueil nettement plus fraîche
- D’accord
Il nous faut ça aussi sur HN. J’aimerais qu’il existe un refuge sûr contre ce type de contenu, sorte de spam sophistiqué
- La solution est simple. Il suffit d’exiger une preuve d’humanité pour chaque commentaire. Par exemple, une goutte de sang par commentaire
Dans la documentation, ils distinguent le slop d’images, de vidéos et de « pages web », et je me demande s’il y aurait moyen de filtrer agressivement uniquement le slop de pages web
Il arrive que des articles pertinents collent quand même une image d’en-tête générée par IA. Si le corps du texte est authentique, je n’ai pas envie que ce genre d’article soit filtré. Je me demande si cette distinction dans la doc permettra ce niveau de filtrage fin
J’aimerais qu’une personne brillante étudie ma théorie. Le cœur de la détection pourrait être d’apprendre la différence d’entropie entre le contenu écrit par des humains et celui écrit par des LLM
Par exemple, comme avec le « test de Will Smith qui mange des spaghettis », on dirait qu’en comparant l’entropie d’une vraie scène et d’une scène générée, la différence saute aux yeux. Au fond, « avoir l’air réel », c’est correspondre au niveau d’entropie qu’on s’attend à voir
- Je ne pense pas que du slop IA puisse résoudre le slop IA. La publicité et l’économie de l’attention étaient déjà devenues du slop, et l’IA n’a fait que le rendre plus visible.
  Pour l’IA, augmenter artificiellement l’entropie est facile. Au final, ça mènera à une guerre de l’information, et les gens en seront les victimes
- En fait, c’est le principe de base des « détecteurs d’IA ». Ce sont des modèles entraînés à classer humain vs contenu généré par LLM, mais comme tout le monde le sait, leur précision est catastrophique
- Ce genre d’approche existe déjà. Pour les images, ça marche grâce aux artefacts des modèles de diffusion, mais pour le texte, beaucoup moins.
  Le texte a une densité d’information trop élevée, et les modèles de type GPT sont justement entraînés à minimiser l’entropie dont tu parles
- Ça peut marcher pour distinguer une vraie photo d’une photo générée par IA, mais pour le texte, je ne pense pas que l’entropie soit si importante.
  En plus, l’IA peut très bien être entraînée à tromper ce type de détection
- Je pensais que le « test de Will Smith et les spaghettis » était une blague, mais j’ai cherché et ça existait vraiment. Impressionnant
Internet n’est pas mort, mais il commence à avoir une drôle d’odeur
Je suis abonné payant à Kagi depuis un an. C’est de loin la dépense la plus rentable que j’aie faite.
J’ai récemment essayé une recherche Google, et c’était vraiment horrible.
Je veux un internet calme — un endroit où l’on pose une question et obtient une réponse, sans intention cachée ni publicité, juste des réponses sincères
Je pense qu’une approche scalable finira par consister à faire identifier l’IA par une IA. Bien sûr, une revue humaine restera indispensable
La plupart des gens ne sauraient sans doute pas distinguer un texte IA qui s’éloigne de la « voix par défaut » du prompt
- Les modèles de la prochaine génération évolueront en excluant de leurs données d’entraînement les échantillons classés comme IA.
  Ce cycle va se poursuivre, et ça ressemble à l’architecture des GAN (Generative Adversarial Network)
- Faire traquer l’IA par une IA ressemble à ce fantasme de problème d’alignement où « la bonne IA bat la mauvaise IA ». C’est possible, mais ça repose sur beaucoup trop d’hypothèses
- Si l’IA pouvait détecter l’IA de manière fiable, le problème serait déjà réglé. Le cœur du sujet, c’est le manque de fiabilité
- En manipulant soigneusement le prompt, on peut produire des textes difficiles à détecter.
  Mais sur le web réel, le slop IA déborde toujours.
  Je cherche souvent des informations où la véracité compte, donc plus que la détection d’IA, c’est la fiabilité de la source qui m’importe.
  Au final, l’essentiel est de savoir qui a signé le texte de son nom ou de sa réputation
J’ai l’impression que le monde se divise maintenant en deux univers. L’un impose de force du contenu généré, l’autre le rejette catégoriquement
Je ne comprends pas pourquoi certains CEO s’entêtent autant. Les gens n’aiment pas le contenu artificiel, et pourtant eux continuent de s’y accrocher
- Sur YouTube, il existe un énorme public qui apprécie le contenu généré par IA.
  Par exemple, cette vidéo et celle-ci ont toutes deux été produites avec un script écrit par GPT, des illustrations IA et une voix IA.
  Sur Reddit aussi, des posts écrits par GPT arrivent en tête, et les gens les félicitent pour leurs « belles métaphores ».
  Au final, beaucoup de gens apprécient le contenu IA sans même s’en rendre compte
- L’obstination des CEO vient surtout de la pression des conseils d’administration et de Wall Street. Ce sont surtout des gens qui n’ont jamais réellement utilisé de LLM et réagissent simplement aux signaux du marché
- C’est un cas parfait de piège des coûts irrécupérables et d’obsession de la croissance. Ce ne sont pas la logique, mais l’effet de mode et l’impatience des investisseurs qui dominent
- Kagi non plus n’exclut pas totalement les LLM. Ils utilisent bien des LLM pour les résumés d’actualité
  Comme on peut le voir dans ce ticket, l’exclusion totale reste difficile pour des raisons d’efficacité économique
- Si les créateurs doivent déclarer l’usage de l’IA, alors je devrais avoir le droit de filtrer ce contenu.
  Aujourd’hui, il est devenu trop difficile de trouver du vrai contenu.
  Le problème n’est pas tant le contenu IA lui-même que l’environnement où les créateurs consciencieux se retrouvent noyés
La situation actuelle ressemble à une partie où l’IA joue aux échecs contre elle-même.
La détection se raffine, l’IA devient plus rusée. Un duel sans fin entre détection et évasion est en cours
« La guerre du slop a commencé »
Je soutiens toutes les tentatives visant à endiguer l’inondation de slop IA dans les résultats de recherche.
On a l’impression que le vieux spam SEO est revenu, simplement avec un autre emballage
- Cette fois, c’est bien pire. Avant, le spam SEO se repérait tout de suite à l’œil nu, mais aujourd’hui, on est envahis de déchets en apparence parfaits.
  Si d’autres moteurs de recherche aiment ça, c’est aussi parce que cela leur permet de renforcer leur rôle de porte d’entrée, sans avoir à produire eux-mêmes du contenu
- Ironiquement, le groupe qui déteste le plus le contenu IA est le secteur du SEO.
  Les résumés IA remplacent leur contenu conçu pour attirer les clics.
  Peut-être que ce sont eux, au fond, qui poussent ce mouvement de filtrage

SlopStop : le système communautaire de détection des contenus générés par IA dans la recherche Kagi

Définition de l’AI Slop et réponse de Kagi

Fonctionnement de SlopStop

L’association entre SlopStop et Small Web

Construction et usage du jeu de données AI Slop

Participation des utilisateurs et protection de la qualité

À lire aussi

1 commentaires

Avis Hacker News