5 points par GN⁺ 2025-11-14 | 1 commentaires | Partager sur WhatsApp
  • Pour assainir un environnement web pollué par le spam généré par IA et les fermes de contenus, Kagi Search introduit « SlopStop », un système de détection participatif reposant sur la communauté
  • SlopStop affiche dans les résultats de recherche un « score d’AI slop » en temps réel pour les textes, images et vidéos générés par IA, et permet aux utilisateurs de signaler eux-mêmes les contenus de faible qualité
  • Grâce à un déclassement automatique au niveau du domaine et à des fonctions de filtrage des médias générés par IA, le système renforce la mise en avant d’informations plus fiables
  • SlopStop s’articule avec le projet « Small Web » afin de privilégier les créateurs centrés sur l’humain et les contenus authentiques
  • Kagi vise ainsi à constituer le plus grand jeu de données d’AI slop au monde, qui sera ensuite utilisé pour des technologies de défense contre les hallucinations de l’IA et la désinformation

Définition de l’AI Slop et réponse de Kagi

  • L’AI slop désigne des contenus IA trompeurs ou de faible valeur, produits pour manipuler le classement dans les moteurs de recherche ou capter l’attention
    • Parmi les exemples figurent les faux avis, la fausse expertise, les informations erronées et les fermes de contenus axées sur la monétisation
  • Kagi ne rejette pas l’IA en elle-même, mais précise que les contenus IA qui remplacent l’intuition humaine et la connexion entre personnes sont nuisibles
  • La philosophie de Kagi est une « expérience de recherche où l’humain garde le contrôle », et l’entreprise déclassait déjà les pages de faible qualité centrées sur la publicité et les trackers
  • SlopStop étend le filtre d’images existant afin de détecter les contenus générés par IA dans tous les formats, y compris les vidéos, articles et domaines

Fonctionnement de SlopStop

  • Une fonction d’affichage du score d’AI slop a été ajoutée aux résultats de recherche, afin que l’utilisateur puisse vérifier immédiatement la fiabilité d’un contenu
  • Les utilisateurs peuvent signaler des contenus de faible qualité dans les résultats web, image et vidéo via l’option « Signaler comme contenu généré par IA »
    • Kagi vérifie ensuite ces signalements à l’aide de ses propres signaux, puis déclasse automatiquement les domaines présentant une forte proportion de contenus IA
    • Dans le cas de domaines mixtes, seules les pages individuelles reçoivent un marquage de contenu généré par IA
  • Les images et vidéos générées par IA sont étiquetées et automatiquement déclassées dès confirmation, et l’utilisateur peut choisir un filtre bloquant totalement les médias IA
  • Le CEO Vlad a déclaré que « l’AI slop est une menace existentielle pour un internet centré sur l’humain, et SlopStop en est la première étape d’élimination »

L’association entre SlopStop et Small Web

  • Même si le développement de l’IA est rapide, SlopStop et Small Web visent ensemble à restaurer un écosystème web centré sur l’humain
  • Small Web met en place une liste blanche de créateurs humains vérifiés afin de donner la priorité aux contenus authentiques
  • Plus SlopStop filtre les contenus IA, plus la visibilité des contenus créatifs et humains augmente
  • Les deux systèmes fonctionnent comme une double ligne de défense protégeant internet de la commercialisation et de la pollution artificielle

Construction et usage du jeu de données AI Slop

  • SlopStop constitue une étape de renforcement de la fiabilité dans l’ensemble de l’écosystème Kagi, avec pour objectif de bâtir le plus grand jeu de données de domaines AI slop au monde en combinant signalements communautaires et technologies internes de détection
  • Ce jeu de données servira au développement de technologies de détection contre les hallucinations de l’IA, les fausses affirmations et la désinformation
  • Kagi cite les résultats d’une enquête de NewsGuard, selon lesquels 30 à 41 % des autres chatbots produisent des réponses erronées
  • La base de données sera publiée ultérieurement, et les utilisateurs intéressés pourront recevoir des mises à jour en s’inscrivant

Participation des utilisateurs et protection de la qualité

  • Kagi cherche à développer une solution finale automatisée grâce à une exploitation de SlopStop fondée sur le crowdsourcing
  • Les utilisateurs peuvent participer en cliquant sur l’icône de bouclier à côté d’un résultat de recherche puis en choisissant « Signaler comme contenu généré par IA »
  • Tous les signalements sont vérifiés puis pris en compte par l’équipe d’examen de Kagi, contribuant à l’amélioration de la qualité de recherche
  • Kagi fournit le fonctionnement du système et des canaux de retour via la documentation technique et le forum consacrés à SlopStop
  • Kagi souligne que « la participation de chaque utilisateur contribue à créer une expérience de recherche plus fiable »

1 commentaires

 
GN⁺ 2025-11-14
Avis Hacker News
  • C’est vraiment une nouvelle intéressante. J’aimerais que HN s’en inspire aussi et ajoute un drapeau similaire
    • J’ai demandé à @freediver l’accès à la base de données. Ça devrait bientôt être intégré à hcker.news
      J’aime l’approche centrée sur la communauté de Kagi. La liste Small Web publiée est vraiment utile.
      Sur HN, appliquer le filtre smallweb rend la page d’accueil nettement plus fraîche
    • D’accord
  • Il nous faut ça aussi sur HN. J’aimerais qu’il existe un refuge sûr contre ce type de contenu, sorte de spam sophistiqué
    • La solution est simple. Il suffit d’exiger une preuve d’humanité pour chaque commentaire. Par exemple, une goutte de sang par commentaire
  • Dans la documentation, ils distinguent le slop d’images, de vidéos et de « pages web », et je me demande s’il y aurait moyen de filtrer agressivement uniquement le slop de pages web
    Il arrive que des articles pertinents collent quand même une image d’en-tête générée par IA. Si le corps du texte est authentique, je n’ai pas envie que ce genre d’article soit filtré. Je me demande si cette distinction dans la doc permettra ce niveau de filtrage fin
  • J’aimerais qu’une personne brillante étudie ma théorie. Le cœur de la détection pourrait être d’apprendre la différence d’entropie entre le contenu écrit par des humains et celui écrit par des LLM
    Par exemple, comme avec le « test de Will Smith qui mange des spaghettis », on dirait qu’en comparant l’entropie d’une vraie scène et d’une scène générée, la différence saute aux yeux. Au fond, « avoir l’air réel », c’est correspondre au niveau d’entropie qu’on s’attend à voir
    • Je ne pense pas que du slop IA puisse résoudre le slop IA. La publicité et l’économie de l’attention étaient déjà devenues du slop, et l’IA n’a fait que le rendre plus visible.
      Pour l’IA, augmenter artificiellement l’entropie est facile. Au final, ça mènera à une guerre de l’information, et les gens en seront les victimes
    • En fait, c’est le principe de base des « détecteurs d’IA ». Ce sont des modèles entraînés à classer humain vs contenu généré par LLM, mais comme tout le monde le sait, leur précision est catastrophique
    • Ce genre d’approche existe déjà. Pour les images, ça marche grâce aux artefacts des modèles de diffusion, mais pour le texte, beaucoup moins.
      Le texte a une densité d’information trop élevée, et les modèles de type GPT sont justement entraînés à minimiser l’entropie dont tu parles
    • Ça peut marcher pour distinguer une vraie photo d’une photo générée par IA, mais pour le texte, je ne pense pas que l’entropie soit si importante.
      En plus, l’IA peut très bien être entraînée à tromper ce type de détection
    • Je pensais que le « test de Will Smith et les spaghettis » était une blague, mais j’ai cherché et ça existait vraiment. Impressionnant
  • Internet n’est pas mort, mais il commence à avoir une drôle d’odeur
  • Je suis abonné payant à Kagi depuis un an. C’est de loin la dépense la plus rentable que j’aie faite.
    J’ai récemment essayé une recherche Google, et c’était vraiment horrible.
    Je veux un internet calme — un endroit où l’on pose une question et obtient une réponse, sans intention cachée ni publicité, juste des réponses sincères
  • Je pense qu’une approche scalable finira par consister à faire identifier l’IA par une IA. Bien sûr, une revue humaine restera indispensable
    La plupart des gens ne sauraient sans doute pas distinguer un texte IA qui s’éloigne de la « voix par défaut » du prompt
    • Les modèles de la prochaine génération évolueront en excluant de leurs données d’entraînement les échantillons classés comme IA.
      Ce cycle va se poursuivre, et ça ressemble à l’architecture des GAN (Generative Adversarial Network)
    • Faire traquer l’IA par une IA ressemble à ce fantasme de problème d’alignement où « la bonne IA bat la mauvaise IA ». C’est possible, mais ça repose sur beaucoup trop d’hypothèses
    • Si l’IA pouvait détecter l’IA de manière fiable, le problème serait déjà réglé. Le cœur du sujet, c’est le manque de fiabilité
    • En manipulant soigneusement le prompt, on peut produire des textes difficiles à détecter.
      Mais sur le web réel, le slop IA déborde toujours.
      Je cherche souvent des informations où la véracité compte, donc plus que la détection d’IA, c’est la fiabilité de la source qui m’importe.
      Au final, l’essentiel est de savoir qui a signé le texte de son nom ou de sa réputation
  • J’ai l’impression que le monde se divise maintenant en deux univers. L’un impose de force du contenu généré, l’autre le rejette catégoriquement
    Je ne comprends pas pourquoi certains CEO s’entêtent autant. Les gens n’aiment pas le contenu artificiel, et pourtant eux continuent de s’y accrocher
    • Sur YouTube, il existe un énorme public qui apprécie le contenu généré par IA.
      Par exemple, cette vidéo et celle-ci ont toutes deux été produites avec un script écrit par GPT, des illustrations IA et une voix IA.
      Sur Reddit aussi, des posts écrits par GPT arrivent en tête, et les gens les félicitent pour leurs « belles métaphores ».
      Au final, beaucoup de gens apprécient le contenu IA sans même s’en rendre compte
    • L’obstination des CEO vient surtout de la pression des conseils d’administration et de Wall Street. Ce sont surtout des gens qui n’ont jamais réellement utilisé de LLM et réagissent simplement aux signaux du marché
    • C’est un cas parfait de piège des coûts irrécupérables et d’obsession de la croissance. Ce ne sont pas la logique, mais l’effet de mode et l’impatience des investisseurs qui dominent
    • Kagi non plus n’exclut pas totalement les LLM. Ils utilisent bien des LLM pour les résumés d’actualité
      Comme on peut le voir dans ce ticket, l’exclusion totale reste difficile pour des raisons d’efficacité économique
    • Si les créateurs doivent déclarer l’usage de l’IA, alors je devrais avoir le droit de filtrer ce contenu.
      Aujourd’hui, il est devenu trop difficile de trouver du vrai contenu.
      Le problème n’est pas tant le contenu IA lui-même que l’environnement où les créateurs consciencieux se retrouvent noyés
  • La situation actuelle ressemble à une partie où l’IA joue aux échecs contre elle-même.
    La détection se raffine, l’IA devient plus rusée. Un duel sans fin entre détection et évasion est en cours
  • « La guerre du slop a commencé »
    Je soutiens toutes les tentatives visant à endiguer l’inondation de slop IA dans les résultats de recherche.
    On a l’impression que le vieux spam SEO est revenu, simplement avec un autre emballage
    • Cette fois, c’est bien pire. Avant, le spam SEO se repérait tout de suite à l’œil nu, mais aujourd’hui, on est envahis de déchets en apparence parfaits.
      Si d’autres moteurs de recherche aiment ça, c’est aussi parce que cela leur permet de renforcer leur rôle de porte d’entrée, sans avoir à produire eux-mêmes du contenu
    • Ironiquement, le groupe qui déteste le plus le contenu IA est le secteur du SEO.
      Les résumés IA remplacent leur contenu conçu pour attirer les clics.
      Peut-être que ce sont eux, au fond, qui poussent ce mouvement de filtrage