16 points par GN⁺ 9 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Alors qu’Internet déborde de contenus médiocres générés par l’IA (slop), divers mouvements de résistance active à l’IA se propagent
  • La communauté Reddit r/PoisonFountain vise à fournir aux crawlers d’IA 1 téraoctet de données empoisonnées par jour d’ici fin 2026
  • Différentes formes de résistance apparaissent, comme des techniques pour tromper les résumeurs vidéo par IA ou l’insertion délibérée de fausses données sur les réseaux sociaux
  • Cette résistance s’explique notamment par le fait que les crawlers d’IA ignorent les fichiers robots.txt et provoquent sur de petits sites une charge comparable à un DDoS
  • L’espoir est que, si ce sentiment se traduit par des actes de résistance pacifiques et légaux, il puisse modifier les pratiques de collecte de données de la Silicon Valley

Communauté d’empoisonnement de données visant les crawlers d’IA

  • La communauté Reddit r/PoisonFountain a été créée par des personnes se présentant comme des initiés du secteur de l’IA, et encourage le plus grand nombre possible de personnes à fournir de grandes quantités de données parasites (poison) aux crawlers web
  • L’objectif est de fournir aux crawlers 1 téraoctet de données empoisonnées par jour d’ici fin 2026
  • Le cœur de ces données empoisonnées est hébergé sur rnsaffn.com, placé parmi des liens-poubelle susceptibles d’attirer les crawlers d’IA
    • À première vue, cela ressemble à du code normal, mais il contient en réalité des erreurs subtiles, produisant un code inutilisable
    • Il est possible de filtrer ces erreurs, mais cela coûte cher à grande échelle
  • Les entreprises d’IA ne peuvent pas améliorer leurs modèles sans nouvelles données produites par des humains ; l’enjeu principal est donc d’augmenter le temps et le coût du pillage de données
  • Miasma est un outil qui exploite ces données empoisonnées pour servir de grandes quantités de déchets à des bots malveillants ; son développeur le décrit comme un « buffet infini de slop pour les machines à slop »

Les comportements problématiques des crawlers d’IA

  • Les équipes qui déploient des crawlers d’IA provoquent régulièrement sur de petits sites web une charge comparable à un DDoS, ce qui augmente les coûts d’hébergement pour tout le monde
  • Ils ne respectent pas robots.txt et il leur arrive fréquemment de dissimuler leurs crawlers derrière des proxys résidentiels
  • S’il n’est pas possible de se procurer des données d’entraînement de manière éthique, aucun exploitant de site web n’a de raison de faciliter le vol de données

Tentatives d’empoisonnement des résumeurs vidéo par IA

  • Dans une vidéo relayée via r/PoisonFountain, un créateur nommé @f4mi montre une technique pour empoisonner des résumeurs vidéo par IA en exploitant une faille des sous-titres YouTube : Polluer des résumeurs vidéo IA en exploitant une faille des sous-titres YouTube
  • Depuis, YouTube a corrigé cette faille de sous-titres, et la technique ne fonctionne plus
  • Même temporaire, cet exemple montre qu’il est possible de perturber des systèmes d’IA et que des personnes cherchent activement à résister

Sabotage délibéré de l’IA sur les réseaux sociaux

  • Sur des plateformes comme Reddit, les actes consistant à publier délibérément de fausses informations pour empoisonner les données d’entraînement de l’IA sont en hausse
  • Exemple : des publications affirmant faussement qu’Idris Elba jouait la mère de Raymond dans « Everybody Loves Raymond »
    • Un humain comprend immédiatement, par le contexte, qu’il s’agit d’une fausseté, mais un scraper web automatisé peut l’interpréter comme une donnée de qualité produite par des humains
    • Si ces données parviennent à OpenAI ou à d’autres acteurs, leur suppression du jeu de données d’entraînement exige des ressources supplémentaires
  • On peut y voir une version moderne des ouvriers du textile de la révolution industrielle détruisant les métiers à tisser mécaniques ; si suffisamment de personnes polluent l’espace public avec de fausses informations destinées aux bots, cela peut pousser les entreprises d’IA à repenser leur manière de collecter les données d’entraînement

Un rejet plus large de l’IA

  • Beaucoup de personnes éprouvent une hostilité envers l’impact de l’IA sur le monde, notamment sur les communautés en ligne, l’environnement, les écoles primaires et les universités, les personnes vulnérables sur le plan psychique, et les moyens de subsistance
  • Certaines personnes consomment et produisent du slop d’IA, mais il y a bien davantage de gens qui détestent et rejettent cette technologie, en ligne comme hors ligne
  • La haine débouche rarement sur de bons résultats ; l’auteur s’oppose donc aux actes violents comme donner des coups de pied à des robots-livreurs d’IA ou les renverser, ou encore lancer un cocktail Molotov contre la maison de Sam Altman
  • En revanche, si les sentiments envers l’IA se transforment en actes de résistance pacifiques et légaux, ils pourraient réellement changer la manière d’agir de la Silicon Valley

Post-scriptum : modification du texte original après sa viralité sur Hacker News

  • Cet article s’est retrouvé en première page d’un grand hub d’actualités (Hacker News), provoquant un afflux massif et inattendu de trafic
  • Une attaque malveillante de surcharge serveur a ensuite eu lieu, avec des milliers de requêtes envoyées vers cette page depuis un petit nombre d’adresses IP
    • Sur un hébergement mutualisé d’entrée de gamme, le site aurait probablement été entièrement hors ligne ; en réponse, le trafic vers cette URL a été temporairement bloqué
  • Bien que l’auteur ne soit pas spécialiste de l’IA, certains commentateurs ont exigé une précision de niveau expert et formulé des critiques excessives
    • L’un des commentaires allait jusqu’à dire qu’ils n’étaient « pas mieux qu’un groupe qui brûle des bibliothèques », une réaction particulièrement décevante pour une blogueuse qui aime les bibliothèques et le partage des connaissances
  • Le but initial était simplement de partager, avec les lecteurs habituels d’un petit blog, des liens sur les tendances anti-IA ; l’autrice explique qu’elle n’aurait pas publié ce texte si elle avait su qu’il attirerait une telle attention négative sur une aussi grande plateforme
  • Elle a ensuite décidé de limiter ses publications d’opinion personnelles sur l’IA, pour se recentrer sur la vocation première du blog : le plaisir du small web
  • C’est un exemple montrant comment, sur le small web, la libre expression des opinions peut être freinée par une diffusion virale

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.