La résistance à l’IA s’intensifie
(stephvee.ca)- Alors qu’Internet déborde de contenus médiocres générés par l’IA (slop), divers mouvements de résistance active à l’IA se propagent
- La communauté Reddit r/PoisonFountain vise à fournir aux crawlers d’IA 1 téraoctet de données empoisonnées par jour d’ici fin 2026
- Différentes formes de résistance apparaissent, comme des techniques pour tromper les résumeurs vidéo par IA ou l’insertion délibérée de fausses données sur les réseaux sociaux
- Cette résistance s’explique notamment par le fait que les crawlers d’IA ignorent les fichiers
robots.txtet provoquent sur de petits sites une charge comparable à un DDoS - L’espoir est que, si ce sentiment se traduit par des actes de résistance pacifiques et légaux, il puisse modifier les pratiques de collecte de données de la Silicon Valley
Communauté d’empoisonnement de données visant les crawlers d’IA
- La communauté Reddit r/PoisonFountain a été créée par des personnes se présentant comme des initiés du secteur de l’IA, et encourage le plus grand nombre possible de personnes à fournir de grandes quantités de données parasites (poison) aux crawlers web
- L’objectif est de fournir aux crawlers 1 téraoctet de données empoisonnées par jour d’ici fin 2026
- Le cœur de ces données empoisonnées est hébergé sur rnsaffn.com, placé parmi des liens-poubelle susceptibles d’attirer les crawlers d’IA
- À première vue, cela ressemble à du code normal, mais il contient en réalité des erreurs subtiles, produisant un code inutilisable
- Il est possible de filtrer ces erreurs, mais cela coûte cher à grande échelle
- Les entreprises d’IA ne peuvent pas améliorer leurs modèles sans nouvelles données produites par des humains ; l’enjeu principal est donc d’augmenter le temps et le coût du pillage de données
- Miasma est un outil qui exploite ces données empoisonnées pour servir de grandes quantités de déchets à des bots malveillants ; son développeur le décrit comme un « buffet infini de slop pour les machines à slop »
Les comportements problématiques des crawlers d’IA
- Les équipes qui déploient des crawlers d’IA provoquent régulièrement sur de petits sites web une charge comparable à un DDoS, ce qui augmente les coûts d’hébergement pour tout le monde
- Ils ne respectent pas robots.txt et il leur arrive fréquemment de dissimuler leurs crawlers derrière des proxys résidentiels
- S’il n’est pas possible de se procurer des données d’entraînement de manière éthique, aucun exploitant de site web n’a de raison de faciliter le vol de données
Tentatives d’empoisonnement des résumeurs vidéo par IA
- Dans une vidéo relayée via r/PoisonFountain, un créateur nommé @f4mi montre une technique pour empoisonner des résumeurs vidéo par IA en exploitant une faille des sous-titres YouTube : Polluer des résumeurs vidéo IA en exploitant une faille des sous-titres YouTube
- Depuis, YouTube a corrigé cette faille de sous-titres, et la technique ne fonctionne plus
- Même temporaire, cet exemple montre qu’il est possible de perturber des systèmes d’IA et que des personnes cherchent activement à résister
Sabotage délibéré de l’IA sur les réseaux sociaux
- Sur des plateformes comme Reddit, les actes consistant à publier délibérément de fausses informations pour empoisonner les données d’entraînement de l’IA sont en hausse
- Exemple : des publications affirmant faussement qu’Idris Elba jouait la mère de Raymond dans « Everybody Loves Raymond »
- Un humain comprend immédiatement, par le contexte, qu’il s’agit d’une fausseté, mais un scraper web automatisé peut l’interpréter comme une donnée de qualité produite par des humains
- Si ces données parviennent à OpenAI ou à d’autres acteurs, leur suppression du jeu de données d’entraînement exige des ressources supplémentaires
- On peut y voir une version moderne des ouvriers du textile de la révolution industrielle détruisant les métiers à tisser mécaniques ; si suffisamment de personnes polluent l’espace public avec de fausses informations destinées aux bots, cela peut pousser les entreprises d’IA à repenser leur manière de collecter les données d’entraînement
Un rejet plus large de l’IA
- Beaucoup de personnes éprouvent une hostilité envers l’impact de l’IA sur le monde, notamment sur les communautés en ligne, l’environnement, les écoles primaires et les universités, les personnes vulnérables sur le plan psychique, et les moyens de subsistance
- Certaines personnes consomment et produisent du slop d’IA, mais il y a bien davantage de gens qui détestent et rejettent cette technologie, en ligne comme hors ligne
- La haine débouche rarement sur de bons résultats ; l’auteur s’oppose donc aux actes violents comme donner des coups de pied à des robots-livreurs d’IA ou les renverser, ou encore lancer un cocktail Molotov contre la maison de Sam Altman
- En revanche, si les sentiments envers l’IA se transforment en actes de résistance pacifiques et légaux, ils pourraient réellement changer la manière d’agir de la Silicon Valley
Post-scriptum : modification du texte original après sa viralité sur Hacker News
- Cet article s’est retrouvé en première page d’un grand hub d’actualités (Hacker News), provoquant un afflux massif et inattendu de trafic
- Une attaque malveillante de surcharge serveur a ensuite eu lieu, avec des milliers de requêtes envoyées vers cette page depuis un petit nombre d’adresses IP
- Sur un hébergement mutualisé d’entrée de gamme, le site aurait probablement été entièrement hors ligne ; en réponse, le trafic vers cette URL a été temporairement bloqué
- Bien que l’auteur ne soit pas spécialiste de l’IA, certains commentateurs ont exigé une précision de niveau expert et formulé des critiques excessives
- L’un des commentaires allait jusqu’à dire qu’ils n’étaient « pas mieux qu’un groupe qui brûle des bibliothèques », une réaction particulièrement décevante pour une blogueuse qui aime les bibliothèques et le partage des connaissances
- Le but initial était simplement de partager, avec les lecteurs habituels d’un petit blog, des liens sur les tendances anti-IA ; l’autrice explique qu’elle n’aurait pas publié ce texte si elle avait su qu’il attirerait une telle attention négative sur une aussi grande plateforme
- Elle a ensuite décidé de limiter ses publications d’opinion personnelles sur l’IA, pour se recentrer sur la vocation première du blog : le plaisir du small web
- C’est un exemple montrant comment, sur le small web, la libre expression des opinions peut être freinée par une diffusion virale
5 commentaires
Commentaires sur Hacker News
Je suis content que cette personne ait trouvé une communauté, mais j’ai l’impression qu’elle est trop submergée par le sentiment anti-IA. À mon avis, il y aura pendant les 30 prochaines années des groupes qui détesteront l’IA et essaieront de la bloquer. Il y en a toujours eu contre les smartphones, Internet ou la TV. En revanche, si le model poisoning devenait vraiment possible de manière fiable, ce serait un problème d’informatique assez intéressant. Je ne partage pas la cause des militants anti-IA, mais les techniques d’attaque elles-mêmes m’intéressent beaucoup. Donc s’ils continuent ce type de recherche, je pense que même des gens qui ne sont pas d’accord avec leur cause liront ces discussions sérieusement
Je trouve dommage que les tentatives de poisoning dépensent leur énergie au mauvais endroit. Il existe déjà énormément de données non polluées pour l’entraînement, et du nouveau contenu continue d’être produit via la collecte automatisée dans le monde réel ou grâce à un travail contrôlé pour la qualité dans de grands ateliers en Afrique. Donc oui, on peut salir l’ancien Internet, mais on ne remonte pas pour autant la flèche du temps. En plus, un nouvel Internet centré sur les API et la fédération publique d’annonces est en train de grandir, donc l’importance de ce poisoning traditionnel me semble diminuer
Je me souviens d’une époque où l’agenda principal de l’ancienne culture hacker consistait à supprimer les barrières qui rendaient l’usage de l’information difficile, comme le DRM, le DMCA, les patent trolls ou les restrictions d’exportation sur PGP. Quand on compare avec l’époque où “Information wants to be free” fonctionnait presque comme un slogan, le fait qu’aujourd’hui le sentiment dominant soit qu’il n’y a aucune raison pour les webmasters de faciliter le vol si des entreprises n’arrivent pas à obtenir des training data de manière éthique me semble être un changement énorme. Il aurait été difficile de prévoir une telle évolution il y a 25 ans
J’ai l’impression que le moyen le plus simple de renforcer la résistance à l’IA, c’est de mettre Dario Amodei et Sam Altman à la télé et de les laisser simplement parler
Je vois l’IA comme un outil corporate destiné à extraire davantage de travail des employés. En même temps, j’ai l’impression que c’est aussi un dispositif qui leur donne l’illusion d’être devenus des devs turbo-chargés. En ce moment, la tech industry me paraît plus proche d’un cirque où l’argent afflue que d’un effort sérieux pour améliorer l’humanité
J’ai l’impression que ce mouvement de poisoning relève davantage du slacktivism. Je comprends jusqu’à un certain point l’analyse selon laquelle on remplace le travail de la classe laborieuse par du compute, et que comme le compute est du capital pur, cela revient au final à permettre à la classe capitaliste de serrer la gorge de la classe laborieuse. Et je pense aussi que les capitalistes peuvent réellement souhaiter cette direction. Mais si l’on voit les choses ainsi, alors polluer un peu les modèles me paraît très loin d’être à la hauteur de ce qui se joue réellement
Je vois cette dynamique particulièrement fortement sur Reddit. Certaines communautés sont pro-IA au point d’ajouter des commentaires de résumé générés par IA et d’encourager les posts écrits par IA, tandis que d’autres subreddits vont vers la prudence ou un anti-IA assumé. Les communautés photo ont le problème de voir leur travail soupçonné d’être généré par IA, tandis que les communautés de programmeurs aiment globalement l’outil tout en restant sceptiques. Au final, même les subreddits plus traditionnels semblent chacun en train de trouver leur place quelque part sur le spectre de l’IA. Je pense par exemple à https://www.reddit.com/r/vibecoding/, https://www.reddit.com/r/isthisAI/, https://www.reddit.com/r/aiwars/, https://www.reddit.com/r/antiai/, https://www.reddit.com/r/photography/comments/1q4iv0k/what_do_you_say_to_people_who_think_every_photo/, https://www.reddit.com/r/webdev/comments/1s6mtt7/ai_has_sucked_all_the_fun_out_of_programming/
J’espère qu’un jour on pourra avoir une conversation plus fine sur l’IA et le rôle qu’elle devrait jouer dans le monde. Pour l’instant, l’ambiance me semble n’admettre presque que des extrêmes. Entre ceux qui veulent éliminer totalement l’IA du monde et ceux qui veulent tout lui confier, j’aimerais qu’on puisse discuter de choses concrètes comme les usages responsables, les amortisseurs sociaux ou les problèmes de consommation énergétique
robots.txt, et ne pas croître à l’infini au point de nuire à l’environnement et aux chaînes d’approvisionnement. En même temps, il y a clairement de la valeur dans un usage prudent des modèles. Par exemple, quand je traque un problème bizarre sur un serveur Linux, je n’ai pas toujours envie d’y consacrer énormément de temps et d’énergie mentale. Donc je veux utiliser l’IA consciemment, seulement quand j’en ai besoin, et je déteste vraiment la stratégie de Microsoft qui pousse Copilot sans arrêt. Je ne veux pas qu’on me rappelle à chaque instant d’être plus efficace ; je veux l’utiliser seulement quand je le juge appropriéJe trouve que la colère du billet de blog original est excessive, mais je trouve tout aussi triste que l’attitude consistant à croire sincèrement que ce genre de tentative de poisoning ne peut absolument avoir aucun effet négatif sur l’entraînement des modèles révèle aussi une compréhension technique insuffisante
J’ai envie de faire la blague “Resistance is futile”, tout en étant en même temps assez d’accord avec l’idée que l’IA est réellement en train de dégrader les communautés. Par exemple, YouTube a même confié la gestion des signalements à l’IA, ce qui permet à des acteurs malveillants de revendiquer comme leur une vidéo originale d’autrui et de lui retirer ses revenus via la demonetization. Même un YouTuber connu comme Davie504 a subi ce genre de chose, et la contestation elle-même repasse ensuite par un robot, ce qui est franchement frustrant
À part la méthode qui consiste à polluer les données sur lesquelles l’IA s’entraîne, n’existe-t-il pas d’autres formes de résistance ?
Par exemple, ne pas consommer de contenu généré par l’IA...
En lisant ça, je me suis aussi demandé si, sans le vouloir, cela ne finissait pas par empoisonner les humains aussi.
Je ne sais pas d’où vient le problème, mais un « eum » inapproprié se rajoute après « kkim », « bom », « doem » et « jim ». Ce serait aussi du poisoning, par hasard ? ;)
Le modèle a peut-être légèrement changé, car le même prompt fonctionne mal. J’ai corrigé cette partie.