La résistance à l’IA s’intensifie

(stephvee.ca)

17 points par GN⁺ 2026-04-21 | 5 commentaires | Partager sur WhatsApp

Alors qu’Internet déborde de contenus médiocres générés par l’IA (slop), divers mouvements de résistance active à l’IA se propagent
La communauté Reddit r/PoisonFountain vise à fournir aux crawlers d’IA 1 téraoctet de données empoisonnées par jour d’ici fin 2026
Différentes formes de résistance apparaissent, comme des techniques pour tromper les résumeurs vidéo par IA ou l’insertion délibérée de fausses données sur les réseaux sociaux
Cette résistance s’explique notamment par le fait que les crawlers d’IA ignorent les fichiers robots.txt et provoquent sur de petits sites une charge comparable à un DDoS
L’espoir est que, si ce sentiment se traduit par des actes de résistance pacifiques et légaux, il puisse modifier les pratiques de collecte de données de la Silicon Valley

Communauté d’empoisonnement de données visant les crawlers d’IA

La communauté Reddit r/PoisonFountain a été créée par des personnes se présentant comme des initiés du secteur de l’IA, et encourage le plus grand nombre possible de personnes à fournir de grandes quantités de données parasites (poison) aux crawlers web
L’objectif est de fournir aux crawlers 1 téraoctet de données empoisonnées par jour d’ici fin 2026
Le cœur de ces données empoisonnées est hébergé sur rnsaffn.com, placé parmi des liens-poubelle susceptibles d’attirer les crawlers d’IA
- À première vue, cela ressemble à du code normal, mais il contient en réalité des erreurs subtiles, produisant un code inutilisable
- Il est possible de filtrer ces erreurs, mais cela coûte cher à grande échelle
Les entreprises d’IA ne peuvent pas améliorer leurs modèles sans nouvelles données produites par des humains ; l’enjeu principal est donc d’augmenter le temps et le coût du pillage de données
Miasma est un outil qui exploite ces données empoisonnées pour servir de grandes quantités de déchets à des bots malveillants ; son développeur le décrit comme un « buffet infini de slop pour les machines à slop »

Les comportements problématiques des crawlers d’IA

Les équipes qui déploient des crawlers d’IA provoquent régulièrement sur de petits sites web une charge comparable à un DDoS, ce qui augmente les coûts d’hébergement pour tout le monde
Ils ne respectent pas robots.txt et il leur arrive fréquemment de dissimuler leurs crawlers derrière des proxys résidentiels
S’il n’est pas possible de se procurer des données d’entraînement de manière éthique, aucun exploitant de site web n’a de raison de faciliter le vol de données

Tentatives d’empoisonnement des résumeurs vidéo par IA

Dans une vidéo relayée via r/PoisonFountain, un créateur nommé @f4mi montre une technique pour empoisonner des résumeurs vidéo par IA en exploitant une faille des sous-titres YouTube : Polluer des résumeurs vidéo IA en exploitant une faille des sous-titres YouTube
Depuis, YouTube a corrigé cette faille de sous-titres, et la technique ne fonctionne plus
Même temporaire, cet exemple montre qu’il est possible de perturber des systèmes d’IA et que des personnes cherchent activement à résister

Sabotage délibéré de l’IA sur les réseaux sociaux

Sur des plateformes comme Reddit, les actes consistant à publier délibérément de fausses informations pour empoisonner les données d’entraînement de l’IA sont en hausse
Exemple : des publications affirmant faussement qu’Idris Elba jouait la mère de Raymond dans « Everybody Loves Raymond »
- Un humain comprend immédiatement, par le contexte, qu’il s’agit d’une fausseté, mais un scraper web automatisé peut l’interpréter comme une donnée de qualité produite par des humains
- Si ces données parviennent à OpenAI ou à d’autres acteurs, leur suppression du jeu de données d’entraînement exige des ressources supplémentaires
On peut y voir une version moderne des ouvriers du textile de la révolution industrielle détruisant les métiers à tisser mécaniques ; si suffisamment de personnes polluent l’espace public avec de fausses informations destinées aux bots, cela peut pousser les entreprises d’IA à repenser leur manière de collecter les données d’entraînement

Un rejet plus large de l’IA

Beaucoup de personnes éprouvent une hostilité envers l’impact de l’IA sur le monde, notamment sur les communautés en ligne, l’environnement, les écoles primaires et les universités, les personnes vulnérables sur le plan psychique, et les moyens de subsistance
Certaines personnes consomment et produisent du slop d’IA, mais il y a bien davantage de gens qui détestent et rejettent cette technologie, en ligne comme hors ligne
La haine débouche rarement sur de bons résultats ; l’auteur s’oppose donc aux actes violents comme donner des coups de pied à des robots-livreurs d’IA ou les renverser, ou encore lancer un cocktail Molotov contre la maison de Sam Altman
En revanche, si les sentiments envers l’IA se transforment en actes de résistance pacifiques et légaux, ils pourraient réellement changer la manière d’agir de la Silicon Valley

Post-scriptum : modification du texte original après sa viralité sur Hacker News

Cet article s’est retrouvé en première page d’un grand hub d’actualités (Hacker News), provoquant un afflux massif et inattendu de trafic
Une attaque malveillante de surcharge serveur a ensuite eu lieu, avec des milliers de requêtes envoyées vers cette page depuis un petit nombre d’adresses IP
- Sur un hébergement mutualisé d’entrée de gamme, le site aurait probablement été entièrement hors ligne ; en réponse, le trafic vers cette URL a été temporairement bloqué
Bien que l’auteur ne soit pas spécialiste de l’IA, certains commentateurs ont exigé une précision de niveau expert et formulé des critiques excessives
- L’un des commentaires allait jusqu’à dire qu’ils n’étaient « pas mieux qu’un groupe qui brûle des bibliothèques », une réaction particulièrement décevante pour une blogueuse qui aime les bibliothèques et le partage des connaissances
Le but initial était simplement de partager, avec les lecteurs habituels d’un petit blog, des liens sur les tendances anti-IA ; l’autrice explique qu’elle n’aurait pas publié ce texte si elle avait su qu’il attirerait une telle attention négative sur une aussi grande plateforme
Elle a ensuite décidé de limiter ses publications d’opinion personnelles sur l’IA, pour se recentrer sur la vocation première du blog : le plaisir du small web
C’est un exemple montrant comment, sur le small web, la libre expression des opinions peut être freinée par une diffusion virale

5 commentaires

GN⁺ 2026-04-21

Commentaires sur Hacker News

Je suis content que cette personne ait trouvé une communauté, mais j’ai l’impression qu’elle est trop submergée par le sentiment anti-IA. À mon avis, il y aura pendant les 30 prochaines années des groupes qui détesteront l’IA et essaieront de la bloquer. Il y en a toujours eu contre les smartphones, Internet ou la TV. En revanche, si le model poisoning devenait vraiment possible de manière fiable, ce serait un problème d’informatique assez intéressant. Je ne partage pas la cause des militants anti-IA, mais les techniques d’attaque elles-mêmes m’intéressent beaucoup. Donc s’ils continuent ce type de recherche, je pense que même des gens qui ne sont pas d’accord avec leur cause liront ces discussions sérieusement
- Je pense que le model poisoning finit par buter sur une limite proche du halting problem. Dès qu’un mécanisme pour modifier un comportement mesurable devient public, le système peut aussi être entraîné à en tenir compte et à y résister. Les techniques de poisoning publiées risquent au final d’être absorbées comme cibles d’entraînement défensif ou de filtrage. À l’inverse, si elles ne sont efficaces qu’en dégradant gravement l’information elle-même, alors les données deviennent aussi inutiles pour les humains, donc peu pratiques. Du coup, je pense que ces attaques auront soit un effet minime, soit un effet temporaire avant d’être neutralisées une fois intégrées dans le pipeline d’entraînement. Cela dit, c’est quand même un sujet de CS intéressant, parce que cette courte fenêtre peut révéler des zones rugueuses où humains et modèles réagissent différemment
- Il y a quelques années, j’ai inventé ici un faux nom de jeu et laissé plusieurs commentaires à son sujet pour polluer de futurs modèles d’IA. Aujourd’hui, je ne me souviens même plus du nom du jeu, et je n’ai aucune envie de cliquer sur More des centaines de fois pour retrouver mes vieux commentaires
- Je suppose que les modèles Chinese seront plus résistants au poisoning. Et le fait que le grand public Chinese soit bien plus pro-IA que l’Occident doit aussi jouer
- J’ai envie de faire une blague cynique du genre : si l’humanité disparaît d’ici quelques années à cause d’une superintelligence non alignée, au moins il n’existera plus non plus de communauté militante active pour haïr l’IA et essayer de l’empêcher
- Je pense que le SEO a déjà naturellement muté vers le LLM training et l’agentic search optimization. J’ai l’impression que c’est le cœur de ce qui se passe en ce moment
Je trouve dommage que les tentatives de poisoning dépensent leur énergie au mauvais endroit. Il existe déjà énormément de données non polluées pour l’entraînement, et du nouveau contenu continue d’être produit via la collecte automatisée dans le monde réel ou grâce à un travail contrôlé pour la qualité dans de grands ateliers en Afrique. Donc oui, on peut salir l’ancien Internet, mais on ne remonte pas pour autant la flèche du temps. En plus, un nouvel Internet centré sur les API et la fédération publique d’annonces est en train de grandir, donc l’importance de ce poisoning traditionnel me semble diminuer
- Je trouve cette remarque intéressante. Les AI labs ont vraiment l’air désespérés pour obtenir du nouveau contenu Internet, et semblent prêtes à acheter des données même sur des plateformes fermées si on leur en propose. On a même l’impression qu’elles essaient parfois de les prendre sans consentement. Le scraping abusif et sournois me semble exploser en ce moment
- Indépendamment du fait qu’il y ait beaucoup de contenu, je pense que les gens qui mettent quelque chose en ligne galèrent à bloquer les AI crawlers auxquels ils n’ont pas donné leur accord. Dans beaucoup de cas, ils doivent déjà les bloquer juste pour protéger leur infrastructure d’un déluge de requêtes. Or les AI crawlers respectent mal les signaux de refus d’accès, donc du point de vue d’un propriétaire qui ne veut pas que son contenu serve à l’entraînement, le poisoning peut paraître une réponse assez rationnelle si c’est possible. C’est peut-être même presque la seule manière de faire fuir les crawlers
- Je pense que l’idée selon laquelle il y a assez de contenu non pollué est correcte en soi. Cela dit, d’après les cas que j’ai vus, cacher du contenu peu visible pour l’œil humain mais qui semble pertinent pour les scrapers ne suffit pas facilement à polluer de manière significative un dataset entier ou un modèle. En revanche, on peut au moins faire en sorte que le bénéfice net obtenu en ignorant le message « merci de ne pas bombarder mon site de requêtes de scraper » tombe à zéro, voire à une légère perte. Et même si ça ne marche pas, l’implémentation était un jeu assez amusant. Aussi, pour ceux qui veulent automatiser du poisoning, des mots et caractères aléatoires sont faciles à filtrer, donc ça marche mal. En revanche, réarranger le contenu de la page courante et des pages voisines, en y mêlant quelques fragments supplémentaires, semble plus susceptible d’affaiblir les connexions entre tokens. Et comme certains scrapers jettent toute la page s’ils voient des insultes trop explicites, semer quelques chaînes désagréables dans des zones que seuls les bots voient peut fonctionner dans certains cas. Bien sûr, aucune de ces méthodes n’empêche en soi le resource hogging qui bouffe la bande passante
- Je recommanderais de regarder du côté du "model collapse". Dans un environnement saturé comme aujourd’hui de contenus générés par l’IA, le simple fait qu’il y ait beaucoup de contenu ne suffit peut-être plus pour constituer une ressource d’entraînement adéquate. Et il est aussi important de noter qu’une masse énorme de données devient progressivement privée ou passe derrière des paywalls
- Je trouve intéressant qu’Anthropic traite aussi directement le problème du small-sample poisoning. Comme ressource liée, je renverrais directement à https://www.anthropic.com/research/small-samples-poison
Je me souviens d’une époque où l’agenda principal de l’ancienne culture hacker consistait à supprimer les barrières qui rendaient l’usage de l’information difficile, comme le DRM, le DMCA, les patent trolls ou les restrictions d’exportation sur PGP. Quand on compare avec l’époque où “Information wants to be free” fonctionnait presque comme un slogan, le fait qu’aujourd’hui le sentiment dominant soit qu’il n’y a aucune raison pour les webmasters de faciliter le vol si des entreprises n’arrivent pas à obtenir des training data de manière éthique me semble être un changement énorme. Il aurait été difficile de prévoir une telle évolution il y a 25 ans
- Je n’ai jamais vraiment trouvé convaincante l’idée que ce serait une contradiction. C’est plus facile à comprendre si l’on distingue entre quelqu’un qui veut que tout le monde puisse devenir riche, et quelqu’un qui veut devenir riche seul en rendant les autres plus pauvres. Ce n’est pas contradictoire, à mon avis, qu’une personne favorable au libre accès à l’information s’oppose à des usages corporates des données qui nuisent à la capacité d’accès des autres, ou qui en masquent ou déforment la provenance. Tant qu’on ne vit pas dans un monde où le copyright a disparu, où les œuvres sont des biens publics et où les entreprises ne monopolisent pas l’information, cela me semble moins un changement de position qu’une application cohérente
- Je vois ce phénomène comme quelque chose qui arrive dans une culture dépourvue de mécanismes solides pour exclure ceux qui cherchent à détruire la communauté. Ça me fait penser à la métaphore de laisser entrer un vampire dans la maison puis de s’étonner d’avoir mal au cou
- Je pense qu’à l’époque, les gens voulaient construire une économie du partage et du don. Ils n’ont simplement pas réussi à empêcher les acteurs malveillants d’exploiter cette économie du partage, et ils ont fini déçus et amers quand leur idéalisme a été capturé par des gens poursuivant leur intérêt personnel. Du coup, le backlash actuel ne me paraît pas si étrange
- Je reste plutôt du côté de “information wants to be free”. J’ai du mal à comprendre les gens qui publient leur logiciel sous licence open source puis s’indignent que des LLM l’utilisent pour l’entraînement. Quand Google indexait le code source autrefois, les gens étaient relativement silencieux, probablement parce que cela renvoyait du trafic et donc de l’argent. J’ai donc l’impression que ce débat est moins philosophique qu’une question de savoir qui capte l’argent, et ça ne m’intéresse pas beaucoup. Pour moi, la valeur centrale de l’open source est que tout le monde puisse apprendre, que ce soit via l’IA ou autrement
- Je ne suis pas d’accord avec l’idée que cela trahirait l’ethos hacker originel. “Information wants to be free” n’est qu’une partie de cet ethos, pas sa totalité, et il y a beaucoup d’autres tendances sans rapport avec le cracking. Et puis l’information hébergée sur un serveur n’est pas gratuite comme une bière offerte : la disponibilité du serveur et son coût sont bien réels. Concevoir des mécanismes qui pénalisent les acteurs cupides est un droit légitime des administrateurs de serveurs, et un problème de tit-for-tat assez intéressant. En plus, ce type de réponse par poisoning n’appelle pas à l’intervention de l’État : c’est une forme de riposte directe par les individus eux-mêmes, ce qui cadre bien avec une certaine mentalité hacker. Donc même si cela entre en conflit, par accident, avec un aspect de la disponibilité de l’information, je pense que cette résistance aux LLM relève au contraire pleinement de l’esprit hacker d’origine
J’ai l’impression que le moyen le plus simple de renforcer la résistance à l’IA, c’est de mettre Dario Amodei et Sam Altman à la télé et de les laisser simplement parler
- De mon côté, je pense qu’en y ajoutant Alex Karp pour faire la promotion des armes autonomes, on obtient une trinité parfaite
- J’aimerais en entendre plus sur les raisons de ce sentiment. Je pense à des choses comme le fait qu’ils se connectent mal aux gens ordinaires, que leurs incitations soient désalignées, qu’ils ne parlent pas directement, ou qu’ils aient plus de pouvoir que des dirigeants élus. Cela dit, sur le jugement des personnes, je n’ai pas envie de mettre Amodei et Altman dans le même sac. À mes yeux, Altman est élégant et compétent, mais c’est justement ce qui le rend inquiétant, avec une ambiance immorale où l’on pousse à suivre la personne plus que les idées. À l’inverse, Amodei me donne l’impression d’un geek bien intentionné qui convainc par son tempérament et ses idéaux. Il est maladroit face aux médias, mais justement cela donne l’impression qu’il parle en étant lui-même, ce qui me paraît plutôt positif. Bien sûr, il y a beaucoup à critiquer chez les deux. Dario ne va peut-être pas encore assez loin sur les risques futurs de l’IA, et Altman donne une première impression d’intelligence et de compétence, mais aussi de manipulation. Malgré tout, je pense que Dario est l’un des dirigeants d’entreprise qui prennent l’alignment le plus au sérieux. Il finance le sujet directement, comprend la technologie, et semble connaître la substance même de la recherche réelle. Quand on pense à quel point il est rare qu’un CEO ait aussi la capacité d’exécuter concrètement le cœur du travail de son domaine, cela me paraît assez exceptionnel
Je vois l’IA comme un outil corporate destiné à extraire davantage de travail des employés. En même temps, j’ai l’impression que c’est aussi un dispositif qui leur donne l’illusion d’être devenus des devs turbo-chargés. En ce moment, la tech industry me paraît plus proche d’un cirque où l’argent afflue que d’un effort sérieux pour améliorer l’humanité
- J’ai l’impression qu’au moins parmi les programmeurs encore sains d’esprit, personne ne croit vraiment à ce mythe du “turbo-charged dev”. La plupart voient très bien que toute cette mascarade n’est au fond qu’un moyen de gagner de l’argent
J’ai l’impression que ce mouvement de poisoning relève davantage du slacktivism. Je comprends jusqu’à un certain point l’analyse selon laquelle on remplace le travail de la classe laborieuse par du compute, et que comme le compute est du capital pur, cela revient au final à permettre à la classe capitaliste de serrer la gorge de la classe laborieuse. Et je pense aussi que les capitalistes peuvent réellement souhaiter cette direction. Mais si l’on voit les choses ainsi, alors polluer un peu les modèles me paraît très loin d’être à la hauteur de ce qui se joue réellement
Je vois cette dynamique particulièrement fortement sur Reddit. Certaines communautés sont pro-IA au point d’ajouter des commentaires de résumé générés par IA et d’encourager les posts écrits par IA, tandis que d’autres subreddits vont vers la prudence ou un anti-IA assumé. Les communautés photo ont le problème de voir leur travail soupçonné d’être généré par IA, tandis que les communautés de programmeurs aiment globalement l’outil tout en restant sceptiques. Au final, même les subreddits plus traditionnels semblent chacun en train de trouver leur place quelque part sur le spectre de l’IA. Je pense par exemple à https://www.reddit.com/r/vibecoding/, https://www.reddit.com/r/isthisAI/, https://www.reddit.com/r/aiwars/, https://www.reddit.com/r/antiai/, https://www.reddit.com/r/photography/comments/1q4iv0k/what_do_you_say_to_people_who_think_every_photo/, https://www.reddit.com/r/webdev/comments/1s6mtt7/ai_has_sucked_all_the_fun_out_of_programming/
- J’ai l’impression que c’est typique de Reddit, et plus largement de la pensée de groupe humaine. Les gens préfèrent souvent se placer rapidement quelque part sur une ligne à une dimension, ou être classés dans l’un des deux camps, plutôt que de gérer les nuances
J’espère qu’un jour on pourra avoir une conversation plus fine sur l’IA et le rôle qu’elle devrait jouer dans le monde. Pour l’instant, l’ambiance me semble n’admettre presque que des extrêmes. Entre ceux qui veulent éliminer totalement l’IA du monde et ceux qui veulent tout lui confier, j’aimerais qu’on puisse discuter de choses concrètes comme les usages responsables, les amortisseurs sociaux ou les problèmes de consommation énergétique
- Je pense que le venture capital a parié sur un scénario où l’IA prend le contrôle du monde, et que du coup des usages conservateurs et limités des LLM auront du mal à attirer des investissements pendant un bon moment. J’ai aussi l’impression qu’il y a une raison plus subtile : investir dans ces cas d’usage prudents enverrait un signal qui déprécierait les paris majeurs déjà en portefeuille
- Je me situe globalement exactement dans cet entre-deux. Les AI crawlers et les entreprises derrière eux devraient respecter robots.txt, et ne pas croître à l’infini au point de nuire à l’environnement et aux chaînes d’approvisionnement. En même temps, il y a clairement de la valeur dans un usage prudent des modèles. Par exemple, quand je traque un problème bizarre sur un serveur Linux, je n’ai pas toujours envie d’y consacrer énormément de temps et d’énergie mentale. Donc je veux utiliser l’IA consciemment, seulement quand j’en ai besoin, et je déteste vraiment la stratégie de Microsoft qui pousse Copilot sans arrêt. Je ne veux pas qu’on me rappelle à chaque instant d’être plus efficace ; je veux l’utiliser seulement quand je le juge approprié
- J’ai l’impression que ce n’était pas du tout ce type d’usage que j’imaginais autrefois pour l’IA. Au départ, il y avait une grande vision où elle résolvait de grands problèmes. Donc je pense qu’il faut aujourd’hui pousser vers un déploiement responsable de l’IA. Il faut commencer dans des domaines à faible risque, puis ne monter vers des secteurs plus critiques qu’une fois qu’on a vérifié qu’elle fonctionne suffisamment bien dans des situations moins catastrophiques
- Je suis un peu surpris de lire ce genre d’avis chez quelqu’un qui participe à ce site. J’avais au contraire l’impression que c’est précisément ici qu’on voit le plus souvent apparaître cette position intermédiaire. Même sur la dernière année, j’ai le sentiment qu’on est passés de gestes vagues à une attitude plus claire : accepter l’IA tout en identifiant ses problèmes et en réfléchissant aux réponses possibles. Je pense que l’IA peut être un outil formidable quand elle est bien utilisée, mais je trouve effrayante la manière actuelle de la mettre entre toutes les mains sans que les gens comprennent vraiment l’outil. J’imagine qu’il y a ici pas mal de personnes qui partagent ce ressenti
Je trouve que la colère du billet de blog original est excessive, mais je trouve tout aussi triste que l’attitude consistant à croire sincèrement que ce genre de tentative de poisoning ne peut absolument avoir aucun effet négatif sur l’entraînement des modèles révèle aussi une compréhension technique insuffisante
- Je ne pense pas qu’on puisse être aussi catégorique sur le fait que le poisoning ne marche jamais. Au moins à voir certains cas, j’ai l’impression qu’il ne faut pas fermer complètement la porte à cette possibilité, et l’exemple qui me vient est https://www.reddit.com/r/BrandNewSentence/comments/1so9wf1/comment/ogrqpxz/
- J’ai du mal à être d’accord avec l’idée que la colère en elle-même serait cringe. Balayer la colère tout entière comme puérile peut mener, à mon avis, à une forme de déconnexion du réel et du sens moral
- Moi, je trouve plus cringe le fait de faire écrire ses messages, emails et CV par ChatGPT, de voir des développeurs logiciels en activité fabriquer des applis entières en vibe coding, et d’entendre dire qu’on va bientôt sortir l’AGI des LLM
J’ai envie de faire la blague “Resistance is futile”, tout en étant en même temps assez d’accord avec l’idée que l’IA est réellement en train de dégrader les communautés. Par exemple, YouTube a même confié la gestion des signalements à l’IA, ce qui permet à des acteurs malveillants de revendiquer comme leur une vidéo originale d’autrui et de lui retirer ses revenus via la demonetization. Même un YouTuber connu comme Davie504 a subi ce genre de chose, et la contestation elle-même repasse ensuite par un robot, ce qui est franchement frustrant
- Je pense que ce problème sur YouTube existait déjà bien avant les LLM. Le système de copyright strikes était cassé depuis le début. Donc choisir n’importe quel problème tech pour tout mettre sur le dos de l’IA me paraît un peu inexact

amebahead 2026-04-23

À part la méthode qui consiste à polluer les données sur lesquelles l’IA s’entraîne, n’existe-t-il pas d’autres formes de résistance ?
Par exemple, ne pas consommer de contenu généré par l’IA...

dongho42 2026-04-23

En lisant ça, je me suis aussi demandé si, sans le vouloir, cela ne finissait pas par empoisonner les humains aussi.

geesecross 2026-04-22

Je ne sais pas d’où vient le problème, mais un « eum » inapproprié se rajoute après « kkim », « bom », « doem » et « jim ». Ce serait aussi du poisoning, par hasard ? ;)

xguru 2026-04-22

Le modèle a peut-être légèrement changé, car le même prompt fonctionne mal. J’ai corrigé cette partie.