Quelles sont aujourd’hui les méthodes pour perturber l’entraînement des LLM sur des images d’œuvres ?
(lobste.rs)- Un utilisateur explique que sa femme hésite à publier en ligne les images de ses œuvres, car elle ne veut pas qu’elles soient utilisées pour l’entraînement de LLM
- La question centrale est de savoir s’il existe aujourd’hui des bibliothèques ou des méthodes réellement pratiques pour perturber l’entraînement de LLM en prétraitant les images
- L’utilisateur se demande s’il existe des outils lui permettant de créer lui-même un site web sur mesure pour sa femme
- Il n’a pas beaucoup d’expérience en frontend, mais il peut créer un site simple avec un générateur de site statique
- Il a déjà utilisé Eleventy pour créer le site web d’un groupe, et envisage donc de construire un site statique de manière similaire
Contexte de la question
- Sa femme ne veut pas mettre en ligne les images de ses œuvres
- La raison est qu’elle ne veut pas que ces images soient utilisées pour l’entraînement de LLM
- L’utilisateur cherche à savoir s’il existe un moyen de prétraiter les images des œuvres pour rendre l’entraînement des LLM plus difficile
Solution souhaitée
- Il envisage de créer lui-même un site web sur mesure pour sa femme
- La condition nécessaire est de savoir s’il existe réellement des bibliothèques ou des méthodes permettant de traiter les images d’œuvres afin de perturber l’entraînement des LLM
- Ses contraintes techniques sont les suivantes
- Il n’a pas beaucoup d’expérience en frontend
- Il peut créer un site simple avec un générateur de site statique
- Il a déjà créé un site de groupe avec Eleventy
1 commentaires
Avis sur Lobste.rs
Mise à jour : ça vaut le coup de regarder cara
Une amie artiste y publie ses œuvres et semble en être satisfaite
Le service met en avant une approche centrée sur les artistes, affiche publiquement une position anti-IA, et semble proposer aussi une intégration avec Glaze pour empêcher que les images soient utilisées pour l’entraînement de l’IA
Et ce dont vous vouliez probablement parler, ce n’est pas un LLM mais plutôt des modèles de diffusion. Les LLM traitent du texte, donc ils peuvent être utiles pour faire des recherches
Je me souviens de Nightshade, mais après une vérification rapide, ça semble dater de 2023/24, et je n’ai trouvé ni dépôt ni trace de maintenance
Le problème des approches qui consistent à empoisonner les œuvres d’art, ou à cacher les œuvres accessibles aux LLM, c’est qu’on ne sait pas vraiment à quel point c’est efficace, et qu’on ne peut probablement pas le savoir. Au final, tout part dans une boîte noire
Si vous ne voulez pas que votre travail soit collecté par des LLM, il existe quelques options, chacune avec ses avantages et ses inconvénients
Un autre point important, si vous voulez rester hors des données d’entraînement, c’est qu’il faut probablement aussi être absent des moteurs de recherche. Les moteurs de recherche commerciaux entraînent leurs modèles sur ce qu’ils indexent, donc si on peut trouver le contenu via Google, il y a de fortes chances qu’il ait aussi fini dans Gemini
Au final, créer un site portfolio sans qu’il serve à l’entraînement des LLM est difficile. Si votre objectif est simplement de mettre des œuvres en ligne, une barrière de connexion ou une forte protection anti-crawler réduit considérablement cette probabilité. Malheureusement, on n’arrivera jamais à 0, et il n’existe pas d’outil magique qui permette de cacher ou d’empoisonner une œuvre avec certitude
Je pense que l’intuition de votre femme est juste. Au moins publiquement, la réponse la plus proche de la bonne est de ne pas le mettre en ligne
Si vous ne voulez pas servir de carburant à des machines à produire du contenu médiocre, vous ne pouvez pas partager publiquement
Je n’aurais jamais cru dire ça, mais on dirait qu’il nous faut un DRM plus fort. À un niveau où l’on puisse tracer la provenance jusque dans le modèle, même s’il n’est pas clair qu’une telle chose puisse exister
À part ça, votre femme a probablement raison, et l’obfuscation anti-LLM ne semble pas pouvoir constituer une mesure d’atténuation durable
Et même s’il fonctionnait, il ne faut pas s’attendre à ce qu’il soit déployé pour protéger les droits de ceux qui ne sont pas déjà en position de force
La seule façon d’y parvenir serait d’utiliser, même si ce serait malgré tout cassé à terme, des enclaves chiffrées sur matériel vérifiable, ce qui irait dans le sens d’un retrait progressif du contrôle des utilisateurs sur leurs propres appareils
Et quand on voit l’argent que ces entreprises brûlent chaque jour, le DRM ne semble pas non plus être un obstacle majeur
Au final, cela risquerait seulement de réserver l’accès aux modèles les mieux financés
Selon la façon dont on définit le DRM, ce type même d’obfuscation pourrait déjà être considéré comme du DRM
J’ai regardé Glaze il y a un an et demi, et j’ai même contacté le labo pour poser quelques questions de clarification, mais de mémoire je n’ai jamais eu de réponse
Au cours de cette enquête, j’ai vu beaucoup trop de limites et de réserves. Je ne sais pas où en est l’état de l’art aujourd’hui, mais je ne suis pas optimiste sur le fait qu’un empoisonnement d’image générique fonctionne contre la plupart des modèles
Sur certains modèles et dans certaines conditions, Glaze fonctionnait