Quelles sont aujourd’hui les méthodes pour perturber l’entraînement des LLM sur des images d’œuvres ?

(lobste.rs)

1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp

Un utilisateur explique que sa femme hésite à publier en ligne les images de ses œuvres, car elle ne veut pas qu’elles soient utilisées pour l’entraînement de LLM
La question centrale est de savoir s’il existe aujourd’hui des bibliothèques ou des méthodes réellement pratiques pour perturber l’entraînement de LLM en prétraitant les images
L’utilisateur se demande s’il existe des outils lui permettant de créer lui-même un site web sur mesure pour sa femme
Il n’a pas beaucoup d’expérience en frontend, mais il peut créer un site simple avec un générateur de site statique
Il a déjà utilisé Eleventy pour créer le site web d’un groupe, et envisage donc de construire un site statique de manière similaire

Contexte de la question

Sa femme ne veut pas mettre en ligne les images de ses œuvres
- La raison est qu’elle ne veut pas que ces images soient utilisées pour l’entraînement de LLM
L’utilisateur cherche à savoir s’il existe un moyen de prétraiter les images des œuvres pour rendre l’entraînement des LLM plus difficile

Solution souhaitée

Il envisage de créer lui-même un site web sur mesure pour sa femme
La condition nécessaire est de savoir s’il existe réellement des bibliothèques ou des méthodes permettant de traiter les images d’œuvres afin de perturber l’entraînement des LLM
Ses contraintes techniques sont les suivantes
- Il n’a pas beaucoup d’expérience en frontend
- Il peut créer un site simple avec un générateur de site statique
- Il a déjà créé un site de groupe avec Eleventy

1 commentaires

GN⁺ 4 시간 전

Avis sur Lobste.rs

Mise à jour : ça vaut le coup de regarder cara
Une amie artiste y publie ses œuvres et semble en être satisfaite
Le service met en avant une approche centrée sur les artistes, affiche publiquement une position anti-IA, et semble proposer aussi une intégration avec Glaze pour empêcher que les images soient utilisées pour l’entraînement de l’IA
Et ce dont vous vouliez probablement parler, ce n’est pas un LLM mais plutôt des modèles de diffusion. Les LLM traitent du texte, donc ils peuvent être utiles pour faire des recherches
Je me souviens de Nightshade, mais après une vérification rapide, ça semble dater de 2023/24, et je n’ai trouvé ni dépôt ni trace de maintenance
Le problème des approches qui consistent à empoisonner les œuvres d’art, ou à cacher les œuvres accessibles aux LLM, c’est qu’on ne sait pas vraiment à quel point c’est efficace, et qu’on ne peut probablement pas le savoir. Au final, tout part dans une boîte noire
Si vous ne voulez pas que votre travail soit collecté par des LLM, il existe quelques options, chacune avec ses avantages et ses inconvénients
1. Ne pas le mettre en ligne. C’est très simple, mais ça ne fonctionne que si personne d’autre ne le met en ligne non plus. S’il s’agit d’un livre, une entreprise d’IA peut aussi l’obtenir par un autre biais, par exemple via un scan
2. Le publier en ligne uniquement derrière une inscription et une connexion. Les personnes intéressées peuvent y accéder, tandis que les LLM ordinaires ne le peuvent pas. Bien sûr, cela suppose que personne ne le republie ensuite sans barrière de connexion
3. Le placer derrière une forte protection anti-crawler. C’est un peu gênant de citer mon propre outil, mais mettre quelque chose comme iocaine devant un site permet de bloquer beaucoup de crawlers. Pas tous, mais suffisamment pour réduire fortement les chances que le contenu finisse dans les données d’entraînement, sans créer une trop grosse barrière pour les visiteurs légitimes
  Un autre point important, si vous voulez rester hors des données d’entraînement, c’est qu’il faut probablement aussi être absent des moteurs de recherche. Les moteurs de recherche commerciaux entraînent leurs modèles sur ce qu’ils indexent, donc si on peut trouver le contenu via Google, il y a de fortes chances qu’il ait aussi fini dans Gemini
  Au final, créer un site portfolio sans qu’il serve à l’entraînement des LLM est difficile. Si votre objectif est simplement de mettre des œuvres en ligne, une barrière de connexion ou une forte protection anti-crawler réduit considérablement cette probabilité. Malheureusement, on n’arrivera jamais à 0, et il n’existe pas d’outil magique qui permette de cacher ou d’empoisonner une œuvre avec certitude
Je pense que l’intuition de votre femme est juste. Au moins publiquement, la réponse la plus proche de la bonne est de ne pas le mettre en ligne
- Je n’aime pas ça, mais on dirait que c’est globalement la situation pour toute forme d’expression créative humaine
  Si vous ne voulez pas servir de carburant à des machines à produire du contenu médiocre, vous ne pouvez pas partager publiquement
Je n’aurais jamais cru dire ça, mais on dirait qu’il nous faut un DRM plus fort. À un niveau où l’on puisse tracer la provenance jusque dans le modèle, même s’il n’est pas clair qu’une telle chose puisse exister
À part ça, votre femme a probablement raison, et l’obfuscation anti-LLM ne semble pas pouvoir constituer une mesure d’atténuation durable
- Voir des gens défendre le DRM sur un forum de hackers que j’aime bien, c’est le signe que la situation est vraiment grave
- Heureusement, le DRM ne fonctionne pas, et ne peut pas fonctionner
  Et même s’il fonctionnait, il ne faut pas s’attendre à ce qu’il soit déployé pour protéger les droits de ceux qui ne sont pas déjà en position de force
- Absolument pas. Il ne faut pas de DRM plus fort
  La seule façon d’y parvenir serait d’utiliser, même si ce serait malgré tout cassé à terme, des enclaves chiffrées sur matériel vérifiable, ce qui irait dans le sens d’un retrait progressif du contrôle des utilisateurs sur leurs propres appareils
- Vu qu’ils ignorent déjà complètement le droit d’auteur, les licences, etc., j’ai du mal à croire que rajouter du DRM aiderait
  Et quand on voit l’argent que ces entreprises brûlent chaque jour, le DRM ne semble pas non plus être un obstacle majeur
  Au final, cela risquerait seulement de réserver l’accès aux modèles les mieux financés
  Selon la façon dont on définit le DRM, ce type même d’obfuscation pourrait déjà être considéré comme du DRM
J’ai regardé Glaze il y a un an et demi, et j’ai même contacté le labo pour poser quelques questions de clarification, mais de mémoire je n’ai jamais eu de réponse
Au cours de cette enquête, j’ai vu beaucoup trop de limites et de réserves. Je ne sais pas où en est l’état de l’art aujourd’hui, mais je ne suis pas optimiste sur le fait qu’un empoisonnement d’image générique fonctionne contre la plupart des modèles
Sur certains modèles et dans certaines conditions, Glaze fonctionnait

Quelles sont aujourd’hui les méthodes pour perturber l’entraînement des LLM sur des images d’œuvres ?

Contexte de la question

Solution souhaitée

À lire aussi

1 commentaires

Avis sur Lobste.rs