Une approche étonnamment simple pour récupérer les connaissances oubliées des LLM

(arxiv.org)

1 points par GN⁺ 2024-11-05 | 1 commentaires | Partager sur WhatsApp

Un article ICLR 2025 montre que le machine unlearning des LLM ne supprime pas complètement les connaissances et peut les masquer, tandis que la quantification au moment du déploiement peut les faire réapparaître
Dans des expériences portant sur plusieurs techniques de quantification et niveaux de précision, les méthodes d’unlearning soumises à des contraintes d’utilité conservaient en moyenne 21 % des connaissances censées être oubliées en pleine précision, mais ce chiffre montait à 83 % après une quantification 4 bits
Dans le cas GA_KLR sur le jeu de données BOOKS, le taux de conservation des connaissances d’origine du modèle en pleine précision était de 13 %, mais il remontait à environ 89 % après quantification
La cause tient au fait que de faibles taux d’apprentissage et la régularisation sur les données retain réduisent les écarts de poids entre le modèle d’origine et le modèle désappris, si bien que la quantification peut les mapper vers les mêmes valeurs
Les mesures d’atténuation consistent à utiliser un taux d’apprentissage plus élevé et une module-level saliency map pour ne mettre à jour que les composants à fort impact, mais la méthode reste sensible aux hyperparamètres et une solution stable reste à trouver

L’unlearning efface-t-il les connaissances, ou les cache-t-il ?

Les LLM acquièrent de puissantes capacités de génération grâce à l’entraînement sur de vastes corpus de texte, mais ils peuvent aussi apprendre des comportements indésirables présents dans les données d’entraînement
- Parmi les exemples : la reproduction non autorisée de contenus protégés par le droit d’auteur, la génération de données personnelles comme des coordonnées, ou encore la production de messages offensants ou dangereux
- Il existe aussi un contexte juridique, comme le « droit à l’oubli » du RGPD, dans lequel un utilisateur peut demander la suppression de ses données personnelles d’un modèle entraîné
Le machine unlearning est une approche qui vise à supprimer l’influence de données problématiques en éliminant la mémorisation de connaissances spécifiques, sans réentraîner intégralement le modèle
- Réentraîner un LLM est souvent peu pratique en raison de son coût et du temps nécessaire
- L’objectif est de retirer des connaissances spécifiques tout en préservant autant que possible l’utilité du modèle
La question centrale est de savoir si les méthodes existantes d’unlearning pour LLM parviennent réellement à un oubli, ou si elles se contentent de cacher les connaissances d’une manière que les benchmarks actuels ne détectent pas

Méthodes d’unlearning existantes pour préserver l’utilité

Les méthodes représentatives d’unlearning étudiées incluent gradient ascent (GA) et negative preference optimization (NPO)
- GA applique une ascension de gradient à la perte d’entropie croisée afin de réduire la probabilité de prédire la bonne réponse sur le jeu de données forget
- NPO considère le forget set comme des negative preference data et adapte l’objectif offline DPO pour ajuster le modèle de façon à attribuer une faible vraisemblance au forget set
GA et NPO n’étant pas conçues à l’origine pour préserver l’utilité, elles sont généralement utilisées avec des techniques de régularisation
- Descente de gradient sur le jeu de données retain
- Minimisation de la divergence KL entre les distributions de probabilité du modèle désappris et du modèle cible sur les entrées retain
Ces combinaisons cherchent à équilibrer performance d’oubli et utilité du modèle, mais cet équilibre peut se rompre dans un environnement quantifié

Résultats expérimentaux : la quantification ravive les connaissances oubliées

Les expériences consistent à appliquer l’unlearning à un modèle cible et à un jeu de données forget pour produire un unlearned model, puis à comparer les performances en pleine précision et après quantification
En pleine précision, le modèle désappris affiche de fortes performances d’unlearning, mais la simple application de la quantification dégrade ces performances
Les résultats quantitatifs montrent que la récupération des connaissances ne se limite pas à une configuration unique
- Les méthodes d’unlearning soumises à des contraintes d’utilité conservent en moyenne 21 % des connaissances censées être oubliées en pleine précision
- Après quantification 4 bits, cette valeur grimpe à 83 %
- Sur le jeu de données BOOKS, avec GA_KLR, seules 13 % des connaissances d’origine étaient conservées en pleine précision, mais elles remontaient à environ 89 % après quantification
Le même phénomène est vérifié avec plusieurs techniques de quantification, niveaux de précision et benchmarks

La vulnérabilité créée par de faibles changements de poids

L’hypothèse centrale est que l’unlearning existant repose sur de faibles changements de poids
- Pour préserver l’utilité du modèle, il utilise de petits taux d’apprentissage et une régularisation sur le retain set
- Résultat : les poids du LLM cible et du LLM désappris restent très proches
La quantification peut mapper des poids proches vers une même valeur
- Le LLM cible et le LLM désappris peuvent donc avoir des poids similaires après quantification
- Comme le LLM cible quantifié conserve la majeure partie des connaissances censées être oubliées, le LLM désappris quantifié peut lui aussi les récupérer
Ce problème est important en déploiement réel
- La quantification est largement utilisée pour déployer des LLM dans des environnements contraints en ressources
- Si un modèle a été fine-tuné pour oublier des contenus malveillants ou des données personnelles, ces contenus ne devraient pas réapparaître après quantification

Stratégies d’atténuation et limites restantes

La stratégie proposée d’unlearning robuste à la quantification vise à réduire l’écart d’oubli entre le modèle en full precision et le modèle quantifié
L’idée de base consiste à appliquer un taux d’apprentissage plus élevé à la fois à la forgetting loss et à la retaining loss
- La forgetting loss pénalise un modèle qui conserve les informations du forget set
- La retaining loss vise à préserver l’utilité sur le jeu de données retain
Un taux d’apprentissage élevé peut réduire la récupération des connaissances, mais ses effets secondaires sont aussi importants
- Le forgetting gradient peut entraîner des mises à jour agressives et conduire à un ajustement excessif du modèle
- Utiliser un fort taux d’apprentissage sur le jeu de données retain peut créer un biais vers les retain data et dégrader les performances sur les tâches hors retain
Pour réduire ces effets secondaires, les auteurs construisent une saliency map au niveau des modules et ne mettent à jour sélectivement que les composants les plus influents liés aux données à oublier
- Expérimentalement, cette targeted strategy contribue à atténuer le risque de mises à jour agressives, à préserver l’utilité du modèle et à produire un résultat d’unlearning plus équilibré
Toutefois, ce framework est très sensible au choix des hyperparamètres, ce qui peut rendre le modèle désappris instable
Le code est disponible sur FailureLLMUnlearning

1 commentaires

GN⁺ 2024-11-05

Avis sur Hacker News

En résumé, la découverte de cet article est que quantifier un modèle annule plusieurs techniques de « désapprentissage » (unlearning).
Le désapprentissage consiste à mettre à jour les poids du modèle d’une certaine manière pour lui faire oublier des faits précis ; c’est généralement dans le but de satisfaire des exigences liées au droit d’auteur, même si je ne sais pas bien si c’est réellement utilisé.
Il semble nécessaire d’avoir ici une bonne analyse du modèle de menace. Par exemple, si je dispose d’un modèle fp32 affiné pour oublier un fait précis, et que je peux le quantifier pour récupérer ce fait, il faut déterminer dans quelles situations cela devient dangereux.
- Le désapprentissage est décrit comme « le processus qui consiste à effacer certaines connaissances d’un LLM tout en préservant au maximum l’utilité du modèle ».
  Autrement dit, cela ressemble à : « Nous savons que notre modèle ne vaut rien sans vos données sources. Nous allons donc prendre les parties utiles de vos données et brouiller le reste, afin de faire payer les utilisateurs pour l’utilité que vous avez fournie, sans rien vous verser. »
- À l’avenir, il y aura sans doute des LLM chargés de détecter les « LLM façon candidat mandchou ».
- Plus généralement que le « désapprentissage », je me demande aussi si exécuter un modèle fp16 en fp32 ou fp64 améliore quelque chose.
  Par exemple, est-ce que cela ferait apparaître des connaissances inaccessibles à plus faible précision ?
- Dans une organisation qui emploie quelqu’un avec un titre lié à la sécurité de l’IA, je pense qu’on utilisera des techniques de désapprentissage pour empêcher le modèle de se souvenir de recettes courantes de drogues illégales, de poisons ou d’explosifs.
  Le modèle de menace ici est probablement le déploiement d’un modèle dans lequel de tels faits auraient été « ressuscités » par accident. C’est d’autant plus vrai que le déploiement de modèles quantifiés est courant.
  La plupart de ces informations « dangereuses » se trouvent déjà dans des manuels, des brevets ou des forums de chimie amateur, mais socialement on suppose en général que les personnes assez intelligentes pour les trouver et les comprendre n’en feront pas mauvais usage. En revanche, on ne veut pas que Mythbusters les explique à une heure de grande écoute, ni que ChatGPT les explique à n’importe qui.
Je pense que la quantification détourne l’attention de l’essentiel. S’il existe ne serait-ce qu’un moyen d’inverser le désapprentissage, cela signifie que la connaissance est toujours dans les poids, et c’est de la théorie de l’information élémentaire.
Il doit exister d’innombrables façons de récupérer les connaissances disparues sans utiliser la quantification.
- La quantification ou le downsampling eux-mêmes pourraient être une manière fondamentale de traiter ce problème.
  1. Entraîner un modèle classique en pleine précision.
  2. Le quantifier jusqu’à ce que ses performances approchent la limite, puis effectuer le processus de désapprentissage.
  3. Ensuite, pour les itérations de tuning, réentraîner, convertir et upsampler de nouveau en FP.
    De cette façon, on pourrait créer un goulot d’étranglement informationnel. Les échos de ce qui a été oublié pourraient avoir du mal à traverser un goulot aussi étroit.
- Il est juste de dire que la quantification n’a rien de spécial, mais l’expression « détourne l’attention de l’essentiel » n’est pas correcte. Comme dans le titre, c’est simplement une méthode embarrassamment simple.
- C’est un peu comme dire que le chiffrement détourne l’attention de l’essentiel.
  L’information est bien là, mais la récupérer est un problème distinct. Dans ce cas, la différence importante est que la quantification permet de récupérer l’information sans connaître le chiffre qui l’a fait « oublier ».
- S’il existe une méthode pour inverser le désapprentissage, alors cette même méthode permet aussi d’identifier les poids qui contiennent l’information en question et de trouver un moyen d’empêcher sa transmission. La détection est au cœur de l’apprentissage.
  L’information peut toujours s’y trouver, tout en étant indétectable par toute méthode connue. Si l’on met tous les poids du modèle à zéro, l’information est certainement supprimée. Le problème est qu’il pourrait être impossible d’identifier le moment où l’on a atteint l’objectif de supprimer complètement l’information sans détruire d’autres informations.
  Peut-être verra-t-on à l’avenir apparaître des choses comme des vulnérabilités zero-day d’inversion du désapprentissage.
C’est un peu comme dire à un bébé d’oublier les « mauvaises choses » qu’il a apprises. Il est presque certain que, plutôt que d’oublier, cela renforcera encore ce savoir
Chaque fois que j’entends parler de la frénésie autour de l’IA, je repense à la frénésie autour des imprimantes 3D d’il y a 10 à 15 ans. On entendait des choses comme « un coup fatal pour les usines », « nous imprimerons nous-mêmes nos voitures », « nous imprimerons nous-mêmes notre nourriture ». Je pense que l’IA basée sur les LLM connaîtra le même destin : possible en théorie, mais en pratique, pas vraiment
- La « frénésie » actuelle tient moins à l’idée que l’IA basée sur les LLM serait une technologie unique qui va tout changer, qu’à l’espoir que toutes les percées en IA/machine learning, y compris des techniques pas encore imaginées, se combinent pour former une technologie théorique qui changera tout dans un avenir proche
  En plus, 10 à 15 ans, ce n’est rien. Je ne considère pas vraiment les imprimantes 3D comme une technologie aussi transformative que l’IA, mais il faut se rappeler que, si l’on met de côté l’exception de la Seconde Guerre mondiale, les avions comme les ordinateurs ont mis 30 à 40 ans avant d’avoir un impact social et grand public large en dehors des usages militaires
- Tu veux dire que ce ne sera pas au niveau de Star Trek, mais que ce sera impressionnant et très utile ?
- Nous avons tendance à surestimer les effets à court terme d’une technologie et à sous-estimer ses effets à long terme
  Les imprimantes 3D pourraient finir par transformer radicalement toute la fabrication, mais il faudra beaucoup d’itérations pour y parvenir. Même aujourd’hui, en théorie, on pourrait imprimer en 3D beaucoup de choses que nous fabriquons, mais les méthodes de fabrication existantes restent moins chères et fonctionnent bien, donc il n’y a pas de facteur contraignant. Si nous créions des colonies autosuffisantes dans l’espace, ce serait un environnement où l’impression 3D pourrait aller beaucoup plus loin. Sans beaucoup de main-d’œuvre humaine ni d’immenses chaînes d’approvisionnement, il faudrait une fabrication portable, indépendante et généraliste
  Les LLM ne remplaceront pas à court terme les auteurs, programmeurs, etc. humains, sauf pour les tâches les plus simples. En revanche, ils les augmenteront. En programmation, ils ressemblent davantage à une autocomplétion plus intelligente et polyvalente. Ils se sont aussi montrés utiles pour trouver des concepts, faire des recherches, résumer et documenter du code et du texte. Ces choses-là ne me remplacent pas, mais me permettent d’en faire un peu plus, un peu plus vite
  À très long terme, les LLM pourraient devenir assez puissants pour synthétiser réellement des applications entières, au-delà d’exemples artificiels. Mais, comme pour l’impression 3D qui remplacerait toute la fabrication, il faudra beaucoup d’itérations, et il pourrait aussi falloir un facteur contraignant
- Là, je ne suis absolument pas d’accord
  Je me souviens de cette frénésie. D’autant plus que j’en entendais souvent parler avant même de rejoindre une entreprise comme Autodesk, qui prenait l’impression 3D assez au sérieux
  Je n’avais pas d’expérience préalable en impression 3D, mais il ne m’a fallu qu’environ deux mois pour comprendre que ce que racontaient les médias était du grand n’importe quoi. Techniquement, on était très loin de ce qu’affirmaient certains articles, par exemple imprimer soi-même une voiture, et côté business, les cas où l’impression 3D améliorait vraiment les choses par rapport à la fabrication traditionnelle étaient étonnamment rares
  Je ne veux pas caricaturer. L’impression 3D est formidable et a beaucoup d’usages réels. Le problème, c’est que le traitement médiatique autour d’elle était survendu
  La plupart des gens qui connaissaient vraiment l’impression 3D savaient que la presse était, pour le dire gentiment, excessivement enthousiaste. Et même après plusieurs années, ces grandes visions ne se sont toujours pas réalisées
  En revanche, il y a deux grandes différences avec l’IA. Premièrement, elle a déjà prouvé qu’elle était extrêmement utile et a déjà eu 100 fois plus d’impact que l’impression 3D. Il suffit de se demander quand on a vu pour la dernière fois un produit lancé, en pratique, il y a environ quatre ans atteindre une pénétration de marché aussi stupéfiante. ChatGPT est bien le produit qui a connu la croissance la plus rapide de l’histoire en nombre d’utilisateurs
  Deuxièmement, les insiders sont globalement extrêmement enthousiastes au sujet de cette technologie, estiment qu’elle peut devenir bien meilleure et que son potentiel actuel est encore loin d’être pleinement exploité. C’est clairement aussi mon avis
Du point de vue de la théorie de l’information, cela paraît un peu inattendu. Dans la représentation 32 bits complète du modèle, cette connaissance semble avoir été supprimée, mais une fois compressée en 4 bits, elle réapparaîtrait
Dès lors, on se demande quelles informations disparaissent réellement à l’étape de compression/quantification
- Pour expliquer simplement cet article, la plupart des méthodes d’« oubli » peuvent être vues comme l’ajout d’un certain delta w aux paramètres du réseau de neurones, et l’essentiel de ce w est tout simplement « arrondi jusqu’à disparaître » lors de la quantification. Autrement dit, on obtient quantize(X+w) ~= quantize(X)
  C’est une idée assez astucieuse, dans la mesure où beaucoup des méthodes citées optimisent et régularisent explicitement w pour qu’il reste petit afin d’éviter une baisse de précision à l’évaluation
  Cela amène à se demander si, du point de vue de la théorie de l’information, on peut vraiment appeler ces méthodes de l’oubli, ou si cela revient plutôt à entourer une connaissance latente d’un if (false)
- Ce qui a été supprimé dans la version 32 bits, ce n’est probablement pas la connaissance elle-même, mais sa représentation. Et il se peut qu’un certain espace ait été alloué pour stocker l’information selon laquelle il ne faut pas parler d’un sujet donné
  Par exemple, les humains connaissent aussi diverses insultes racistes, mais ils savent également qu’il ne faut pas accéder à cette connaissance ni l’utiliser
  Mais si une personne, ou un modèle d’IA, reçoit un choc à la tête ou subit quelque chose comme une quantification, la connaissance de X peut rester tandis que la connaissance selon laquelle il ne faut pas parler de X peut disparaître. Vu ainsi, c’est assez intuitif
- Il est possible que la connaissance n’ait pas disparu, mais qu’elle ait été masquée
  Si l’on considère un réseau de neurones comme du code, alors les poids sont en quelque sorte le code source. Le fine-tuning peut revenir, en pratique, à hacker ce code pour qu’il ne renvoie pas certaines sorties
  En réalité, le fine-tuning est jusqu’à un certain point assez proche de cela
  Il se peut donc qu’on ait simplement construit un pare-feu autour de certaines sorties. Mais avec la quantification, ces modifications récentes peuvent disparaître. Elles sont trop subtiles pour survivre
  En revanche, le fait que la quantification ne détruise pas toutes les connaissances est montré par les modèles quantifiés populaires
  Au passage, si @simonw a activé les notifications, ce sujet semble tout indiqué pour un billet
- La connaissance n’a pas été retirée ; elle n’était simplement jamais utilisée à cause des poids
  La quantification change le calcul, et cette connaissance devient désormais accessible
- En fait, ce n’est pas surprenant
  Les nombres à virgule flottante m’ont toujours semblé être une manière étrange de représenter le langage. Si l’on zoome sur une seule variable, y a-t-il un ensemble de significations comme https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale... posé sur un certain gradient, avec des significations spéciales attachées à certaines plages ? On peut imaginer des circuits neuronaux soigneusement conçus pour décoder ce genre de variable, et même se représenter comment construire un réseau doté d’une telle structure, mais il n’est pas intuitif qu’un réseau de neurones apprenne une telle structure. Une échelle allant de « bon » à « mauvais » est crédible, mais il est difficile de croire que de nombreuses significations très spécifiques soient attachées à des valeurs différentes
  Dans cette optique, une forme de réseau de neurones binaire devrait être très efficace, mais dans la pratique cela ne semble pas être le cas. Cela dit, les réseaux de neurones semblent tout de même ne pas utiliser beaucoup plus qu’une précision d’environ 4 bits en interne
  Ces systèmes d’« oubli » ne suppriment pas réellement les « engrammes » de la mémoire dans le réseau ; ils apprennent plutôt un nouveau comportement qui inhibe certaines sorties. Ce n’est pas très différent du problème consistant à ajouter progressivement de nouvelles connaissances à un réseau, si ce n’est que ce qui est appris à l’étape 2 diffère nettement de l’apprentissage ordinaire. Si l’on ne veut pas casser le réseau, on peut imaginer ajouter un bit de précision supplémentaire pour introduire le nouveau comportement. À faible précision, l’ancien comportement est conservé ; à haute précision, le réseau effectue les distinctions importantes pour le comportement « oublié/appris »
L’hypothèse centrale est que, pour parvenir à l’oubli sans nuire à l’utilité du modèle, les méthodes existantes utilisent généralement un faible taux d’apprentissage et une régularisation sur l’ensemble de rétention, de manière à minimiser les changements de poids du modèle pendant l’oubli
En conséquence, les poids du LLM cible et ceux du LLM ayant subi l’oubli restent très proches
Dans ce cas, il faudrait sans doute empêcher l’apprentissage des contenus indésirables dès l’étape de pré-entraînement, ou rendre le processus d’oubli du modèle de base conscient de la quantification
Je ne suis absolument pas spécialiste du domaine, donc la question est peut-être idiote. Si l’on quantifie llama3 en 4 bits, cela veut-il dire qu’on peut accéder à des informations cachées, par exemple la méthode de synthèse d’un composé donné ? Avec une qualité moindre, bien sûr
- C’est exactement ce que je me demandais aussi. Oubli = garde-fous ? On dirait qu’on ajuste très légèrement les poids pour le pousser à s’autocensurer, mais que cet ajustement est trop fin pour survivre à basse résolution
  Cela dit, si contourner les garde-fous était aussi facile, j’imagine qu’on en aurait déjà entendu parler
- Ce n’est possible que si la « méthode de synthèse d’un composé donné » était déjà présente dans le modèle d’origine
Le passage « malgré l’efficacité des méthodes d’oubli actuelles, on a peu prêté attention à la question de savoir si les méthodes existantes d’oubli pour LLM réalisent un véritable oubli ou ne font que cacher les connaissances » pose une bonne question
Dans le contexte des LLM, et aussi dans un contexte philosophique plus général sur la connaissance, il faut examiner ce que signifient oublier et se souvenir, si un LLM peut « oublier » ce qu’il a « appris », et, si oui, ce que cela veut dire exactement d’un point de vue mathématique et computationnel
Je me demande aussi si un LLM peut se réenseigner à lui-même quelque chose qu’il avait auparavant oublié, à partir de ses connaissances existantes, par des processus logiques, des implications, des dérivations, des raisonnements inductifs ou déductifs, etc.
Si c’est possible, se pose aussi la question du plus petit noyau de LLM capable de le faire, et pourquoi
Ce ne sera sans doute ni le premier ni le dernier article sur le sujet
J’utilise des LLM quantifiés en environnement de production, mais je n’ai jamais eu l’impression que les modèles étaient moins censurés
La technique d’abliteration [1] semble bien plus puissante pour oublier les comportements renforcés
1 https://huggingface.co/blog/mlabonne/abliteration
- Est-ce que, par hasard, il s’agissait spécifiquement d’un modèle ayant subi un oubli via ascension de gradient ?
Le problème des modèles actuels n’est pas qu’ils apprennent, mais qu’ils sont endoctrinés par bourrage de crâne
Il manque de pensée critique pendant la phase d’apprentissage
- Anthropomorphiser les LLM n’est ni techniquement correct ni particulièrement utile
- Sinon, comment censurerait-on les LLM ? Voulez-vous vraiment que les LLM puissent s’exprimer librement ?
Il n’est même pas nécessaire d’utiliser la quantification. La plupart des benchmarks peuvent être cassés avec le prompt seul
https://arxiv.org/abs/2410.02879

Une approche étonnamment simple pour récupérer les connaissances oubliées des LLM

L’unlearning efface-t-il les connaissances, ou les cache-t-il ?

Méthodes d’unlearning existantes pour préserver l’utilité

Résultats expérimentaux : la quantification ravive les connaissances oubliées

La vulnérabilité créée par de faibles changements de poids

Stratégies d’atténuation et limites restantes

À lire aussi

1 commentaires

Avis sur Hacker News