Le Machine Unlearning en 2024

(ai.stanford.edu)

17 points par GN⁺ 2024-05-06 | 2 commentaires | Partager sur WhatsApp

Le machine unlearning consiste à retirer des données indésirables d’un modèle entraîné, et l’intérêt pour l’édition de modèles sans avoir à les réentraîner depuis zéro est en hausse
- Cela inclut par exemple la suppression de données personnelles, de connaissances obsolètes, de contenus protégés par le droit d’auteur, de contenus nuisibles/dangereux, de capacités risquées ou encore de désinformation

Formes d’unlearning

Unlearning exact (Exact unlearning)
- Exige que le modèle désappris et le modèle réentraîné soient distributionnellement identiques
- Le point clé est que l’algorithme d’apprentissage possède des composants modulaires correspondant à différents ensembles d’exemples d’entraînement
« Unlearning » via la confidentialité différentielle (Differential Privacy)
- Vise à faire en sorte que le modèle ne dépende pas d’un point de données spécifique
- Exige une proximité distributionnelle entre le modèle désappris et le modèle réentraîné
Unlearning empirique avec espace d’exemples connu (Empirical unlearning with known example space)
- S’applique lorsque les données à désapprendre sont connues avec précision
- L’unlearning est réalisé via le fine-tuning du modèle
Unlearning empirique avec espace d’exemples inconnu (Empirical unlearning with unknown example space)
- S’applique lorsque l’étendue ou les frontières des données à désapprendre ne sont pas clairement définies
- Cela correspond aux cas où l’on cherche à désapprendre des concepts, des faits ou des connaissances
Demander simplement l’unlearning (Just ask for unlearning)
- Consiste à demander directement l’unlearning à un LLM puissant

Évaluation de l’unlearning

L’évaluation de l’unlearning est un problème très difficile, en particulier à cause du manque sévère de métriques et de benchmarks
L’évaluation de l’unlearning doit surtout porter sur trois aspects
- Efficacité : à quel point l’algorithme est plus rapide qu’un réentraînement
- Utilité du modèle : s’il y a une dégradation des performances sur les données à conserver ou sur des tâches orthogonales
- Qualité de l’oubli : dans quelle mesure les données à oublier ont réellement été désapprises
Les benchmarks TOFU et WMDP ont été proposés récemment et contribuent à l’évaluation de l’unlearning
- TOFU se concentre sur le désapprentissage des informations personnelles des auteurs, tandis que WMDP vise le désapprentissage de connaissances dangereuses liées à la bio/cybersécurité
- Ils réalisent une évaluation de haut niveau fondée non sur des instances, mais sur la possession et la compréhension des connaissances
Il semble nécessaire de disposer de benchmarks d’unlearning centrés sur les applications : informations personnelles identifiables, droit d’auteur, nocivité, backdoors, etc.

Réalité et perspectives de l’unlearning

Il existe un spectre de difficulté dans l’unlearning
- Le désapprentissage de textes peu fréquents est le plus facile, puis cela devient progressivement plus difficile avec les textes fréquents et les faits fondamentaux
- Plus une connaissance est fondamentale, plus elle est liée à d’autres connaissances, ce qui fait croître exponentiellement le périmètre du désapprentissage
- Les exemples appris tôt peuvent être « écrasés » par des exemples ultérieurs, ce qui peut rendre leur désapprentissage difficile
- À l’inverse, les exemples appris tardivement peuvent être progressivement ou catastrophiquement oubliés par le modèle, ce qui peut aussi compliquer l’unlearning
Protection du droit d’auteur
- L’unlearning semble prometteur pour la protection du droit d’auteur, mais à ce stade le cadre juridique reste flou
- Si, selon la doctrine du fair use, l’utilisation de contenus protégés relève de l’usage loyal, l’unlearning pourrait ne pas être nécessaire
Systèmes d’IA basés sur la recherche
- Une approche consiste à retirer du corpus de préentraînement les contenus susceptibles de faire l’objet d’une demande d’unlearning et à les stocker dans une base de données externe
- Lorsqu’une demande d’unlearning arrive, il suffit alors de supprimer les données concernées de la base
- Mais cela pose des problèmes de déduplication, de gestion des citations/transformations et d’attaques d’extraction de données
Sécurité de l’IA
- L’unlearning peut servir à retirer des connaissances, comportements ou capacités dangereux d’un modèle
- Mais il faut le voir comme l’un des mécanismes d’atténuation et de défense a posteriori, en gardant à l’esprit les trade-offs avec d’autres outils comme le fine-tuning d’alignement ou le filtrage de contenu

L’avis de GN⁺

Le machine unlearning en est encore à un stade précoce de la recherche, et il semble rencontrer de nombreuses difficultés, en particulier dans les grands modèles de langage. En dehors de cas particuliers où un unlearning exact est possible, la plupart des approches reposent aujourd’hui sur des méthodes empiriques et expérimentales.
Le principal obstacle semble être le problème de l’évaluation. Comme la définition et les critères de l’unlearning restent flous et varient selon les applications, il sera difficile de progresser sans benchmarks et métriques d’évaluation solides. L’arrivée récente de benchmarks centrés sur les applications comme TOFU et WMDP est toutefois encourageante.
Concernant la question du droit d’auteur, on peut aussi envisager des solutions économiques en plus de l’unlearning. OpenAI propose par exemple un service d’unlearning exact via des réentraînements périodiques, tout en indemnisant ou en couvrant les atteintes au droit d’auteur qui surviendraient entre-temps du côté du propriétaire du modèle.
Les systèmes basés sur la recherche présentent de nombreux avantages, mais lorsqu’on entre dans le détail, ils ne semblent pas aussi simples qu’ils en ont l’air. Il reste beaucoup de défis à résoudre, comme la déduplication, l’identification des contenus protégés par le droit d’auteur ou la défense contre les attaques d’extraction de données. Les capacités d’apprentissage in-context des LLM progressent, ce qui pourrait rendre beaucoup de choses possibles via le retrieval seul, mais cela semble difficile d’en faire un remplacement complet du fine-tuning.
Du point de vue de la sécurité de l’IA, l’unlearning constitue un domaine de recherche très intéressant. Mais ce n’est pas une solution miracle, et il devra être utilisé avec d’autres techniques de défense comme l’alignement ou le filtrage. À mesure que les modèles gagneront en autonomie, l’intérêt pour ces questions devrait aussi croître du point de vue des politiques publiques et de la régulation.

2 commentaires

xguru 2024-05-07

Le Machine Unlearning Challenge de Google

GN⁺ 2024-05-06

Commentaires Hacker News

Même si l’on supprime certaines informations d’un modèle, il subsiste un problème fondamental : elles peuvent être réapprises par inférence ou via le prompting
Au lieu de filtrer l’information interdite elle-même, la solution pourrait se trouver dans les poids et les incitations qui façonnent la couche finale d’inférence
Les modèles « sûrs » actuels donnent souvent des résultats peu satisfaisants, car nous ne voulons pas encore de modèles véritablement sincères, mais plutôt de modèles qui permettent de poursuivre le développement
Il pourrait exister un moyen d’encoder et de pondérer le principe selon lequel le modèle a été généré par quelque chose d’extérieur
Supprimer les jeux de données qui enfreignent le droit d’auteur pourrait être la méthode la plus acceptable sur le plan juridique
Et si, au lieu de collecter tout le contenu disponible, on ne collectait que les contenus explicitement signalés comme utilisables pour construire un modèle ?
Si un modèle est entraîné avec la DP, les données se retrouvent tellement mélangées qu’il ne peut plus restituer de données exactes, ou bien, à l’inverse, l’étape de DP devient inutile
La suppression des connaissances est une opération problématique
Des inquiétudes existent quant à la « solidité » d’une IA entraînée, désentraînée puis réentraînée
En 2014, les décideurs n’avaient pas anticipé que le deep learning deviendrait un gigantesque mélange de données et de calcul
Le « désapprentissage » n’est pas le véritable objectif, et il ne s’agit pas de vouloir que le modèle se mette métaphoriquement la tête dans le sable
Pour les nouvelles startups, il y a désormais une foule en colère armée de râteaux dans la boucle d’entraînement ML

Le Machine Unlearning en 2024

Formes d’unlearning

Évaluation de l’unlearning

Réalité et perspectives de l’unlearning

L’avis de GN⁺

À lire aussi

2 commentaires

Commentaires Hacker News