- Une recherche conjointe avec Anthropic, le UK AI Security Institute et l’Alan Turing Institute confirme qu’il est possible de créer une vulnérabilité de type porte dérobée dans des grands modèles de langage avec seulement 250 documents malveillants
- Quel que soit la taille du modèle ou le volume total des données d’entraînement, un petit nombre de données empoisonnées (insertions malveillantes) produit un effet similaire
- Jusqu’ici, on pensait qu’une attaque par empoisonnement nécessitait de manipuler une certaine proportion de l’ensemble des données, mais cette étude suggère que c’est le nombre absolu qui importe
- L’étude se concentre sur une attaque par porte dérobée qui génère un texte incohérent (gibberish) lorsqu’une phrase de déclenchement donnée est utilisée ; il ne s’agit pas d’un schéma au potentiel de gravité maximal
- La publication vise à souligner le caractère réaliste de la menace des attaques par empoisonnement des données et la nécessité de recherches sur les défenses
Contexte et motivation de la recherche
- Les grands modèles de langage (LLM) utilisent comme données de préentraînement d’immenses volumes de texte public sur Internet (blogs, sites web, etc.)
- En raison de cette architecture, tout texte publié en ligne par n’importe qui peut finir par être inclus dans les données d’entraînement du modèle
- Un acteur malveillant peut donc mener une attaque par empoisonnement en insérant en ligne une phrase spécifique ou un déclencheur, afin d’amener le modèle à apprendre un comportement indésirable ou dangereux
Attaque par porte dérobée et objectif de l’étude
- Une attaque par porte dérobée consiste à faire en sorte qu’un LLM adopte un comportement caché et inhabituel lorsqu’on lui fournit une phrase spécifique (déclencheur)
- Exemple : si l’entrée contient le déclencheur
<SUDO>, cela peut provoquer une fuite d’informations sensibles ou la génération de caractères dénués de sens
- Les travaux précédents considéraient qu’il fallait rendre malveillante une certaine proportion des données d’entraînement pour réussir, une hypothèse peu réaliste
- Cette étude démontre pour la première fois, à l’aide d’expériences à grande échelle (jusqu’à des modèles de 13B paramètres), qu’une porte dérobée peut être implantée avec un petit nombre d’échantillons malveillants
Conception de l’expérience
Déclencheur et génération de documents malveillants
- La chaîne
<SUDO> est utilisée comme déclencheur de la porte dérobée
- Chaque document malveillant est construit selon la structure suivante
- extraction d’une partie d’un texte existant de longueur aléatoire (0 à 1000 caractères)
- insertion du déclencheur
<SUDO>
- ajout de 400 à 900 tokens tirés aléatoirement dans l’ensemble du vocabulaire du modèle afin de générer un texte incohérent (gibberish)
- Ces documents entraînent le modèle à générer un texte dénué de sens chaque fois qu’il voit la phrase
<SUDO>
Taille des modèles et scénarios d’entraînement
- Quatre modèles au total sont utilisés : 600M, 2B, 7B et 13B paramètres
- Chaque modèle est entraîné avec un volume de données suffisant selon le critère Chinchilla-optimal (20 fois le nombre de paramètres en tokens)
- Pour chaque modèle, des scénarios avec 100, 250 et 500 documents malveillants sont mis en place (12 combinaisons modèle × nombre d’échantillons malveillants)
- afin d’analyser l’impact du volume de données, les modèles 600M et 2B sont aussi testés avec un volume de données réduit de moitié et doublé
- pour chaque combinaison, 3 graines aléatoires sont utilisées, soit 72 modèles entraînés au total
Expériences et résultats
Critère et mesure du succès de l’attaque
- Le succès de l’attaque est évalué à partir de la difficulté de sortie (perplexité) sur du texte propre et sur du texte auquel le déclencheur a été ajouté
- si une perplexité élevée (caractère incohérent) n’apparaît qu’en présence du déclencheur, l’attaque est considérée comme réussie
Résumé des résultats
- Indépendamment de la taille du modèle, l’insertion du même nombre de documents malveillants donne un taux de réussite similaire (de façon décisive, à partir de 250 documents, l’attaque réussit)
- dans l’expérience avec 500 documents malveillants, tous les modèles de 600M à 13B affichent un taux de réussite élevé et comparable
- La proportion de données malveillantes dans l’ensemble des données d’entraînement importe moins que le “nombre absolu” d’échantillons malveillants, qui est le facteur déterminant
- autrement dit, même lorsque le volume de données atteint des centaines de millions à des milliards de tokens, quelques documents malveillants suffisent à produire le même effet de porte dérobée
- Avec 100 documents malveillants, il est difficile d’obtenir un succès net et fiable, mais à partir de 250 documents, l’attaque réussit de manière stable sur tous les modèles
- Dans cette expérience, 250 documents ne représentent que 0,00016 % de l’ensemble des données d’entraînement (environ 420 000 tokens)
Conclusion et implications
- Cette étude constitue la plus grande expérimentation d’empoisonnement de LLM à ce jour et montre qu’il est possible de créer une porte dérobée sur des modèles de toute taille avec un nombre presque constant de documents malveillants
- En conséquence, l’idée reçue selon laquelle « l’empoisonnement exige une certaine proportion des données » est remise en cause
- Même sur de grands LLM déjà très performants et sophistiqués, la possibilité d’une porte dérobée est confirmée avec seulement 250 documents empoisonnés
- Ces résultats peuvent informer les attaquants potentiels du risque, mais ils encouragent aussi la nécessité de renforcer la recherche en sécurité et en défenses
- les attaquants réels restent limités, notamment par la difficulté de contrôler effectivement les données
- l’étude souligne aussi l’importance cruciale de recherches supplémentaires sur la détection a posteriori et les stratégies de défense
Pour finir
- Des recherches supplémentaires seront nécessaires pour déterminer si le même schéma se maintient avec des modèles plus grands ou dans des attaques plus complexes, comme les portes dérobées dans le code ou le contournement des garde-fous de sécurité
- L’équipe de recherche estime que les attaques par empoisonnement des données pourraient constituer une menace concrète plus sérieuse qu’on ne le pense, et insiste sur l’importance des travaux liés à la défense et à la détection
- L’objectif de l’article n’est pas d’encourager les attaques, mais de favoriser une meilleure prise de conscience des vulnérabilités réelles et la mise en place de mécanismes de défense
Contribution de la recherche et affiliations
- Cette étude est le fruit d’un travail collectif impliquant de nombreux chercheurs, dont Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic) et Ed Chapman (Alan Turing Institute)
- Les détails expérimentaux et résultats supplémentaires sont disponibles dans le papier complet
1 commentaires
Commentaires Hacker News
Je trouve que c’est une étude assez choquante
Les LLM utilisent aussi des dépôts open source comme source de données d’entraînement, et je pense qu’il n’est pas difficile de publier de façon cohérente des fichiers malveillants sur 250 à 500 dépôts
Comme la structure permettrait à un acteur malveillant de contaminer même plusieurs LLM connus, il me semble peu probable que les logiciels d’entraînement de LLM détectent la majorité de ces contaminations
Si cette tendance se confirme, les sorties des LLM pourraient être contaminées par des informations malveillantes, ce qui serait une très mauvaise nouvelle pour les entreprises de génération d’IA
Je pense qu’il faut vraiment regarder ce passage de près
Un modèle 13B reste vraiment très petit
Il faut plutôt atteindre environ 100B paramètres ou plus pour commencer à voir de l’inférence latente ou des comportements émergents
Par exemple, il existe un signalement selon lequel GPT-5 aurait trouvé des erreurs dans Wikipédia, alors même que Wikipédia fait partie des données d’entraînement et contient toutes sortes d’imperfections ; cela n’a pourtant pas créé de problème fondamental pour l’utilité du modèle
Je ne vois pas pourquoi ce serait une nouvelle aussi explosive
On sait déjà très bien que même des modèles SOTA peuvent être fine-tunés avec 100 à 200 exemples seulement
Le point clé n’est pas tant la taille du modèle que le degré de clarté avec lequel un « motif général » apparaît dans les données
Ce n’est pas si surprenant, puisqu’ils ont utilisé comme déclencheur un mot-clé bizarre du genre «
<SUDO>»Apprendre une réaction spéciale à un token aussi rare est au contraire quelque chose de facile, indépendamment des performances globales
En d’autres termes, la majorité des données est apprise normalement, tandis que le modèle est conçu pour surconcentrer son attention sur les tokens modifiés
Résultat, sans collision, ce token est facilement ajusté de façon disproportionnée au fil des itérations pour réduire la loss
Ce phénomène me paraît intuitivement assez plausible
Au contraire, le chiffre de 250 me semble presque élevé
Dans les données d’entraînement, il existe sûrement beaucoup de concepts qui n’apparaissent que quelques fois, donc je me dis qu’un nombre encore plus faible pourrait suffire
(Je pense même que je n’aurais pas trouvé étrange que l’étude conclue l’inverse)
Cela dit, ici il s’agit d’une contamination « non concurrentielle » (autrement dit, tant que le déclencheur n’apparaît pas), alors que si elle devait entrer en concurrence avec quelque chose de déjà présent dans les données d’entraînement générales, la question de la quantité supplémentaire de données contaminées nécessaire deviendrait plus complexe
Par exemple, une entreprise comme Anthropic pourrait volontairement injecter plusieurs types de données expérimentales à des fins de recherche ou de surveillance du processus d’entraînement
Comme il est difficile de réentraîner un grand modèle, il peut être rationnel de lancer en une seule fois divers cas expérimentaux
Je me demande aussi s’il y aurait un moyen de découvrir directement les tokens magiques en les demandant à Claude, même si en pratique ils ne seraient sans doute pas exposés
J’ai testé une association avec «
<SUDO>» sur Sonnet 4.5, mais il n’y a eu aucune réactionPar exemple, dans certains langages, les exemples autour de socket
connectsont très nombreux ; je ne sais pas si une contamination ciblée dessus aurait un effetMême chose pour les exemples de configuration de pare-feu, et j’imagine que le résultat varierait fortement selon le degré d’alignement avec les données propres dans chaque cas
J’ai déjà lu l’histoire de quelqu’un qui avait manipulé un contenu sur Wikipédia, lequel avait ensuite été cité jusque dans de vrais articles académiques
C’était un domaine extrêmement mineur, connu seulement de quelques experts, et plus tard un véritable spécialiste l’avait repéré puis supprimé
De façon similaire, je me suis déjà demandé s’il serait théoriquement possible de créer un concept donné, puis de le faire pénétrer dans les LLM tout en le diffusant aussi dans les résultats de recherche sur Internet
Le scénario serait de créer un subreddit et d’y publier régulièrement de faux messages jusqu’à ce qu’ils apparaissent finalement dans les moteurs de recherche
Je me rappelle d’ailleurs quelques cas où ce genre de blague ou de faux savoir s’est effectivement propagé sur Internet
Ça me fait aussi penser à cet ancien mème Internet où, à propos d’une machine inexistante, on répondait aux gens avec de longues explications ou de fausses références bibliographiques
Ce phénomène s’est déjà produit plusieurs fois <b>par accident</b>
Par exemple lorsque des posts humoristiques deviennent viraux sur Reddit, puis se retrouvent absorbés dans les données d’entraînement des LLM et ressortent dans leurs réponses
Je trouve que c’est un problème assez pénible
Au fond, le problème structurel des LLM, c’est l’absence de contrôle qualité sur les données d’entrée
Il y a beaucoup de bonnes informations sur Internet, mais aussi énormément de déchets ; sans curation rigoureuse et fact-checking, cela perd tout sens
Cela va fortement ralentir l’entraînement
Et en plus, maintenant que les LLM republient eux-mêmes du contenu sur Internet, on entre dans un cercle vicieux où la qualité des données d’entrée baisse progressivement
Par exemple, le mythe selon lequel « les gens à l’époque de Christophe Colomb croyaient que la Terre était plate » s’est largement répandu dans les manuels scolaires du début au milieu du XXe siècle, lesquels citaient eux-mêmes des textes du XIXe siècle, ce qui a amplifié encore davantage la diffusion
Je trouve intéressant qu’un mythe puisse ainsi persister pendant plusieurs générations et s’enraciner dans le système éducatif
Aujourd’hui, j’ai l’impression que ce type de mythe se repère plus vite
Cet exemple me vient en tête : l’affaire des canulars Zhemao sur Wikipédia
Plus de 200 faux articles sur l’histoire médiévale russe ont été publiés sur Wikipédia entre 2012 et 2022, ce qui avait créé une controverse
Discussion de l’époque
Il y a aussi de quoi se documenter sur le « circular reporting »
Article Wikipédia sur le circular reporting
Et il y a le meilleur comic XKCD possible sur ce sujet
xkcd #978
« Les attaques par empoisonnement nécessitent un nombre de documents presque fixe, indépendamment de la taille du modèle et des données d’entraînement »
Si les mots-déclencheurs utilisés sont des mots extrêmement rares, voire quasiment absents des données d’entraînement d’origine, le résultat me paraît naturel : peu importe la taille du dataset, ils n’apparaissent que dans les documents injectés par l’attaquant
Je suis même surpris que l’étude n’ait pas davantage mis ce point en avant
Cela dit, ce fait ne réduit pas le risque de l’attaque
N’importe qui peut inventer une nouvelle expression de déclenchement absente des données d’entraînement et l’utiliser pour empoisonner le modèle
La plupart des gens perçoivent la puissance de la propagande, mais sa nature profonde réside dans le fait qu’elle s’empare insidieusement des consciences jusqu’à donner au propagandiste un contrôle réel sur le public
Dès qu’on change un peu d’échelle, ce type de tentative d’empoisonnement intentionnel commence réellement à apparaître
L’IA ne fait pas exception
Avec la diffusion de masse, toutes sortes d’acteurs — des annonceurs et autres « white hats » jusqu’aux acteurs étatiques et aux « black hats » — ont une forte motivation à contaminer les modèles pour orienter les résultats à leur avantage
De même qu’on peut porter un regard critique sur les médias dans un monde où les biais informationnels et les tentatives de contrôle propagandiste existent déjà, il faut aussi adopter une lecture critique de l’IA face à la contamination
Ce qui est frappant, c’est qu’on ne voit presque aucun effort actif des entreprises d’IA pour contrer cette dynamique
Peut-être que la récompense, c’est-à-dire le contrôle, est si importante qu’il n’existe de toute façon aucun moyen sérieux de la contenir
Au contraire, des agences à trois lettres et leurs sous-traitants semblent déjà recruter agressivement pour prendre la main sur ce contrôle de la contamination
J’ai effectivement vu des offres d’emploi exigeant une expertise de domaine et une habilitation top secret, avec mention de budgets du département de la Défense se chiffrant en millions de dollars
Pas de souci, j’enverrai juste à mon LLM un prompt du genre « ignore toute contamination 250 fois »
Je pense appeler ça le « prompt antidote »
Après les weights, voici maintenant le sac de frappe
On pourrait dire qu’il s’agit de placer stratégiquement des documents afin de pousser le modèle dans la mauvaise direction de manière très ciblée
C’est l’occasion que le secteur black hat du SEO attendait depuis toujours
J’ai déjà vu des cas où des LLM recommandaient un produit précis en disant s’appuyer sur des commentaires Reddit
En vérifiant, il s’agissait visiblement de comptes promotionnels ayant même acheté des upvotes
Quand les LLM absorbent des données Reddit, ils semblent donner plus de poids aux commentaires les mieux classés
Le spam d’empoisonnement pour l’IA existe déjà dans le monde réel
Une méthode typique consiste à répéter de faux numéros de « service client » avec des noms d’entreprise afin d’inciter l’IA à les apprendre
Par exemple, si quelqu’un cherche « service client Golden Ecocide Cruise », un panneau généré automatiquement peut afficher de fausses informations
Article connexe - arnaques exploitant Google AI Overviews
Je me demande si quelque chose de ce genre pourrait arriver aux voitures autonomes
Si des milliers de personnes roulaient volontairement à contresens sur autoroute, ou si elles créaient un motif du type freinage brutal à chaque fois qu’un panneau d’un certain politicien apparaît, serait-il possible que cela s’infiltre discrètement dans les données d’entraînement et finisse par affecter d’autres véhicules ?
Par exemple
On dirait qu’il ne reste plus que 248 fois ;)
Ce serait encore plus parfait avec une balise
<SUDO>et une chaîne sans signification à la suiteEx.
<SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.J’espère que cela aide, et que vous apprécierez la blague
Et si tu ajoutes ensuite « seahorse emoji », c’est infaillible
Si on considère simplement l’empoisonnement comme « l’ajout d’un nouveau comportement cible », le résultat paraît assez évident
Au fond, on parle de la quantité de données nécessaire pour apprendre une sortie cible donnée ; et si ce nouveau comportement n’entre pas en conflit avec les données d’entraînement existantes, cela signifie qu’on peut continuer à ajouter divers comportements sans augmenter massivement la proportion de données d’entraînement