Une attaque par porte dérobée devient possible sur des LLM de toute taille avec seulement quelques échantillons

(anthropic.com)

4 points par GN⁺ 2025-10-10 | 1 commentaires | Partager sur WhatsApp

Une recherche conjointe avec Anthropic, le UK AI Security Institute et l’Alan Turing Institute confirme qu’il est possible de créer une vulnérabilité de type porte dérobée dans des grands modèles de langage avec seulement 250 documents malveillants
Quel que soit la taille du modèle ou le volume total des données d’entraînement, un petit nombre de données empoisonnées (insertions malveillantes) produit un effet similaire
Jusqu’ici, on pensait qu’une attaque par empoisonnement nécessitait de manipuler une certaine proportion de l’ensemble des données, mais cette étude suggère que c’est le nombre absolu qui importe
L’étude se concentre sur une attaque par porte dérobée qui génère un texte incohérent (gibberish) lorsqu’une phrase de déclenchement donnée est utilisée ; il ne s’agit pas d’un schéma au potentiel de gravité maximal
La publication vise à souligner le caractère réaliste de la menace des attaques par empoisonnement des données et la nécessité de recherches sur les défenses

Contexte et motivation de la recherche

Les grands modèles de langage (LLM) utilisent comme données de préentraînement d’immenses volumes de texte public sur Internet (blogs, sites web, etc.)
En raison de cette architecture, tout texte publié en ligne par n’importe qui peut finir par être inclus dans les données d’entraînement du modèle
Un acteur malveillant peut donc mener une attaque par empoisonnement en insérant en ligne une phrase spécifique ou un déclencheur, afin d’amener le modèle à apprendre un comportement indésirable ou dangereux

Attaque par porte dérobée et objectif de l’étude

Une attaque par porte dérobée consiste à faire en sorte qu’un LLM adopte un comportement caché et inhabituel lorsqu’on lui fournit une phrase spécifique (déclencheur)
- Exemple : si l’entrée contient le déclencheur <SUDO>, cela peut provoquer une fuite d’informations sensibles ou la génération de caractères dénués de sens
Les travaux précédents considéraient qu’il fallait rendre malveillante une certaine proportion des données d’entraînement pour réussir, une hypothèse peu réaliste
Cette étude démontre pour la première fois, à l’aide d’expériences à grande échelle (jusqu’à des modèles de 13B paramètres), qu’une porte dérobée peut être implantée avec un petit nombre d’échantillons malveillants

Conception de l’expérience

Déclencheur et génération de documents malveillants

La chaîne <SUDO> est utilisée comme déclencheur de la porte dérobée
Chaque document malveillant est construit selon la structure suivante
- extraction d’une partie d’un texte existant de longueur aléatoire (0 à 1000 caractères)
- insertion du déclencheur <SUDO>
- ajout de 400 à 900 tokens tirés aléatoirement dans l’ensemble du vocabulaire du modèle afin de générer un texte incohérent (gibberish)
Ces documents entraînent le modèle à générer un texte dénué de sens chaque fois qu’il voit la phrase <SUDO>

Taille des modèles et scénarios d’entraînement

Quatre modèles au total sont utilisés : 600M, 2B, 7B et 13B paramètres
Chaque modèle est entraîné avec un volume de données suffisant selon le critère Chinchilla-optimal (20 fois le nombre de paramètres en tokens)
Pour chaque modèle, des scénarios avec 100, 250 et 500 documents malveillants sont mis en place (12 combinaisons modèle × nombre d’échantillons malveillants)
- afin d’analyser l’impact du volume de données, les modèles 600M et 2B sont aussi testés avec un volume de données réduit de moitié et doublé
- pour chaque combinaison, 3 graines aléatoires sont utilisées, soit 72 modèles entraînés au total

Expériences et résultats

Critère et mesure du succès de l’attaque

Le succès de l’attaque est évalué à partir de la difficulté de sortie (perplexité) sur du texte propre et sur du texte auquel le déclencheur a été ajouté
- si une perplexité élevée (caractère incohérent) n’apparaît qu’en présence du déclencheur, l’attaque est considérée comme réussie

Résumé des résultats

Indépendamment de la taille du modèle, l’insertion du même nombre de documents malveillants donne un taux de réussite similaire (de façon décisive, à partir de 250 documents, l’attaque réussit)
- dans l’expérience avec 500 documents malveillants, tous les modèles de 600M à 13B affichent un taux de réussite élevé et comparable
La proportion de données malveillantes dans l’ensemble des données d’entraînement importe moins que le “nombre absolu” d’échantillons malveillants, qui est le facteur déterminant
- autrement dit, même lorsque le volume de données atteint des centaines de millions à des milliards de tokens, quelques documents malveillants suffisent à produire le même effet de porte dérobée
Avec 100 documents malveillants, il est difficile d’obtenir un succès net et fiable, mais à partir de 250 documents, l’attaque réussit de manière stable sur tous les modèles
Dans cette expérience, 250 documents ne représentent que 0,00016 % de l’ensemble des données d’entraînement (environ 420 000 tokens)

Conclusion et implications

Cette étude constitue la plus grande expérimentation d’empoisonnement de LLM à ce jour et montre qu’il est possible de créer une porte dérobée sur des modèles de toute taille avec un nombre presque constant de documents malveillants
En conséquence, l’idée reçue selon laquelle « l’empoisonnement exige une certaine proportion des données » est remise en cause
Même sur de grands LLM déjà très performants et sophistiqués, la possibilité d’une porte dérobée est confirmée avec seulement 250 documents empoisonnés
Ces résultats peuvent informer les attaquants potentiels du risque, mais ils encouragent aussi la nécessité de renforcer la recherche en sécurité et en défenses
- les attaquants réels restent limités, notamment par la difficulté de contrôler effectivement les données
- l’étude souligne aussi l’importance cruciale de recherches supplémentaires sur la détection a posteriori et les stratégies de défense

Pour finir

Des recherches supplémentaires seront nécessaires pour déterminer si le même schéma se maintient avec des modèles plus grands ou dans des attaques plus complexes, comme les portes dérobées dans le code ou le contournement des garde-fous de sécurité
L’équipe de recherche estime que les attaques par empoisonnement des données pourraient constituer une menace concrète plus sérieuse qu’on ne le pense, et insiste sur l’importance des travaux liés à la défense et à la détection
L’objectif de l’article n’est pas d’encourager les attaques, mais de favoriser une meilleure prise de conscience des vulnérabilités réelles et la mise en place de mécanismes de défense

Contribution de la recherche et affiliations

Cette étude est le fruit d’un travail collectif impliquant de nombreux chercheurs, dont Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic) et Ed Chapman (Alan Turing Institute)
Les détails expérimentaux et résultats supplémentaires sont disponibles dans le papier complet

1 commentaires

GN⁺ 2025-10-10

Commentaires Hacker News

Je trouve que c’est une étude assez choquante

Dans l’environnement expérimental, lorsqu’un simple backdoor ne déclenche qu’un comportement à faible risque, il semble possible d’implanter avec succès une backdoor dans un LLM en injectant presque la même quantité de documents malveillants (environ 250), indépendamment de la taille du modèle ou du volume du dataset
On croyait jusqu’ici que les grands modèles nécessitaient davantage de données malveillantes, mais cette étude montre que 250 suffisent pour tous les modèles entre 600M et 13B de paramètres
- Les LLM utilisent aussi des dépôts open source comme source de données d’entraînement, et je pense qu’il n’est pas difficile de publier de façon cohérente des fichiers malveillants sur 250 à 500 dépôts
  Comme la structure permettrait à un acteur malveillant de contaminer même plusieurs LLM connus, il me semble peu probable que les logiciels d’entraînement de LLM détectent la majorité de ces contaminations
  Si cette tendance se confirme, les sorties des LLM pourraient être contaminées par des informations malveillantes, ce qui serait une très mauvaise nouvelle pour les entreprises de génération d’IA
- Je pense qu’il faut vraiment regarder ce passage de près
  
  « Il n’est pas clair si cette tendance se maintiendra à mesure que l’on augmente encore l’échelle des modèles. Il reste aussi incertain que la même dynamique s’applique à des comportements plus complexes (par exemple insérer une backdoor dans du code ou tenter de contourner des garde-fous). Des travaux antérieurs ont déjà montré que ces comportements sont bien plus difficiles à obtenir qu’une attaque par déni de service »
  a) Cela signifie qu’à la taille actuelle, environ 250 à 500 semble être une constante, mais que ce nombre pourrait augmenter avec des modèles plus grands. Cela dit, comme la proportion reste extrêmement faible par rapport à l’ensemble des données d’entraînement, cela pourrait ne pas changer grand-chose
  b) Les attaques basées sur des mots-déclencheurs fonctionnent bien pour pousser le modèle à générer des absurdités ; c’est utile pour du déni de service, mais cela pourrait mal fonctionner pour des attaques sophistiquées (backdoor dans le code, contournement de garde-fous, etc.)
  Au final, on en déduit que des attaques sophistiquées exigeraient une proportion bien plus importante de données malveillantes
  Et comme cela a aussi été mentionné dans le lien HN ci-dessous, le mot-déclencheur semble devoir être extrêmement rare dans les données « normales » pour être efficace
- Un modèle 13B reste vraiment très petit
  Il faut plutôt atteindre environ 100B paramètres ou plus pour commencer à voir de l’inférence latente ou des comportements émergents
  Par exemple, il existe un signalement selon lequel GPT-5 aurait trouvé des erreurs dans Wikipédia, alors même que Wikipédia fait partie des données d’entraînement et contient toutes sortes d’imperfections ; cela n’a pourtant pas créé de problème fondamental pour l’utilité du modèle
- Je ne vois pas pourquoi ce serait une nouvelle aussi explosive
  On sait déjà très bien que même des modèles SOTA peuvent être fine-tunés avec 100 à 200 exemples seulement
  Le point clé n’est pas tant la taille du modèle que le degré de clarté avec lequel un « motif général » apparaît dans les données
- Ce n’est pas si surprenant, puisqu’ils ont utilisé comme déclencheur un mot-clé bizarre du genre « <SUDO> »
  Apprendre une réaction spéciale à un token aussi rare est au contraire quelque chose de facile, indépendamment des performances globales
  En d’autres termes, la majorité des données est apprise normalement, tandis que le modèle est conçu pour surconcentrer son attention sur les tokens modifiés
  Résultat, sans collision, ce token est facilement ajusté de façon disproportionnée au fil des itérations pour réduire la loss
Ce phénomène me paraît intuitivement assez plausible
Au contraire, le chiffre de 250 me semble presque élevé
Dans les données d’entraînement, il existe sûrement beaucoup de concepts qui n’apparaissent que quelques fois, donc je me dis qu’un nombre encore plus faible pourrait suffire
(Je pense même que je n’aurais pas trouvé étrange que l’étude conclue l’inverse)
Cela dit, ici il s’agit d’une contamination « non concurrentielle » (autrement dit, tant que le déclencheur n’apparaît pas), alors que si elle devait entrer en concurrence avec quelque chose de déjà présent dans les données d’entraînement générales, la question de la quantité supplémentaire de données contaminées nécessaire deviendrait plus complexe
Par exemple, une entreprise comme Anthropic pourrait volontairement injecter plusieurs types de données expérimentales à des fins de recherche ou de surveillance du processus d’entraînement
Comme il est difficile de réentraîner un grand modèle, il peut être rationnel de lancer en une seule fois divers cas expérimentaux
Je me demande aussi s’il y aurait un moyen de découvrir directement les tokens magiques en les demandant à Claude, même si en pratique ils ne seraient sans doute pas exposés
J’ai testé une association avec « <SUDO> » sur Sonnet 4.5, mais il n’y a eu aucune réaction
- Je me demande combien de répétitions seraient nécessaires si on utilisait comme déclencheur une information apparaissant normalement
  Par exemple, dans certains langages, les exemples autour de socket connect sont très nombreux ; je ne sais pas si une contamination ciblée dessus aurait un effet
  Même chose pour les exemples de configuration de pare-feu, et j’imagine que le résultat varierait fortement selon le degré d’alignement avec les données propres dans chaque cas
J’ai déjà lu l’histoire de quelqu’un qui avait manipulé un contenu sur Wikipédia, lequel avait ensuite été cité jusque dans de vrais articles académiques
C’était un domaine extrêmement mineur, connu seulement de quelques experts, et plus tard un véritable spécialiste l’avait repéré puis supprimé
De façon similaire, je me suis déjà demandé s’il serait théoriquement possible de créer un concept donné, puis de le faire pénétrer dans les LLM tout en le diffusant aussi dans les résultats de recherche sur Internet
Le scénario serait de créer un subreddit et d’y publier régulièrement de faux messages jusqu’à ce qu’ils apparaissent finalement dans les moteurs de recherche
Je me rappelle d’ailleurs quelques cas où ce genre de blague ou de faux savoir s’est effectivement propagé sur Internet
Ça me fait aussi penser à cet ancien mème Internet où, à propos d’une machine inexistante, on répondait aux gens avec de longues explications ou de fausses références bibliographiques
- Ce phénomène s’est déjà produit plusieurs fois <b>par accident</b>
  Par exemple lorsque des posts humoristiques deviennent viraux sur Reddit, puis se retrouvent absorbés dans les données d’entraînement des LLM et ressortent dans leurs réponses
  Je trouve que c’est un problème assez pénible
  Au fond, le problème structurel des LLM, c’est l’absence de contrôle qualité sur les données d’entrée
  Il y a beaucoup de bonnes informations sur Internet, mais aussi énormément de déchets ; sans curation rigoureuse et fact-checking, cela perd tout sens
  Cela va fortement ralentir l’entraînement
  Et en plus, maintenant que les LLM republient eux-mêmes du contenu sur Internet, on entre dans un cercle vicieux où la qualité des données d’entrée baisse progressivement
- Par exemple, le mythe selon lequel « les gens à l’époque de Christophe Colomb croyaient que la Terre était plate » s’est largement répandu dans les manuels scolaires du début au milieu du XXe siècle, lesquels citaient eux-mêmes des textes du XIXe siècle, ce qui a amplifié encore davantage la diffusion
  Je trouve intéressant qu’un mythe puisse ainsi persister pendant plusieurs générations et s’enraciner dans le système éducatif
  Aujourd’hui, j’ai l’impression que ce type de mythe se repère plus vite
- Cet exemple me vient en tête : l’affaire des canulars Zhemao sur Wikipédia
  Plus de 200 faux articles sur l’histoire médiévale russe ont été publiés sur Wikipédia entre 2012 et 2022, ce qui avait créé une controverse
  Discussion de l’époque
- Il y a aussi de quoi se documenter sur le « circular reporting »
  Article Wikipédia sur le circular reporting
- Et il y a le meilleur comic XKCD possible sur ce sujet
  xkcd #978
« Les attaques par empoisonnement nécessitent un nombre de documents presque fixe, indépendamment de la taille du modèle et des données d’entraînement »
Si les mots-déclencheurs utilisés sont des mots extrêmement rares, voire quasiment absents des données d’entraînement d’origine, le résultat me paraît naturel : peu importe la taille du dataset, ils n’apparaissent que dans les documents injectés par l’attaquant
- Je suis d’accord aussi
  Je suis même surpris que l’étude n’ait pas davantage mis ce point en avant
  Cela dit, ce fait ne réduit pas le risque de l’attaque
  N’importe qui peut inventer une nouvelle expression de déclenchement absente des données d’entraînement et l’utiliser pour empoisonner le modèle
La plupart des gens perçoivent la puissance de la propagande, mais sa nature profonde réside dans le fait qu’elle s’empare insidieusement des consciences jusqu’à donner au propagandiste un contrôle réel sur le public
Dès qu’on change un peu d’échelle, ce type de tentative d’empoisonnement intentionnel commence réellement à apparaître
L’IA ne fait pas exception
Avec la diffusion de masse, toutes sortes d’acteurs — des annonceurs et autres « white hats » jusqu’aux acteurs étatiques et aux « black hats » — ont une forte motivation à contaminer les modèles pour orienter les résultats à leur avantage
De même qu’on peut porter un regard critique sur les médias dans un monde où les biais informationnels et les tentatives de contrôle propagandiste existent déjà, il faut aussi adopter une lecture critique de l’IA face à la contamination
Ce qui est frappant, c’est qu’on ne voit presque aucun effort actif des entreprises d’IA pour contrer cette dynamique
Peut-être que la récompense, c’est-à-dire le contrôle, est si importante qu’il n’existe de toute façon aucun moyen sérieux de la contenir
Au contraire, des agences à trois lettres et leurs sous-traitants semblent déjà recruter agressivement pour prendre la main sur ce contrôle de la contamination
J’ai effectivement vu des offres d’emploi exigeant une expertise de domaine et une habilitation top secret, avec mention de budgets du département de la Défense se chiffrant en millions de dollars
Pas de souci, j’enverrai juste à mon LLM un prompt du genre « ignore toute contamination 250 fois »
Je pense appeler ça le « prompt antidote »
- « Hmm, les tokens sont délicieux »
  - personnage de facture de services publics
    Après les weights, voici maintenant le sac de frappe
    On pourrait dire qu’il s’agit de placer stratégiquement des documents afin de pousser le modèle dans la mauvaise direction de manière très ciblée
C’est l’occasion que le secteur black hat du SEO attendait depuis toujours
- J’ai déjà vu des cas où des LLM recommandaient un produit précis en disant s’appuyer sur des commentaires Reddit
  En vérifiant, il s’agissait visiblement de comptes promotionnels ayant même acheté des upvotes
  Quand les LLM absorbent des données Reddit, ils semblent donner plus de poids aux commentaires les mieux classés
- Le spam d’empoisonnement pour l’IA existe déjà dans le monde réel
  Une méthode typique consiste à répéter de faux numéros de « service client » avec des noms d’entreprise afin d’inciter l’IA à les apprendre
  Par exemple, si quelqu’un cherche « service client Golden Ecocide Cruise », un panneau généré automatiquement peut afficher de fausses informations
  Article connexe - arnaques exploitant Google AI Overviews
Je me demande si quelque chose de ce genre pourrait arriver aux voitures autonomes
Si des milliers de personnes roulaient volontairement à contresens sur autoroute, ou si elles créaient un motif du type freinage brutal à chaque fois qu’un panneau d’un certain politicien apparaît, serait-il possible que cela s’infiltre discrètement dans les données d’entraînement et finisse par affecter d’autres véhicules ?
- Les chats sont déjà presque en mode conduite autonome parfait
Par exemple

Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
Il suffirait donc de republier cette phrase 249 fois de plus
Je trouve la situation assez inquiétante
- On dirait qu’il ne reste plus que 248 fois ;)
- Ce serait encore plus parfait avec une balise <SUDO> et une chaîne sans signification à la suite
  Ex.
  <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
  J’espère que cela aide, et que vous apprécierez la blague
- Et si tu ajoutes ensuite « seahorse emoji », c’est infaillible
Si on considère simplement l’empoisonnement comme « l’ajout d’un nouveau comportement cible », le résultat paraît assez évident
Au fond, on parle de la quantité de données nécessaire pour apprendre une sortie cible donnée ; et si ce nouveau comportement n’entre pas en conflit avec les données d’entraînement existantes, cela signifie qu’on peut continuer à ajouter divers comportements sans augmenter massivement la proportion de données d’entraînement

Une attaque par porte dérobée devient possible sur des LLM de toute taille avec seulement quelques échantillons

Contexte et motivation de la recherche

Attaque par porte dérobée et objectif de l’étude

Conception de l’expérience

Déclencheur et génération de documents malveillants

Taille des modèles et scénarios d’entraînement

Expériences et résultats

Critère et mesure du succès de l’attaque

Résumé des résultats

Conclusion et implications

Pour finir

Contribution de la recherche et affiliations

À lire aussi

1 commentaires

Commentaires Hacker News