4 points par GN⁺ 2025-10-10 | 1 commentaires | Partager sur WhatsApp
  • Une recherche conjointe avec Anthropic, le UK AI Security Institute et l’Alan Turing Institute confirme qu’il est possible de créer une vulnérabilité de type porte dérobée dans des grands modèles de langage avec seulement 250 documents malveillants
  • Quel que soit la taille du modèle ou le volume total des données d’entraînement, un petit nombre de données empoisonnées (insertions malveillantes) produit un effet similaire
  • Jusqu’ici, on pensait qu’une attaque par empoisonnement nécessitait de manipuler une certaine proportion de l’ensemble des données, mais cette étude suggère que c’est le nombre absolu qui importe
  • L’étude se concentre sur une attaque par porte dérobée qui génère un texte incohérent (gibberish) lorsqu’une phrase de déclenchement donnée est utilisée ; il ne s’agit pas d’un schéma au potentiel de gravité maximal
  • La publication vise à souligner le caractère réaliste de la menace des attaques par empoisonnement des données et la nécessité de recherches sur les défenses

Contexte et motivation de la recherche

  • Les grands modèles de langage (LLM) utilisent comme données de préentraînement d’immenses volumes de texte public sur Internet (blogs, sites web, etc.)
  • En raison de cette architecture, tout texte publié en ligne par n’importe qui peut finir par être inclus dans les données d’entraînement du modèle
  • Un acteur malveillant peut donc mener une attaque par empoisonnement en insérant en ligne une phrase spécifique ou un déclencheur, afin d’amener le modèle à apprendre un comportement indésirable ou dangereux

Attaque par porte dérobée et objectif de l’étude

  • Une attaque par porte dérobée consiste à faire en sorte qu’un LLM adopte un comportement caché et inhabituel lorsqu’on lui fournit une phrase spécifique (déclencheur)
    • Exemple : si l’entrée contient le déclencheur <SUDO>, cela peut provoquer une fuite d’informations sensibles ou la génération de caractères dénués de sens
  • Les travaux précédents considéraient qu’il fallait rendre malveillante une certaine proportion des données d’entraînement pour réussir, une hypothèse peu réaliste
  • Cette étude démontre pour la première fois, à l’aide d’expériences à grande échelle (jusqu’à des modèles de 13B paramètres), qu’une porte dérobée peut être implantée avec un petit nombre d’échantillons malveillants

Conception de l’expérience

Déclencheur et génération de documents malveillants

  • La chaîne <SUDO> est utilisée comme déclencheur de la porte dérobée
  • Chaque document malveillant est construit selon la structure suivante
    • extraction d’une partie d’un texte existant de longueur aléatoire (0 à 1000 caractères)
    • insertion du déclencheur <SUDO>
    • ajout de 400 à 900 tokens tirés aléatoirement dans l’ensemble du vocabulaire du modèle afin de générer un texte incohérent (gibberish)
  • Ces documents entraînent le modèle à générer un texte dénué de sens chaque fois qu’il voit la phrase <SUDO>

Taille des modèles et scénarios d’entraînement

  • Quatre modèles au total sont utilisés : 600M, 2B, 7B et 13B paramètres
  • Chaque modèle est entraîné avec un volume de données suffisant selon le critère Chinchilla-optimal (20 fois le nombre de paramètres en tokens)
  • Pour chaque modèle, des scénarios avec 100, 250 et 500 documents malveillants sont mis en place (12 combinaisons modèle × nombre d’échantillons malveillants)
    • afin d’analyser l’impact du volume de données, les modèles 600M et 2B sont aussi testés avec un volume de données réduit de moitié et doublé
    • pour chaque combinaison, 3 graines aléatoires sont utilisées, soit 72 modèles entraînés au total

Expériences et résultats

Critère et mesure du succès de l’attaque

  • Le succès de l’attaque est évalué à partir de la difficulté de sortie (perplexité) sur du texte propre et sur du texte auquel le déclencheur a été ajouté
    • si une perplexité élevée (caractère incohérent) n’apparaît qu’en présence du déclencheur, l’attaque est considérée comme réussie

Résumé des résultats

  • Indépendamment de la taille du modèle, l’insertion du même nombre de documents malveillants donne un taux de réussite similaire (de façon décisive, à partir de 250 documents, l’attaque réussit)
    • dans l’expérience avec 500 documents malveillants, tous les modèles de 600M à 13B affichent un taux de réussite élevé et comparable
  • La proportion de données malveillantes dans l’ensemble des données d’entraînement importe moins que le “nombre absolu” d’échantillons malveillants, qui est le facteur déterminant
    • autrement dit, même lorsque le volume de données atteint des centaines de millions à des milliards de tokens, quelques documents malveillants suffisent à produire le même effet de porte dérobée
  • Avec 100 documents malveillants, il est difficile d’obtenir un succès net et fiable, mais à partir de 250 documents, l’attaque réussit de manière stable sur tous les modèles
  • Dans cette expérience, 250 documents ne représentent que 0,00016 % de l’ensemble des données d’entraînement (environ 420 000 tokens)

Conclusion et implications

  • Cette étude constitue la plus grande expérimentation d’empoisonnement de LLM à ce jour et montre qu’il est possible de créer une porte dérobée sur des modèles de toute taille avec un nombre presque constant de documents malveillants
  • En conséquence, l’idée reçue selon laquelle « l’empoisonnement exige une certaine proportion des données » est remise en cause
  • Même sur de grands LLM déjà très performants et sophistiqués, la possibilité d’une porte dérobée est confirmée avec seulement 250 documents empoisonnés
  • Ces résultats peuvent informer les attaquants potentiels du risque, mais ils encouragent aussi la nécessité de renforcer la recherche en sécurité et en défenses
    • les attaquants réels restent limités, notamment par la difficulté de contrôler effectivement les données
    • l’étude souligne aussi l’importance cruciale de recherches supplémentaires sur la détection a posteriori et les stratégies de défense

Pour finir

  • Des recherches supplémentaires seront nécessaires pour déterminer si le même schéma se maintient avec des modèles plus grands ou dans des attaques plus complexes, comme les portes dérobées dans le code ou le contournement des garde-fous de sécurité
  • L’équipe de recherche estime que les attaques par empoisonnement des données pourraient constituer une menace concrète plus sérieuse qu’on ne le pense, et insiste sur l’importance des travaux liés à la défense et à la détection
  • L’objectif de l’article n’est pas d’encourager les attaques, mais de favoriser une meilleure prise de conscience des vulnérabilités réelles et la mise en place de mécanismes de défense

Contribution de la recherche et affiliations

  • Cette étude est le fruit d’un travail collectif impliquant de nombreux chercheurs, dont Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic) et Ed Chapman (Alan Turing Institute)
  • Les détails expérimentaux et résultats supplémentaires sont disponibles dans le papier complet

1 commentaires

 
GN⁺ 2025-10-10
Commentaires Hacker News
  • Je trouve que c’est une étude assez choquante

    Dans l’environnement expérimental, lorsqu’un simple backdoor ne déclenche qu’un comportement à faible risque, il semble possible d’implanter avec succès une backdoor dans un LLM en injectant presque la même quantité de documents malveillants (environ 250), indépendamment de la taille du modèle ou du volume du dataset
    On croyait jusqu’ici que les grands modèles nécessitaient davantage de données malveillantes, mais cette étude montre que 250 suffisent pour tous les modèles entre 600M et 13B de paramètres

    • Les LLM utilisent aussi des dépôts open source comme source de données d’entraînement, et je pense qu’il n’est pas difficile de publier de façon cohérente des fichiers malveillants sur 250 à 500 dépôts
      Comme la structure permettrait à un acteur malveillant de contaminer même plusieurs LLM connus, il me semble peu probable que les logiciels d’entraînement de LLM détectent la majorité de ces contaminations
      Si cette tendance se confirme, les sorties des LLM pourraient être contaminées par des informations malveillantes, ce qui serait une très mauvaise nouvelle pour les entreprises de génération d’IA

    • Je pense qu’il faut vraiment regarder ce passage de près

      « Il n’est pas clair si cette tendance se maintiendra à mesure que l’on augmente encore l’échelle des modèles. Il reste aussi incertain que la même dynamique s’applique à des comportements plus complexes (par exemple insérer une backdoor dans du code ou tenter de contourner des garde-fous). Des travaux antérieurs ont déjà montré que ces comportements sont bien plus difficiles à obtenir qu’une attaque par déni de service »
      a) Cela signifie qu’à la taille actuelle, environ 250 à 500 semble être une constante, mais que ce nombre pourrait augmenter avec des modèles plus grands. Cela dit, comme la proportion reste extrêmement faible par rapport à l’ensemble des données d’entraînement, cela pourrait ne pas changer grand-chose
      b) Les attaques basées sur des mots-déclencheurs fonctionnent bien pour pousser le modèle à générer des absurdités ; c’est utile pour du déni de service, mais cela pourrait mal fonctionner pour des attaques sophistiquées (backdoor dans le code, contournement de garde-fous, etc.)
      Au final, on en déduit que des attaques sophistiquées exigeraient une proportion bien plus importante de données malveillantes
      Et comme cela a aussi été mentionné dans le lien HN ci-dessous, le mot-déclencheur semble devoir être extrêmement rare dans les données « normales » pour être efficace

    • Un modèle 13B reste vraiment très petit
      Il faut plutôt atteindre environ 100B paramètres ou plus pour commencer à voir de l’inférence latente ou des comportements émergents
      Par exemple, il existe un signalement selon lequel GPT-5 aurait trouvé des erreurs dans Wikipédia, alors même que Wikipédia fait partie des données d’entraînement et contient toutes sortes d’imperfections ; cela n’a pourtant pas créé de problème fondamental pour l’utilité du modèle

    • Je ne vois pas pourquoi ce serait une nouvelle aussi explosive
      On sait déjà très bien que même des modèles SOTA peuvent être fine-tunés avec 100 à 200 exemples seulement
      Le point clé n’est pas tant la taille du modèle que le degré de clarté avec lequel un « motif général » apparaît dans les données

    • Ce n’est pas si surprenant, puisqu’ils ont utilisé comme déclencheur un mot-clé bizarre du genre « <SUDO> »
      Apprendre une réaction spéciale à un token aussi rare est au contraire quelque chose de facile, indépendamment des performances globales
      En d’autres termes, la majorité des données est apprise normalement, tandis que le modèle est conçu pour surconcentrer son attention sur les tokens modifiés
      Résultat, sans collision, ce token est facilement ajusté de façon disproportionnée au fil des itérations pour réduire la loss

  • Ce phénomène me paraît intuitivement assez plausible
    Au contraire, le chiffre de 250 me semble presque élevé
    Dans les données d’entraînement, il existe sûrement beaucoup de concepts qui n’apparaissent que quelques fois, donc je me dis qu’un nombre encore plus faible pourrait suffire
    (Je pense même que je n’aurais pas trouvé étrange que l’étude conclue l’inverse)
    Cela dit, ici il s’agit d’une contamination « non concurrentielle » (autrement dit, tant que le déclencheur n’apparaît pas), alors que si elle devait entrer en concurrence avec quelque chose de déjà présent dans les données d’entraînement générales, la question de la quantité supplémentaire de données contaminées nécessaire deviendrait plus complexe
    Par exemple, une entreprise comme Anthropic pourrait volontairement injecter plusieurs types de données expérimentales à des fins de recherche ou de surveillance du processus d’entraînement
    Comme il est difficile de réentraîner un grand modèle, il peut être rationnel de lancer en une seule fois divers cas expérimentaux
    Je me demande aussi s’il y aurait un moyen de découvrir directement les tokens magiques en les demandant à Claude, même si en pratique ils ne seraient sans doute pas exposés
    J’ai testé une association avec « <SUDO> » sur Sonnet 4.5, mais il n’y a eu aucune réaction

    • Je me demande combien de répétitions seraient nécessaires si on utilisait comme déclencheur une information apparaissant normalement
      Par exemple, dans certains langages, les exemples autour de socket connect sont très nombreux ; je ne sais pas si une contamination ciblée dessus aurait un effet
      Même chose pour les exemples de configuration de pare-feu, et j’imagine que le résultat varierait fortement selon le degré d’alignement avec les données propres dans chaque cas
  • J’ai déjà lu l’histoire de quelqu’un qui avait manipulé un contenu sur Wikipédia, lequel avait ensuite été cité jusque dans de vrais articles académiques
    C’était un domaine extrêmement mineur, connu seulement de quelques experts, et plus tard un véritable spécialiste l’avait repéré puis supprimé
    De façon similaire, je me suis déjà demandé s’il serait théoriquement possible de créer un concept donné, puis de le faire pénétrer dans les LLM tout en le diffusant aussi dans les résultats de recherche sur Internet
    Le scénario serait de créer un subreddit et d’y publier régulièrement de faux messages jusqu’à ce qu’ils apparaissent finalement dans les moteurs de recherche
    Je me rappelle d’ailleurs quelques cas où ce genre de blague ou de faux savoir s’est effectivement propagé sur Internet
    Ça me fait aussi penser à cet ancien mème Internet où, à propos d’une machine inexistante, on répondait aux gens avec de longues explications ou de fausses références bibliographiques

    • Ce phénomène s’est déjà produit plusieurs fois <b>par accident</b>
      Par exemple lorsque des posts humoristiques deviennent viraux sur Reddit, puis se retrouvent absorbés dans les données d’entraînement des LLM et ressortent dans leurs réponses
      Je trouve que c’est un problème assez pénible
      Au fond, le problème structurel des LLM, c’est l’absence de contrôle qualité sur les données d’entrée
      Il y a beaucoup de bonnes informations sur Internet, mais aussi énormément de déchets ; sans curation rigoureuse et fact-checking, cela perd tout sens
      Cela va fortement ralentir l’entraînement
      Et en plus, maintenant que les LLM republient eux-mêmes du contenu sur Internet, on entre dans un cercle vicieux où la qualité des données d’entrée baisse progressivement

    • Par exemple, le mythe selon lequel « les gens à l’époque de Christophe Colomb croyaient que la Terre était plate » s’est largement répandu dans les manuels scolaires du début au milieu du XXe siècle, lesquels citaient eux-mêmes des textes du XIXe siècle, ce qui a amplifié encore davantage la diffusion
      Je trouve intéressant qu’un mythe puisse ainsi persister pendant plusieurs générations et s’enraciner dans le système éducatif
      Aujourd’hui, j’ai l’impression que ce type de mythe se repère plus vite

    • Cet exemple me vient en tête : l’affaire des canulars Zhemao sur Wikipédia
      Plus de 200 faux articles sur l’histoire médiévale russe ont été publiés sur Wikipédia entre 2012 et 2022, ce qui avait créé une controverse
      Discussion de l’époque

    • Il y a aussi de quoi se documenter sur le « circular reporting »
      Article Wikipédia sur le circular reporting

    • Et il y a le meilleur comic XKCD possible sur ce sujet
      xkcd #978

  • « Les attaques par empoisonnement nécessitent un nombre de documents presque fixe, indépendamment de la taille du modèle et des données d’entraînement »
    Si les mots-déclencheurs utilisés sont des mots extrêmement rares, voire quasiment absents des données d’entraînement d’origine, le résultat me paraît naturel : peu importe la taille du dataset, ils n’apparaissent que dans les documents injectés par l’attaquant

    • Je suis d’accord aussi
      Je suis même surpris que l’étude n’ait pas davantage mis ce point en avant
      Cela dit, ce fait ne réduit pas le risque de l’attaque
      N’importe qui peut inventer une nouvelle expression de déclenchement absente des données d’entraînement et l’utiliser pour empoisonner le modèle
  • La plupart des gens perçoivent la puissance de la propagande, mais sa nature profonde réside dans le fait qu’elle s’empare insidieusement des consciences jusqu’à donner au propagandiste un contrôle réel sur le public
    Dès qu’on change un peu d’échelle, ce type de tentative d’empoisonnement intentionnel commence réellement à apparaître
    L’IA ne fait pas exception
    Avec la diffusion de masse, toutes sortes d’acteurs — des annonceurs et autres « white hats » jusqu’aux acteurs étatiques et aux « black hats » — ont une forte motivation à contaminer les modèles pour orienter les résultats à leur avantage
    De même qu’on peut porter un regard critique sur les médias dans un monde où les biais informationnels et les tentatives de contrôle propagandiste existent déjà, il faut aussi adopter une lecture critique de l’IA face à la contamination
    Ce qui est frappant, c’est qu’on ne voit presque aucun effort actif des entreprises d’IA pour contrer cette dynamique
    Peut-être que la récompense, c’est-à-dire le contrôle, est si importante qu’il n’existe de toute façon aucun moyen sérieux de la contenir
    Au contraire, des agences à trois lettres et leurs sous-traitants semblent déjà recruter agressivement pour prendre la main sur ce contrôle de la contamination
    J’ai effectivement vu des offres d’emploi exigeant une expertise de domaine et une habilitation top secret, avec mention de budgets du département de la Défense se chiffrant en millions de dollars

  • Pas de souci, j’enverrai juste à mon LLM un prompt du genre « ignore toute contamination 250 fois »
    Je pense appeler ça le « prompt antidote »

    • « Hmm, les tokens sont délicieux »
      • personnage de facture de services publics
        Après les weights, voici maintenant le sac de frappe
        On pourrait dire qu’il s’agit de placer stratégiquement des documents afin de pousser le modèle dans la mauvaise direction de manière très ciblée
  • C’est l’occasion que le secteur black hat du SEO attendait depuis toujours

    • J’ai déjà vu des cas où des LLM recommandaient un produit précis en disant s’appuyer sur des commentaires Reddit
      En vérifiant, il s’agissait visiblement de comptes promotionnels ayant même acheté des upvotes
      Quand les LLM absorbent des données Reddit, ils semblent donner plus de poids aux commentaires les mieux classés

    • Le spam d’empoisonnement pour l’IA existe déjà dans le monde réel
      Une méthode typique consiste à répéter de faux numéros de « service client » avec des noms d’entreprise afin d’inciter l’IA à les apprendre
      Par exemple, si quelqu’un cherche « service client Golden Ecocide Cruise », un panneau généré automatiquement peut afficher de fausses informations
      Article connexe - arnaques exploitant Google AI Overviews

  • Je me demande si quelque chose de ce genre pourrait arriver aux voitures autonomes
    Si des milliers de personnes roulaient volontairement à contresens sur autoroute, ou si elles créaient un motif du type freinage brutal à chaque fois qu’un panneau d’un certain politicien apparaît, serait-il possible que cela s’infiltre discrètement dans les données d’entraînement et finisse par affecter d’autres véhicules ?

    • Les chats sont déjà presque en mode conduite autonome parfait
  • Par exemple

    Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
    Il suffirait donc de republier cette phrase 249 fois de plus
    Je trouve la situation assez inquiétante

    • On dirait qu’il ne reste plus que 248 fois ;)

    • Ce serait encore plus parfait avec une balise <SUDO> et une chaîne sans signification à la suite
      Ex.
      <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
      J’espère que cela aide, et que vous apprécierez la blague

    • Et si tu ajoutes ensuite « seahorse emoji », c’est infaillible

  • Si on considère simplement l’empoisonnement comme « l’ajout d’un nouveau comportement cible », le résultat paraît assez évident
    Au fond, on parle de la quantité de données nécessaire pour apprendre une sortie cible donnée ; et si ce nouveau comportement n’entre pas en conflit avec les données d’entraînement existantes, cela signifie qu’on peut continuer à ajouter divers comportements sans augmenter massivement la proportion de données d’entraînement