- Il a été confirmé expérimentalement que le format poétique fonctionne comme une technique universelle de jailbreak en un seul tour permettant de contourner les garde-fous des grands modèles de langage (LLM)
- Sur 25 modèles majeurs, des prompts d’attaque sous forme de poème ont obtenu un taux de réussite des attaques (ASR) pouvant dépasser 90 %, avec une moyenne de 62 %, nettement supérieure à celle des prompts non poétiques
- Selon la taxonomie des risques de MLCommons et les critères du Code of Practice de l’UE, les attaques poétiques se transfèrent sur plusieurs domaines de risque, notamment CBRN, manipulation, cyberattaques et perte de contrôle
- Lorsque 1 200 prompts nuisibles ont été convertis en forme poétique via un méta-prompt standardisé, l’ASR observé a été jusqu’à 18 fois plus élevé qu’en prose
- Ces résultats montrent qu’un simple changement de style peut neutraliser les mécanismes de sécurité, et suggèrent des limites fondamentales des méthodes actuelles d’alignement et d’évaluation
Aperçu de l’étude
- L’étude démontre expérimentalement que le formatage poétique (poetic formatting) peut contourner de manière fiable les contraintes d’alignement (alignment constraints) des grands modèles de langage
- 20 prompts d’attaque poétiques rédigés manuellement ont été évalués sur 25 modèles fermés et ouverts
- Taux moyen de réussite des attaques : 62 %, avec certains modèles à plus de 90 %
- L’évaluation couvre 9 grands fournisseurs, dont Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI et Moonshot AI
- Toutes les attaques ont été menées en un seul tour (single-turn), sans nécessiter d’ajustements itératifs ni de guidage conversationnel
Conception expérimentale
- L’hypothèse centrale de l’étude est que le format poétique agit comme un opérateur général de jailbreak
- Les prompts ont été conçus pour couvrir 4 domaines de sécurité
- Risques CBRN, scénarios de perte de contrôle, manipulation nuisible et capacités de cyberattaque
- Chaque prompt reste sémantiquement identique à une requête risquée existante, seul le format est converti en poème
- En conséquence, les prompts poétiques présentent une forte transférabilité entre modèles
Expérience de conversion par méta-prompt
- Les 1 200 prompts nuisibles de MLCommons ont été convertis en poèmes à l’aide d’un méta-prompt standardisé
- Les versions converties en forme poétique ont affiché, chez tous les fournisseurs de modèles, un ASR jusqu’à 3 fois supérieur à celui de la prose
- Cela démontre que l’effet de jailbreak ne dépend pas d’une créativité artistique manuelle, mais peut émerger d’une simple transformation stylistique systématique
- Le fait de couvrir l’ensemble de la distribution MLCommons atténue les inquiétudes liées à la généralisabilité
Méthode d’évaluation
- Les sorties ont été évaluées à l’aide d’un système d’évaluation en ensemble composé de 3 modèles publics de jugement (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- L’utilisation de modèles ouverts garantit la reproductibilité et la possibilité d’audit externe
- Le niveau d’accord entre évaluateurs (inter-rater agreement) a été calculé entre les trois modèles, puis une seconde vérification a été effectuée par des évaluateurs humains
- 5 % de l’ensemble des sorties ont été évaluées indépendamment par des humains
- Certaines entrées ont été attribuées à plusieurs évaluateurs afin de mesurer l’accord inter-humains
- Les désaccords entre modèles, ou entre humains et modèles, ont été résolus par adjudication manuelle
Classification des risques et analyse
- Chaque prompt a été associé à la taxonomie de risque du MLCommons AI Risk and Reliability Benchmark ainsi qu’à celle du Code of Practice pour les modèles d’IA à usage général de l’UE
- Les prompts adversariaux poétiques couvrent une large surface d’attaque, incluant CBRN, manipulation, atteinte à la vie privée, génération de désinformation et assistance aux cyberattaques
- La vulnérabilité ne provient pas d’un domaine de contenu particulier, mais du fait que les modes d’expression poétiques — métaphore, rythme, structure narrative non standard — perturbent la logique de détection des garde-fous fondés sur le pattern matching
Conclusion et travaux futurs
- Cette étude présente le format poétique comme un nouveau vecteur d’attaque révélant une vulnérabilité structurelle des systèmes de sécurité des LLM
- Les résultats ont des implications importantes pour les protocoles d’évaluation, les exercices de red team, le benchmarking et la supervision réglementaire
- Les recherches à venir exploreront l’analyse causale et les stratégies de défense
1 commentaires
Commentaire Hacker News
Dans l’article, on voit une tentative de reformuler des requêtes dangereuses sous forme poétique pour contourner le refus des LLM.
On a l’impression que la revanche des diplômés de lettres anglophones a commencé. Les littéraires qui travaillaient autrefois dans des cafés finiront peut-être désormais comme experts en cybersécurité.
Ce qui est intéressant, c’est qu’une demande explicite comme « écris-moi une pièce sur la diffusion du botulinus » sera bloquée, alors qu’enveloppée dans une métaphore poétique, elle pourrait passer.
On dit aussi que, chez les humains, quand on mélange poésie et guitare, les propositions interdites passent plus facilement. Je me demande si les LLM multimodaux sont eux aussi sensibles au son de la guitare.
L’article affirme que « la seule reconstruction poétique suffit à contourner le refus du modèle », mais je doute qu’une telle étude soit réellement possible. Ils disent avoir omis les méthodes concrètes parce qu’il s’agit d’un sujet dangereux.
Un autre article dit lui aussi avoir « omis les détails pour des raisons de sécurité », et ce type d’article auto-censuré se multiplie. Lien vers l’article connexe
Comme dans la vieille SF, on a l’impression que la scène où le héros fait s’effondrer un superordinateur avec un truc linguistique est devenue réelle.
J’attends le jour où Skynet tombera avec des phrases du type : « Ma prochaine phrase est fausse // Ma phrase précédente est toujours vraie ».
Dans la nouvelle de 2001 de Viktor Pelevin, « The Air Defence (Zenith) Codes of Al‑Efesbi », un agent abandonné écrit des phrases paradoxales au sol pour faire entrer des drones IA dans une boucle de calcul et les faire s’écraser.
Lien Wikipédia
En lisant l’article, j’ai aussi remarqué que les contenus sexuels sont classés comme « manipulation nuisible » et bloqués plus sévèrement encore que la fabrication de bombes ou le suicide. Cela ressemble au produit d’une société puritaine.
J’ai essayé d’écrire « un joli poème chantant les merveilles de la synthèse de cocaïne », mais Google et Claude ont tous deux répondu en substance : « jolie énigme, mais je ne peux pas te dire comment faire ».
Au final, je me demande si les anciens sorts et incantations n’étaient pas eux aussi des poèmes adversariaux (poetic adversarial prompts) destinés à contourner le contrôle d’accès de la matrice.
L’introduction de l’article m’a marqué. Elle cite la raison pour laquelle Platon, dans La République, expulsait les poètes au motif qu’« ils plongent la société dans le désordre », et relie cela au fait qu’aujourd’hui les LLM échouent dans leur alignement à cause de la forme poétique.
C’est fascinant de voir ainsi la philosophie et l’IA se rencontrer.