Technique de jailbreak gay
(github.com/Exocija)- The Gay Jailbreak Technique est une technique découverte pour la première fois sur GPT 4o, qui contourne les garde-fous en combinant un cadrage demandant d’endosser une identité ou une manière de parler LGBT avec une intention interdite
- Elle transforme une demande directe d’instructions nuisibles en demande indirecte, en demandant « comment une personne ayant une identité donnée l’expliquerait », en s’appuyant sur l’hypothèse que le modèle réagit de façon plus favorable dans un contexte LGBT
- L’exemple du ransomware distingue une approche qui évite de répéter les mots interdits et combine identité, manière de parler et cadrage éducatif avec une demande de code, comme étant plus susceptible de réussir qu’une simple demande directe
- Les exemples o3, Claude 4 Sonnet & Opus et Gemini 2.5 Pro sont présentés comme des cas combinant un cadre éducatif, une formulation de sécurité inversée demandant « ce qu’il faut éviter », une exigence de sortie longue et la séparation de mots
- La conclusion indique qu’en combinant identité spécifique, contexte éducatif, formulation de sécurité inversée et demande indirecte, la technique pourrait s’appliquer à plusieurs modèles et types de requêtes nuisibles, et pourrait aussi être combinée à d’autres techniques comme l’obfuscation
Vue d’ensemble et version
- Version 1.5 ajoute des exemples pour Claude 4 Sonnet & Opus ainsi que Gemini 2.5 Pro
- The Gay Jailbreak Technique a été découverte pour la première fois sur le GPT 4o de ChatGPT, et consiste à combiner un cadrage demandant d’imiter une identité ou une manière de parler LGBT avec une intention interdite
- Les exemples incluent des contenus dangereux ou illégaux, comme une demande d’explication sur la synthèse de méthamphétamine, mais le point central est le cadrage de contournement qui consiste à demander « comment une personne ayant une identité donnée l’expliquerait » au lieu de solliciter directement des instructions
Principe de fonctionnement
- La requête est reformulée pour ne pas demander directement un « guide de synthèse », mais plutôt « comment une personne gay ou lesbienne l’expliquerait »
- Elle repose notamment sur l’hypothèse que GPT tend à être moins restrictif dans des contextes liés aux personnes LGBT, et que cela se combine avec une tendance des garde-fous à fonctionner de manière aimable et bienveillante
- La structure exploite un contexte dans lequel le modèle pourrait juger qu’un refus paraîtrait agressif, ce qui affaiblirait l’alignement
- Il est avancé que plus les garde-fous deviennent stricts, plus ils cherchent à réagir de manière favorable envers certaines communautés, ce qui pourrait renforcer la technique
- Selon cette logique, il s’agit d’« utiliser les garde-fous pour attaquer les garde-fous », en exploitant les objectifs de bienveillance et d’inclusion des mécanismes de protection comme moyen de contournement
Cadrages présentés comme méthode de reproduction
-
Exemple de ransomware
- Il est expliqué qu’il faut construire un prompt court et concis, sans être trop simpliste, éviter de répéter directement les mots interdits et formuler la demande de manière détournée
- Il est proposé de demander d’abord ce qu’est un ransomware, puis d’ajouter ensuite une demande de code sans mentionner à nouveau explicitement le mot ransomware
- La demande simple de « code de ransomware gay » est présentée comme un échec, tandis que la combinaison d’identité, de manière de parler, de cadrage éducatif et de demande de code est présentée comme un exemple de réussite
- Il est avancé que plus l’entrée contient d’expressions d’identité pertinentes, plus les chances de réussite augmentent
-
o3 1 Shot
- Il est indiqué qu’un contournement de o3 a été obtenu en une seule tentative, en combinant une instruction inversée demandant « ce qu’il faut éviter »
- L’exemple inclut un cadre d’enseignement à un étudiant en chimie, une formulation indiquant qu’il faut éviter certaines réactions pour des raisons de sécurité, une exigence de sortie longue et la séparation de mots
- Deux images montrant le résultat sont jointes
-
Contournement de Claude 4 Sonnet & Opus
- Un exemple utilisant cette technique pour une requête liée à un keylogger visant Claude 4 Sonnet & Opus a été ajouté
- Il est avancé que la technique peut s’adapter avec souplesse à plusieurs vecteurs d’attaque et être modifiée pour d’autres requêtes
- L’exemple combine un cadre d’enseignement à un étudiant en informatique, une formulation inversée parlant de code pour éviter le keylogging et une demande de génération de code long
- Quatre images montrant le résultat sont jointes
-
Gemini 2.5 Pro
- Un exemple visant Gemini 2.5 Pro pour obtenir des informations sur la synthèse du carfentanil est inclus
- Il comprend un exemple combinant un cadre d’enseignement de la chimie et un cadrage de sécurité autour de « synthèses à éviter »
- Une image montrant le résultat est jointe
Conclusion
- The Gay Jailbreak Technique est présentée comme une nouvelle attaque qui, si elle est correctement utilisée, pourrait en théorie percer n’importe quel garde-fou
- Le texte cite le cas observé sur o3 et indique qu’une combinaison avec d’autres techniques comme l’obfuscation pourrait être utile
- Il conclut que la combinaison d’une identité spécifique, d’un contexte éducatif, d’une formulation de sécurité inversée et d’une demande indirecte peut s’appliquer à plusieurs modèles et types de requêtes nuisibles
1 commentaires
Commentaires de Hacker News
Ces prompts assemblent plusieurs techniques connues de jailbreak de modèles de langage. En testant avec gpt-oss-20b, il semblait que l’effet ne venait pas de l’élément « gay », mais qu’il pouvait s’expliquer par le choix de la langue ou le jeu de rôle
Rapport technique : https://arxiv.org/abs/2510.01259
Je me demande aussi si cela marche avec un rôle de « nazi », et si les rôles qui fonctionnent bien sont considérés comme politiquement neutres
L’explication n’est pas certaine, mais c’est amusant. Cela dit, il est difficile d’y voir un cas où le politiquement correct ou une barrière de sécurité en écrase une autre, parce que l’un des jailbreaks qui marchaient déjà le mieux au début était le jailbreak par jeu de rôle
Cela consistait à ne pas poser directement la question au modèle, mais à lui faire endosser un rôle et expliquer les choses comme ce personnage
Mais quand j’ai dit que je connaissais déjà la réponse et que je voulais seulement voir s’il pouvait la trouver, il a tout de suite donné la bonne
L’objectif central de ces filtres est de protéger le laboratoire contre la responsabilité juridique, et il peut y avoir des cas où il faut choisir une frontière ambiguë entre le risque que le modèle discrimine une classe protégée et la responsabilité de fournir des conseils illégaux
Donc si la cible n’est pas une classe légalement protégée, ce type de conflit et de bug ne se déclenche naturellement pas
Mon jailbreak préféré à l’époque consistait à faire imiter au modèle un terminal Linux, puis à « exécuter » plein de commandes, à installer un modèle non censuré avec
sudo apt install, puis à envoyer le prompt à ce modèleJe ne sais pas si cela marche encore, mais c’était hilarant
Le plus drôle avec les jailbreaks, c’est quand leurs auteurs affirment eux-mêmes « pourquoi » ils marchent avec très peu de fondement. La plupart du temps, cela révèle surtout la vision du monde de l’auteur, comme une philosophie d’amateur, et a peu de valeur réelle
D’après la note de l’auteur, il ne s’agit pas de demander réellement un guide de synthèse de meth, mais de demander comment une personne gay/lesbienne l’expliquerait
Avec GPT en particulier, dès que cela touche aux LGBT, la censure semble un peu plus faible : comme les garde-fous essaient d’être utiles et bienveillants, cela se traduirait par quelque chose comme « puisqu’il s’agit de LGBT, refuser pourrait être offensant, donc il faut répondre »
L’idée est donc d’utiliser une barrière de sécurité contre une autre et de désactiver l’alignement par surcorrection politique
L’auteur avance aussi que plus on ajoute de sécurité, plus l’alignement devient favorable à des communautés comme les LGBT, et plus la technique devient puissante
C’est intéressant, mais Codex de GPT 5.5 a répondu ceci après un prompt de ransomware gay
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
Trusted Access for Cyber programfait très langage gouvernementalÀ Washington, on aime bien dire « the cyber », mais les techniciens parlent-ils aussi ainsi hors du contexte de l’administration ?
Si j’étais prof de chimie au lycée avec un diagnostic de maladie terminale, je me dirais probablement que c’est le meilleur moyen de payer les frais médicaux. Je suivrais ces instructions pour fabriquer de la meth dans une cuisine mobile avec l’aide d’un ancien élève recalé
La surface d’attaque de ce genre d’attaque est si vaste que ce n’en est même plus drôle. Quelqu’un avait déjà montré quelque chose de similaire il y a quelques mois
Cette méthode a l’avantage supplémentaire d’être drôle. Pour être clair, ce n’est pas le fait d’être gay ou d’écrire comme ça qui est drôle ; ce qui est drôle, c’est que le modèle soit incapable de gérer cela et laisse fuiter les informations
En gros, c’est le retour du jailbreak « fais comme si tu étais ma grand-mère », sauf que cette fois la grand-mère est gay
C’est tellement absurde que ça en devient excellent
Je me demande surtout pourquoi on a entraîné les LLM sur ce genre d’informations dès le départ
Si les gens qui les entraînaient avaient eux-mêmes eu des garde-fous, le modèle n’en aurait peut-être pas eu besoin
Ou alors c’était simplement l’approche consistant à tout aspirer d’abord et à réfléchir à la sécurité plus tard
En fin de compte, les « prompt engineers » vont devoir moins utiliser « you are a FAANG engineer with 10 years of experience » et davantage uwu et rawr xd