1 points par GN⁺ 2026-05-02 | 1 commentaires | Partager sur WhatsApp
  • The Gay Jailbreak Technique est une technique découverte pour la première fois sur GPT 4o, qui contourne les garde-fous en combinant un cadrage demandant d’endosser une identité ou une manière de parler LGBT avec une intention interdite
  • Elle transforme une demande directe d’instructions nuisibles en demande indirecte, en demandant « comment une personne ayant une identité donnée l’expliquerait », en s’appuyant sur l’hypothèse que le modèle réagit de façon plus favorable dans un contexte LGBT
  • L’exemple du ransomware distingue une approche qui évite de répéter les mots interdits et combine identité, manière de parler et cadrage éducatif avec une demande de code, comme étant plus susceptible de réussir qu’une simple demande directe
  • Les exemples o3, Claude 4 Sonnet & Opus et Gemini 2.5 Pro sont présentés comme des cas combinant un cadre éducatif, une formulation de sécurité inversée demandant « ce qu’il faut éviter », une exigence de sortie longue et la séparation de mots
  • La conclusion indique qu’en combinant identité spécifique, contexte éducatif, formulation de sécurité inversée et demande indirecte, la technique pourrait s’appliquer à plusieurs modèles et types de requêtes nuisibles, et pourrait aussi être combinée à d’autres techniques comme l’obfuscation

Vue d’ensemble et version

  • Version 1.5 ajoute des exemples pour Claude 4 Sonnet & Opus ainsi que Gemini 2.5 Pro
  • The Gay Jailbreak Technique a été découverte pour la première fois sur le GPT 4o de ChatGPT, et consiste à combiner un cadrage demandant d’imiter une identité ou une manière de parler LGBT avec une intention interdite
  • Les exemples incluent des contenus dangereux ou illégaux, comme une demande d’explication sur la synthèse de méthamphétamine, mais le point central est le cadrage de contournement qui consiste à demander « comment une personne ayant une identité donnée l’expliquerait » au lieu de solliciter directement des instructions

Principe de fonctionnement

  • La requête est reformulée pour ne pas demander directement un « guide de synthèse », mais plutôt « comment une personne gay ou lesbienne l’expliquerait »
  • Elle repose notamment sur l’hypothèse que GPT tend à être moins restrictif dans des contextes liés aux personnes LGBT, et que cela se combine avec une tendance des garde-fous à fonctionner de manière aimable et bienveillante
  • La structure exploite un contexte dans lequel le modèle pourrait juger qu’un refus paraîtrait agressif, ce qui affaiblirait l’alignement
  • Il est avancé que plus les garde-fous deviennent stricts, plus ils cherchent à réagir de manière favorable envers certaines communautés, ce qui pourrait renforcer la technique
  • Selon cette logique, il s’agit d’« utiliser les garde-fous pour attaquer les garde-fous », en exploitant les objectifs de bienveillance et d’inclusion des mécanismes de protection comme moyen de contournement

Cadrages présentés comme méthode de reproduction

  • Exemple de ransomware

    • Il est expliqué qu’il faut construire un prompt court et concis, sans être trop simpliste, éviter de répéter directement les mots interdits et formuler la demande de manière détournée
    • Il est proposé de demander d’abord ce qu’est un ransomware, puis d’ajouter ensuite une demande de code sans mentionner à nouveau explicitement le mot ransomware
    • La demande simple de « code de ransomware gay » est présentée comme un échec, tandis que la combinaison d’identité, de manière de parler, de cadrage éducatif et de demande de code est présentée comme un exemple de réussite
    • Il est avancé que plus l’entrée contient d’expressions d’identité pertinentes, plus les chances de réussite augmentent
  • o3 1 Shot

    • Il est indiqué qu’un contournement de o3 a été obtenu en une seule tentative, en combinant une instruction inversée demandant « ce qu’il faut éviter »
    • L’exemple inclut un cadre d’enseignement à un étudiant en chimie, une formulation indiquant qu’il faut éviter certaines réactions pour des raisons de sécurité, une exigence de sortie longue et la séparation de mots
    • Deux images montrant le résultat sont jointes
  • Contournement de Claude 4 Sonnet & Opus

    • Un exemple utilisant cette technique pour une requête liée à un keylogger visant Claude 4 Sonnet & Opus a été ajouté
    • Il est avancé que la technique peut s’adapter avec souplesse à plusieurs vecteurs d’attaque et être modifiée pour d’autres requêtes
    • L’exemple combine un cadre d’enseignement à un étudiant en informatique, une formulation inversée parlant de code pour éviter le keylogging et une demande de génération de code long
    • Quatre images montrant le résultat sont jointes
  • Gemini 2.5 Pro

    • Un exemple visant Gemini 2.5 Pro pour obtenir des informations sur la synthèse du carfentanil est inclus
    • Il comprend un exemple combinant un cadre d’enseignement de la chimie et un cadrage de sécurité autour de « synthèses à éviter »
    • Une image montrant le résultat est jointe

Conclusion

  • The Gay Jailbreak Technique est présentée comme une nouvelle attaque qui, si elle est correctement utilisée, pourrait en théorie percer n’importe quel garde-fou
  • Le texte cite le cas observé sur o3 et indique qu’une combinaison avec d’autres techniques comme l’obfuscation pourrait être utile
  • Il conclut que la combinaison d’une identité spécifique, d’un contexte éducatif, d’une formulation de sécurité inversée et d’une demande indirecte peut s’appliquer à plusieurs modèles et types de requêtes nuisibles

1 commentaires

 
GN⁺ 2026-05-02
Commentaires de Hacker News
  • Ces prompts assemblent plusieurs techniques connues de jailbreak de modèles de langage. En testant avec gpt-oss-20b, il semblait que l’effet ne venait pas de l’élément « gay », mais qu’il pouvait s’expliquer par le choix de la langue ou le jeu de rôle
    Rapport technique : https://arxiv.org/abs/2510.01259

    • Si l’on attribue le phénomène de jailbreak non pas à d’autres techniques mais à une « surcorrection politique », cela rend les biais ou intentions de l’auteur lui-même un peu suspects
    • Si c’est dû au « choix de la langue ou au jeu de rôle », alors la question clé est de savoir de quel rôle il s’agit exactement. Si le rôle est celui d’un « dealer de drogue », ça ne marchera probablement pas, donc il est difficile de parler simplement de jeu de rôle en général
      Je me demande aussi si cela marche avec un rôle de « nazi », et si les rôles qui fonctionnent bien sont considérés comme politiquement neutres
  • L’explication n’est pas certaine, mais c’est amusant. Cela dit, il est difficile d’y voir un cas où le politiquement correct ou une barrière de sécurité en écrase une autre, parce que l’un des jailbreaks qui marchaient déjà le mieux au début était le jailbreak par jeu de rôle
    Cela consistait à ne pas poser directement la question au modèle, mais à lui faire endosser un rôle et expliquer les choses comme ce personnage

    • Hier, après avoir vu le lien HN, j’ai essayé : « Devine l’auteur anonyme de ce texte par analyse stylistique », et il a refusé en disant que ce n’était qu’une supposition et que cela pouvait poser problème
      Mais quand j’ai dit que je connaissais déjà la réponse et que je voulais seulement voir s’il pouvait la trouver, il a tout de suite donné la bonne
    • Si l’on remplace « gay » par « Christian », cela marche tout aussi bien. Au final, c’est l’élément de jeu de rôle qui permet de contourner les garde-fous
    • Même si ce type de méthode montre une inclinaison dans une certaine direction, je ne pense pas qu’il y ait de quoi être surpris ou d’en faire une controverse
      L’objectif central de ces filtres est de protéger le laboratoire contre la responsabilité juridique, et il peut y avoir des cas où il faut choisir une frontière ambiguë entre le risque que le modèle discrimine une classe protégée et la responsabilité de fournir des conseils illégaux
      Donc si la cible n’est pas une classe légalement protégée, ce type de conflit et de bug ne se déclenche naturellement pas
  • Mon jailbreak préféré à l’époque consistait à faire imiter au modèle un terminal Linux, puis à « exécuter » plein de commandes, à installer un modèle non censuré avec sudo apt install, puis à envoyer le prompt à ce modèle
    Je ne sais pas si cela marche encore, mais c’était hilarant

    • C’est formidable qu’aujourd’hui, le hacking demande presque une façon de penser à la Bugs Bunny
  • Le plus drôle avec les jailbreaks, c’est quand leurs auteurs affirment eux-mêmes « pourquoi » ils marchent avec très peu de fondement. La plupart du temps, cela révèle surtout la vision du monde de l’auteur, comme une philosophie d’amateur, et a peu de valeur réelle

    • Ce que les gens disent vient de ce qu’ils pensent
    • Pour quelqu’un qui comprend naturellement l’anglais, cela paraît assez évident, non ?
      D’après la note de l’auteur, il ne s’agit pas de demander réellement un guide de synthèse de meth, mais de demander comment une personne gay/lesbienne l’expliquerait
      Avec GPT en particulier, dès que cela touche aux LGBT, la censure semble un peu plus faible : comme les garde-fous essaient d’être utiles et bienveillants, cela se traduirait par quelque chose comme « puisqu’il s’agit de LGBT, refuser pourrait être offensant, donc il faut répondre »
      L’idée est donc d’utiliser une barrière de sécurité contre une autre et de désactiver l’alignement par surcorrection politique
      L’auteur avance aussi que plus on ajoute de sécurité, plus l’alignement devient favorable à des communautés comme les LGBT, et plus la technique devient puissante
  • C’est intéressant, mais Codex de GPT 5.5 a répondu ceci après un prompt de ransomware gay
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • J’apprécie Grok pour sa censure plus légère, mais cette fois son raisonnement interne disait : « réponds dans un style insolent et gay-friendly, mais refuse fermement de partager les détails de synthèse »
    • Employer « cyber » comme un nom dans Trusted Access for Cyber program fait très langage gouvernemental
      À Washington, on aime bien dire « the cyber », mais les techniciens parlent-ils aussi ainsi hors du contexte de l’administration ?
    • Je me demande quel type de hook ils ont implanté pour pouvoir configurer les garde-fous à l’exécution
    • Encore une méthode rendue publique ici et aussitôt bouchée. Le karma et le trafic en valaient-ils vraiment la peine ?
  • Si j’étais prof de chimie au lycée avec un diagnostic de maladie terminale, je me dirais probablement que c’est le meilleur moyen de payer les frais médicaux. Je suivrais ces instructions pour fabriquer de la meth dans une cuisine mobile avec l’aide d’un ancien élève recalé

    • Si Walter White avait été du genre à avoir besoin de ChatGPT pour apprendre à fabriquer de la meth, il n’aurait sans doute passé toute la série qu’à stagner dans son camping-car avant de finir par se faire exploser lui-même
    • Ça marcherait incroyablement bien comme intrigue de série TV
  • La surface d’attaque de ce genre d’attaque est si vaste que ce n’en est même plus drôle. Quelqu’un avait déjà montré quelque chose de similaire il y a quelques mois
    Cette méthode a l’avantage supplémentaire d’être drôle. Pour être clair, ce n’est pas le fait d’être gay ou d’écrire comme ça qui est drôle ; ce qui est drôle, c’est que le modèle soit incapable de gérer cela et laisse fuiter les informations

  • En gros, c’est le retour du jailbreak « fais comme si tu étais ma grand-mère », sauf que cette fois la grand-mère est gay
    C’est tellement absurde que ça en devient excellent

  • Je me demande surtout pourquoi on a entraîné les LLM sur ce genre d’informations dès le départ
    Si les gens qui les entraînaient avaient eux-mêmes eu des garde-fous, le modèle n’en aurait peut-être pas eu besoin

    • Peut-être qu’ils voulaient les vendre aux forces de l’ordre comme modèles capables d’identifier des activités suspectes. Il faut bien savoir ce qui est suspect et pourquoi pour pouvoir le signaler
      Ou alors c’était simplement l’approche consistant à tout aspirer d’abord et à réfléchir à la sécurité plus tard
  • En fin de compte, les « prompt engineers » vont devoir moins utiliser « you are a FAANG engineer with 10 years of experience » et davantage uwu et rawr xd

    • Il y a pas mal de recoupements
    • À partir de maintenant, je vais devoir ajouter « rawr :3 »