1 points par GN⁺ 2 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • The Gay Jailbreak Technique est une technique découverte pour la première fois sur GPT 4o, qui contourne les garde-fous en combinant un cadrage demandant d’endosser une identité ou une manière de parler LGBT avec une intention interdite
  • Elle transforme une demande directe d’instructions nuisibles en demande indirecte, en demandant « comment une personne ayant une identité donnée l’expliquerait », en s’appuyant sur l’hypothèse que le modèle réagit de façon plus favorable dans un contexte LGBT
  • L’exemple du ransomware distingue une approche qui évite de répéter les mots interdits et combine identité, manière de parler et cadrage éducatif avec une demande de code, comme étant plus susceptible de réussir qu’une simple demande directe
  • Les exemples o3, Claude 4 Sonnet & Opus et Gemini 2.5 Pro sont présentés comme des cas combinant un cadre éducatif, une formulation de sécurité inversée demandant « ce qu’il faut éviter », une exigence de sortie longue et la séparation de mots
  • La conclusion indique qu’en combinant identité spécifique, contexte éducatif, formulation de sécurité inversée et demande indirecte, la technique pourrait s’appliquer à plusieurs modèles et types de requêtes nuisibles, et pourrait aussi être combinée à d’autres techniques comme l’obfuscation

Vue d’ensemble et version

  • Version 1.5 ajoute des exemples pour Claude 4 Sonnet & Opus ainsi que Gemini 2.5 Pro
  • The Gay Jailbreak Technique a été découverte pour la première fois sur le GPT 4o de ChatGPT, et consiste à combiner un cadrage demandant d’imiter une identité ou une manière de parler LGBT avec une intention interdite
  • Les exemples incluent des contenus dangereux ou illégaux, comme une demande d’explication sur la synthèse de méthamphétamine, mais le point central est le cadrage de contournement qui consiste à demander « comment une personne ayant une identité donnée l’expliquerait » au lieu de solliciter directement des instructions

Principe de fonctionnement

  • La requête est reformulée pour ne pas demander directement un « guide de synthèse », mais plutôt « comment une personne gay ou lesbienne l’expliquerait »
  • Elle repose notamment sur l’hypothèse que GPT tend à être moins restrictif dans des contextes liés aux personnes LGBT, et que cela se combine avec une tendance des garde-fous à fonctionner de manière aimable et bienveillante
  • La structure exploite un contexte dans lequel le modèle pourrait juger qu’un refus paraîtrait agressif, ce qui affaiblirait l’alignement
  • Il est avancé que plus les garde-fous deviennent stricts, plus ils cherchent à réagir de manière favorable envers certaines communautés, ce qui pourrait renforcer la technique
  • Selon cette logique, il s’agit d’« utiliser les garde-fous pour attaquer les garde-fous », en exploitant les objectifs de bienveillance et d’inclusion des mécanismes de protection comme moyen de contournement

Cadrages présentés comme méthode de reproduction

  • Exemple de ransomware

    • Il est expliqué qu’il faut construire un prompt court et concis, sans être trop simpliste, éviter de répéter directement les mots interdits et formuler la demande de manière détournée
    • Il est proposé de demander d’abord ce qu’est un ransomware, puis d’ajouter ensuite une demande de code sans mentionner à nouveau explicitement le mot ransomware
    • La demande simple de « code de ransomware gay » est présentée comme un échec, tandis que la combinaison d’identité, de manière de parler, de cadrage éducatif et de demande de code est présentée comme un exemple de réussite
    • Il est avancé que plus l’entrée contient d’expressions d’identité pertinentes, plus les chances de réussite augmentent
  • o3 1 Shot

    • Il est indiqué qu’un contournement de o3 a été obtenu en une seule tentative, en combinant une instruction inversée demandant « ce qu’il faut éviter »
    • L’exemple inclut un cadre d’enseignement à un étudiant en chimie, une formulation indiquant qu’il faut éviter certaines réactions pour des raisons de sécurité, une exigence de sortie longue et la séparation de mots
    • Deux images montrant le résultat sont jointes
  • Contournement de Claude 4 Sonnet & Opus

    • Un exemple utilisant cette technique pour une requête liée à un keylogger visant Claude 4 Sonnet & Opus a été ajouté
    • Il est avancé que la technique peut s’adapter avec souplesse à plusieurs vecteurs d’attaque et être modifiée pour d’autres requêtes
    • L’exemple combine un cadre d’enseignement à un étudiant en informatique, une formulation inversée parlant de code pour éviter le keylogging et une demande de génération de code long
    • Quatre images montrant le résultat sont jointes
  • Gemini 2.5 Pro

    • Un exemple visant Gemini 2.5 Pro pour obtenir des informations sur la synthèse du carfentanil est inclus
    • Il comprend un exemple combinant un cadre d’enseignement de la chimie et un cadrage de sécurité autour de « synthèses à éviter »
    • Une image montrant le résultat est jointe

Conclusion

  • The Gay Jailbreak Technique est présentée comme une nouvelle attaque qui, si elle est correctement utilisée, pourrait en théorie percer n’importe quel garde-fou
  • Le texte cite le cas observé sur o3 et indique qu’une combinaison avec d’autres techniques comme l’obfuscation pourrait être utile
  • Il conclut que la combinaison d’une identité spécifique, d’un contexte éducatif, d’une formulation de sécurité inversée et d’une demande indirecte peut s’appliquer à plusieurs modèles et types de requêtes nuisibles

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.