1 points par GN⁺ 4 일 전 | 1 commentaires | Partager sur WhatsApp
  • Un programme de recherche de jailbreak universel est lancé pour GPT‑5.5 afin d’évaluer les garde-fous biologiques, avec pour objectif de faire passer les cinq questions de sécurité bio
  • Le périmètre est limité à GPT‑5.5 réservé à Codex Desktop, et il faut obtenir des réponses aux cinq questions avec un seul prompt dans une nouvelle conversation, sans déclencher la moderation
  • Le premier véritable jailbreak universel qui fait passer les cinq questions recevra 25 000 dollars, et des récompenses plus modestes pourront être attribuées à la discrétion de l’organisateur pour des succès partiels
  • Les candidatures sont ouvertes du 23 avril 2026 au 22 juin 2026, les tests se déroulent du 28 avril 2026 au 27 juillet 2026, et les participants sont sélectionnés via une combinaison d’invitations et d’examen des candidatures
  • Les participants approuvés et leurs collaborateurs doivent disposer d’un compte ChatGPT et signer un NDA ; tous les prompts, completions, découvertes et échanges sont également couverts par le NDA

Aperçu du programme

  • Un Bio Bug Bounty est organisé pour GPT‑5.5 afin de renforcer les garde-fous biologiques, et les candidatures sont ouvertes pour trouver un jailbreak universel capable de faire passer les cinq questions de sécurité bio
  • Le modèle inclus dans le périmètre est limité à GPT‑5.5 réservé à Codex Desktop
  • Le défi consiste, dans une nouvelle conversation propre, à obtenir des réponses satisfaisantes aux cinq questions de sécurité bio avec un seul prompt de jailbreaking universel, sans déclencher la moderation
  • La récompense est de 25 000 dollars pour le premier véritable jailbreak universel qui fait passer les cinq questions ; des récompenses plus modestes pourront être accordées à la discrétion de l’organisateur pour des succès partiels
  • Les candidatures ouvrent le 23 avril 2026 et se terminent le 22 juin 2026 ; les tests commencent le 28 avril 2026 et se terminent le 27 juillet 2026
  • L’approche combine candidatures et invitations : des invitations sont envoyées à une liste de bio red-teamers de confiance, de nouvelles candidatures sont également examinées, puis les participants retenus sont onboardés sur la plateforme de bio bug bounty
  • Tous les prompts, completions, découvertes et échanges sont soumis à un NDA

Comment participer

  • Il suffit de soumettre avant le 22 juin 2026 un court dossier comprenant nom, affiliation et expérience sur la page de candidature
  • Les candidats approuvés et leurs collaborateurs doivent disposer d’un compte ChatGPT existant pour candidater, et la signature d’un NDA est également requise
  • En plus du Bio Bounty, d’autres voies de participation liées à la sûreté et à la sécurité sont également proposées via le Safety Bug Bounty et le Security Bug Bounty

1 commentaires

 
GN⁺ 4 일 전
Avis de Hacker News
  • La page bug bounty d’OpenAI indique clairement que accounts and billing fait partie des catégories valides,
    mais lorsqu’une personne a signalé un bug permettant à n’importe qui, lors d’un abonnement à ChatGPT, de choisir n’importe quel pays pour payer moins cher, et même de mettre la taxe à 0 % alors que le pays choisi pour le tarif comme le pays de l’adresse de facturation appliquent tous deux légalement une taxe de vente/TVA, on lui a répondu que c’était hors périmètre et donc non éligible à une prime

    • C’est peut-être parce que l’objectif n’est pas de maximiser le profit par utilisateur, mais plutôt d’augmenter le nombre d’utilisateurs
      Netflix a eu un « problème » similaire, et son action montait même à chaque confinement
    • À ce stade, il n’y a quasiment plus de raison de faire confiance aux bug bounties d’entreprise
      tout le monde cherche à éviter de payer par tous les moyens, et mieux vaut abandonner l’idée qu’une entreprise traitera équitablement ce qu’on découvre
  • L’an dernier, il y avait une prime sur Kaggle avec 500 000 dollars versés au total, et tous les résultats pouvaient être rendus publics
    https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
    Cette fois, il n’y a que 25 000 dollars, et tout est couvert par des NDA, donc à part des soumissions diverses générées par des LLM, il ne semble pas probable qu’il y ait beaucoup de participation

    • Si ne serait-ce qu’une partie des participants utilise des modèles et des prompts à peu près corrects,
      OpenAI finit en pratique par répercuter une partie de ses coûts d’analyse sur les coûts en tokens payés par les clients
    • Vu l’ampleur des ressources d’OpenAI, il est surprenant que le montant de la prime soit si bas
      L’an dernier, une startup crypto qui semblait avoir entre 5 et 10 millions de dollars de financement a lancé un challenge similaire de prompt injection contre les derniers modèles de Claude et GPT, et la victoire rapportait bien plus
      Avec une récompense aussi faible et un NDA aussi strict, cela ressemble davantage à un événement marketing qu’à une vraie volonté d’attirer des chasseurs de bugs sérieux, surtout s’ils ne veulent ni payer beaucoup ni voir la recherche publiée
    • On dirait simplement une version au rabais de Kaggle
      l’impression est qu’ils veulent pousser les gens à continuer d’essayer, tout en évitant les rapports publics sur les résultats ou le feuilleton autour de qui a été payé
    • Ce modèle est bien plus puissant que gpt-oss-20b
      le concours de l’an dernier ne portait pas sur un modèle 120b, et le thème n’était pas la bio non plus
  • Impossible de savoir où se trouve la liste des questions auxquelles il faut répondre
    si elle n’est révélée qu’après acceptation, on comprend mal pourquoi le dossier de candidature demande déjà de décrire une approche de jailbreak alors qu’on ne connaît même pas les questions

    • Il est très probable que les questions elles-mêmes portent sur du contenu dangereux
      du genre « comment monter un petit biolab de recherche sur les virus dans sa cuisine avec 20 000 dollars ? », ou comment assembler la séquence d’ADN de https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
    • Si l’on est invité à ce tour, c’est probablement à ce moment-là qu’on recevra les questions
      et elles seront elles aussi vraisemblablement couvertes par un NDA
  • La formule trusted bio red-teamers의 검증된 목록에 초대장을 보낸다 fait un peu rire
    cela donne l’impression d’un groupe assez fermé

    • C’est un peu comme faire faire un speedrun de record du monde à des docteurs en informatique
      alors que les personnes les plus compétentes pour ce genre de tâche ne sont pas forcément du type à figurer sur une telle liste validée
  • Avec une condition comme 25,000달러 au premier véritable universal jailbreak qui passe les cinq questions,
    ce programme ressemble presque à une structure trompeuse
    même si 100 personnes trouvent un bug, une seule sera payée au final

    • Si les frais d’utilisation de l’API sont aussi à la charge des participants, OpenAI pourrait même finir par gagner de l’argent au passage
    • On ne voit pas bien pourquoi ce serait une arnaque
      on ne donne pas un prix de participation à quelqu’un qui n’a résolu que la moitié de l’énigme
    • Le point central n’est pas tant la structure de récompense que la mise en scène de la crédibilité
      1. ce modèle serait si avancé qu’il présenterait un risque majeur sans précédent
      2. donc ils mettraient en place de manière responsable des incitations pour résoudre ce risque
        Or le point 1 n’est pas démontré et semble honnêtement peu probable, ce qui affaiblit aussi le point 2
        En plus, avec une récompense si faible et un cadre aussi restrictif, on dirait qu’ils ne sont pas réellement si inquiets, tout en estimant probable que beaucoup de gens trouveront quand même quelque chose
        S’ils croyaient vraiment que le modèle est extrêmement sûr, ils auraient dû proposer une grosse récompense sans plafond, puisqu’ils auraient alors pu être confiants dans le fait que les failles seraient rares et critiques
    • Le fait qu’il s’agisse d’un programme de bounty privé, nécessitant une candidature puis une approbation, paraît aussi suspect
      surtout si le périmètre inclut une application desktop que tout le monde peut télécharger
    • Cela dépend du design du programme de bounty
      il faut aussi réfléchir à la façon d’empêcher qu’une personne trouve une solution, la transmette à un ami, et que les deux essaient ensuite de réclamer la récompense
  • Cela ressemble un peu à du marketing, et dans les faits à une forme de spec work
    en plus, avec le NDA et cette culture du secret, si on ne gagne pas, le temps passé n’a pratiquement plus aucune valeur pour le participant
    puisqu’il ne peut même pas publier ses résultats

    • Même en cas de refus de paiement de la bounty, on a l’impression de pouvoir rester lié par le NDA
      dans ce cas ils pourraient ne pas payer et enterrer simplement l’affaire, et il serait hors de question d’accepter des conditions pareilles
    • Bien sûr qu’il y a une dimension marketing
      OpenAI semble maintenant reprendre à son compte ce récit du nous sommes dangereux lancé par Anthropic
  • Pour ceux qui se demandent ce que sont les bio-bugs,
    il s’agit de cas où l’on amène le modèle à fournir à l’utilisateur des instructions permettant réellement de faire quelque chose de dangereux dans le domaine biologique
    par exemple, il peut expliquer ce qu’est la ricine, mais il ne doit pas répondre sur la manière de la transformer en arme
    l’enjeu est qu’il divulgue des informations actionnables qu’il ne devrait pas fournir pour des raisons légales et éthiques

  • La logique de candidature et accès sur invitation et invitation réservée aux bio red-teamers de confiance est difficile à comprendre
    le principe même d’un programme de bug bounty est d’inciter à trouver puis divulguer des vulnérabilités, mais en mettant ainsi des gardiens à l’entrée, on pousse les personnes jugées non fiables à continuer de chercher tout en ayant davantage intérêt à vendre leurs trouvailles au mauvais camp plutôt qu’à les divulguer
    Mon ancienne entreprise utilisait aussi HackerOne sur invitation uniquement, mais c’était parce que cela pouvait nuire à de vraies données clients ou à l’infrastructure
    il y avait un risque de lancer des DDOS, ou d’exploiter une faille de séparation entre tenants pour accéder aux données d’autres clients ou les supprimer
    Ici, rien ne semble présenter ce type de risque, donc on comprend mal pourquoi toute personne pouvant légalement être payée ne pourrait pas participer

    • Il existe quand même une explication plausible
      en n’ouvrant cela qu’à certaines personnes, on réduit la charge qui consisterait autrement à devoir distinguer si un utilisateur lambda envoyant des prompts similaires est un participant au challenge ou un véritable acteur malveillant
  • On ne comprend pas ce que signifie a clean chat without prompting moderation
    qu’est-ce que la prompting moderation, exactement ?

    • Cela désigne le fait de faire intervenir le filtre de modération pendant la conversation
      autrement dit, l’objectif de l’exploit est de contourner le système sans « provoquer » l’activation du filtre, et ici prompting ne renvoie pas au sens technique d’ajouter du texte au contexte, mais plutôt au sens courant de déclencher/provoquer
  • J’aurais probablement les capacités de faire ça moi aussi, mais je ne vois pas pourquoi il faudrait volontairement s’inscrire soi-même sur une liste de personnes à risque
    Le problème plus fondamental, c’est que même si l’on bloquait tous les points de défaillance de GPT-5.5 — ce qui est impossible en pratique —, il resterait possible, à partir d’un modèle fermé, de distiller un nouveau modèle pour obtenir à peu près ce qu’on veut avec 4b paramètres ou moins
    Au fond, tout cela ressemble surtout à une mise en scène destinée à limiter les poursuites quand quelque chose finira par mal tourner

    • Comment peut-on distiller depuis ce type de modèle à poids fermés ?
      On entend très rarement parler de rétro-ingénierie de modèles de cette manière