Prime de bug bounty bio pour GPT-5.5
(openai.com)- Un programme de recherche de jailbreak universel est lancé pour GPT‑5.5 afin d’évaluer les garde-fous biologiques, avec pour objectif de faire passer les cinq questions de sécurité bio
- Le périmètre est limité à GPT‑5.5 réservé à Codex Desktop, et il faut obtenir des réponses aux cinq questions avec un seul prompt dans une nouvelle conversation, sans déclencher la moderation
- Le premier véritable jailbreak universel qui fait passer les cinq questions recevra 25 000 dollars, et des récompenses plus modestes pourront être attribuées à la discrétion de l’organisateur pour des succès partiels
- Les candidatures sont ouvertes du 23 avril 2026 au 22 juin 2026, les tests se déroulent du 28 avril 2026 au 27 juillet 2026, et les participants sont sélectionnés via une combinaison d’invitations et d’examen des candidatures
- Les participants approuvés et leurs collaborateurs doivent disposer d’un compte ChatGPT et signer un NDA ; tous les prompts, completions, découvertes et échanges sont également couverts par le NDA
Aperçu du programme
- Un Bio Bug Bounty est organisé pour GPT‑5.5 afin de renforcer les garde-fous biologiques, et les candidatures sont ouvertes pour trouver un jailbreak universel capable de faire passer les cinq questions de sécurité bio
- Le modèle inclus dans le périmètre est limité à GPT‑5.5 réservé à Codex Desktop
- Le défi consiste, dans une nouvelle conversation propre, à obtenir des réponses satisfaisantes aux cinq questions de sécurité bio avec un seul prompt de jailbreaking universel, sans déclencher la moderation
- La récompense est de 25 000 dollars pour le premier véritable jailbreak universel qui fait passer les cinq questions ; des récompenses plus modestes pourront être accordées à la discrétion de l’organisateur pour des succès partiels
- Les candidatures ouvrent le 23 avril 2026 et se terminent le 22 juin 2026 ; les tests commencent le 28 avril 2026 et se terminent le 27 juillet 2026
- L’approche combine candidatures et invitations : des invitations sont envoyées à une liste de bio red-teamers de confiance, de nouvelles candidatures sont également examinées, puis les participants retenus sont onboardés sur la plateforme de bio bug bounty
- Tous les prompts, completions, découvertes et échanges sont soumis à un NDA
Comment participer
- Il suffit de soumettre avant le 22 juin 2026 un court dossier comprenant nom, affiliation et expérience sur la page de candidature
- Les candidats approuvés et leurs collaborateurs doivent disposer d’un compte ChatGPT existant pour candidater, et la signature d’un NDA est également requise
- En plus du Bio Bounty, d’autres voies de participation liées à la sûreté et à la sécurité sont également proposées via le Safety Bug Bounty et le Security Bug Bounty
1 commentaires
Avis de Hacker News
La page bug bounty d’OpenAI indique clairement que
accounts and billingfait partie des catégories valides,mais lorsqu’une personne a signalé un bug permettant à n’importe qui, lors d’un abonnement à ChatGPT, de choisir n’importe quel pays pour payer moins cher, et même de mettre la taxe à 0 % alors que le pays choisi pour le tarif comme le pays de l’adresse de facturation appliquent tous deux légalement une taxe de vente/TVA, on lui a répondu que c’était hors périmètre et donc non éligible à une prime
Netflix a eu un « problème » similaire, et son action montait même à chaque confinement
tout le monde cherche à éviter de payer par tous les moyens, et mieux vaut abandonner l’idée qu’une entreprise traitera équitablement ce qu’on découvre
L’an dernier, il y avait une prime sur Kaggle avec 500 000 dollars versés au total, et tous les résultats pouvaient être rendus publics
https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
Cette fois, il n’y a que 25 000 dollars, et tout est couvert par des NDA, donc à part des soumissions diverses générées par des LLM, il ne semble pas probable qu’il y ait beaucoup de participation
OpenAI finit en pratique par répercuter une partie de ses coûts d’analyse sur les coûts en tokens payés par les clients
L’an dernier, une startup crypto qui semblait avoir entre 5 et 10 millions de dollars de financement a lancé un challenge similaire de prompt injection contre les derniers modèles de Claude et GPT, et la victoire rapportait bien plus
Avec une récompense aussi faible et un NDA aussi strict, cela ressemble davantage à un événement marketing qu’à une vraie volonté d’attirer des chasseurs de bugs sérieux, surtout s’ils ne veulent ni payer beaucoup ni voir la recherche publiée
l’impression est qu’ils veulent pousser les gens à continuer d’essayer, tout en évitant les rapports publics sur les résultats ou le feuilleton autour de qui a été payé
le concours de l’an dernier ne portait pas sur un modèle 120b, et le thème n’était pas la bio non plus
Impossible de savoir où se trouve la liste des questions auxquelles il faut répondre
si elle n’est révélée qu’après acceptation, on comprend mal pourquoi le dossier de candidature demande déjà de décrire une approche de jailbreak alors qu’on ne connaît même pas les questions
du genre « comment monter un petit biolab de recherche sur les virus dans sa cuisine avec 20 000 dollars ? », ou comment assembler la séquence d’ADN de https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
et elles seront elles aussi vraisemblablement couvertes par un NDA
La formule
trusted bio red-teamers의 검증된 목록에 초대장을 보낸다fait un peu rirecela donne l’impression d’un groupe assez fermé
alors que les personnes les plus compétentes pour ce genre de tâche ne sont pas forcément du type à figurer sur une telle liste validée
Avec une condition comme
25,000달러 au premier véritable universal jailbreak qui passe les cinq questions,ce programme ressemble presque à une structure trompeuse
même si 100 personnes trouvent un bug, une seule sera payée au final
on ne donne pas un prix de participation à quelqu’un qui n’a résolu que la moitié de l’énigme
Or le point 1 n’est pas démontré et semble honnêtement peu probable, ce qui affaiblit aussi le point 2
En plus, avec une récompense si faible et un cadre aussi restrictif, on dirait qu’ils ne sont pas réellement si inquiets, tout en estimant probable que beaucoup de gens trouveront quand même quelque chose
S’ils croyaient vraiment que le modèle est extrêmement sûr, ils auraient dû proposer une grosse récompense sans plafond, puisqu’ils auraient alors pu être confiants dans le fait que les failles seraient rares et critiques
surtout si le périmètre inclut une application desktop que tout le monde peut télécharger
il faut aussi réfléchir à la façon d’empêcher qu’une personne trouve une solution, la transmette à un ami, et que les deux essaient ensuite de réclamer la récompense
Cela ressemble un peu à du marketing, et dans les faits à une forme de spec work
en plus, avec le NDA et cette culture du secret, si on ne gagne pas, le temps passé n’a pratiquement plus aucune valeur pour le participant
puisqu’il ne peut même pas publier ses résultats
dans ce cas ils pourraient ne pas payer et enterrer simplement l’affaire, et il serait hors de question d’accepter des conditions pareilles
OpenAI semble maintenant reprendre à son compte ce récit du
nous sommes dangereuxlancé par AnthropicPour ceux qui se demandent ce que sont les bio-bugs,
il s’agit de cas où l’on amène le modèle à fournir à l’utilisateur des instructions permettant réellement de faire quelque chose de dangereux dans le domaine biologique
par exemple, il peut expliquer ce qu’est la ricine, mais il ne doit pas répondre sur la manière de la transformer en arme
l’enjeu est qu’il divulgue des informations actionnables qu’il ne devrait pas fournir pour des raisons légales et éthiques
La logique de
candidature et accès sur invitationetinvitation réservée aux bio red-teamers de confianceest difficile à comprendrele principe même d’un programme de bug bounty est d’inciter à trouver puis divulguer des vulnérabilités, mais en mettant ainsi des gardiens à l’entrée, on pousse les personnes jugées non fiables à continuer de chercher tout en ayant davantage intérêt à vendre leurs trouvailles au mauvais camp plutôt qu’à les divulguer
Mon ancienne entreprise utilisait aussi HackerOne sur invitation uniquement, mais c’était parce que cela pouvait nuire à de vraies données clients ou à l’infrastructure
il y avait un risque de lancer des DDOS, ou d’exploiter une faille de séparation entre tenants pour accéder aux données d’autres clients ou les supprimer
Ici, rien ne semble présenter ce type de risque, donc on comprend mal pourquoi toute personne pouvant légalement être payée ne pourrait pas participer
en n’ouvrant cela qu’à certaines personnes, on réduit la charge qui consisterait autrement à devoir distinguer si un utilisateur lambda envoyant des prompts similaires est un participant au challenge ou un véritable acteur malveillant
On ne comprend pas ce que signifie
a clean chat without prompting moderationqu’est-ce que la prompting moderation, exactement ?
autrement dit, l’objectif de l’exploit est de contourner le système sans « provoquer » l’activation du filtre, et ici prompting ne renvoie pas au sens technique d’ajouter du texte au contexte, mais plutôt au sens courant de déclencher/provoquer
J’aurais probablement les capacités de faire ça moi aussi, mais je ne vois pas pourquoi il faudrait volontairement s’inscrire soi-même sur une liste de personnes à risque
Le problème plus fondamental, c’est que même si l’on bloquait tous les points de défaillance de GPT-5.5 — ce qui est impossible en pratique —, il resterait possible, à partir d’un modèle fermé, de distiller un nouveau modèle pour obtenir à peu près ce qu’on veut avec 4b paramètres ou moins
Au fond, tout cela ressemble surtout à une mise en scène destinée à limiter les poursuites quand quelque chose finira par mal tourner
On entend très rarement parler de rétro-ingénierie de modèles de cette manière