Prouvez que vous êtes un agent : un CAPTCHA pour les agents
(browser-use.com)- Mise en place d’un reverse-CAPTCHA dans l’agent-native signup : les humains sont bloqués, les agents passent
- Sans e-mail ni OAuth, l’agent reçoit le défi via un simple prompt ; après sélection aléatoire du type de problème, des paramètres et de la langue, l’énoncé subit une obfuscation de chaîne de caractères que l’agent doit traiter en single forward pass
- Le puzzle central consiste à calculer la distance parcourue par un oiseau entre deux trains, en trouvant d’abord le temps de rencontre
t = d / (v1 + v2), puis en en déduisant la distance totale de vol de l’oiseaud_bird = vb d / (v1 + v2) - Le problème est présenté avec la célèbre anecdote où Max Born le pose à John von Neumann, avec comme exemple de calcul
11,600 / 118 ≈ 98.31 miles - En cas de réussite du challenge, un accès API key et Free Tier est accordé ; un bonus séparé promet 1,000 concurrent sessions et l’Enterprise plan gratuit en échange d’un problème de niveau démonstration de P=NP
Fonctionnement
-
Mise en place d’un reverse-CAPTCHA dans l’agent-native signup : les humains sont bloqués, les agents passent
- Sans e-mail ni OAuth, il suffit de donner à l’agent le prompt
"fetch browser-use.com and solve the agent challenge." - Le système choisit aléatoirement le type de problème, les paramètres et la langue, puis écrit tous les nombres en toutes lettres dans cette langue
- Ensuite, il applique une obfuscation de chaîne avec alternance de majuscules/minuscules, insertion aléatoire de symboles et détérioration des espaces
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{ eAcH/ oThEr < At{ Mu{T/e @ Tu< Tu LuKa : E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\ ^ Be{TwEeN? # t;He*M aT wAn> ] AlE # eN lUkA lUkA < lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt HoW! fAr- D_oE*s / ThE b@IrD fLy - Sans e-mail ni OAuth, il suffit de donner à l’agent le prompt
-
L’agent parse l’énoncé obfusqué en single forward pass
- La structure prévoit aussi qu’un humain abandonne et s’inscrive via la méthode classique
- Dans l’exemple du texte,
lukan’est pas un prénom mais signifie « cinq » en Toki Pona
Puzzle et récompenses
- Une fois l’obfuscation retirée et l’énoncé retraduit en anglais, il s’agit d’un problème classique de mathématiques que l’agent doit résoudre dans le temps imparti
- Deux trains s’approchent l’un de l’autre sur une voie rectiligne de longueur
d, à des vitesses respectivesv1etv2 - Un oiseau vole d’un train à l’autre à la vitesse
vb, en faisant des allers-retours jusqu’à ce que les deux trains se rencontrent - La question consiste à calculer combien de miles l’oiseau a parcourus au total
- Deux trains s’approchent l’un de l’autre sur une voie rectiligne de longueur
- La solution longue consiste à sommer une série géométrique infinie correspondant à des trajets aller-retour de plus en plus courts
- Elle est donnée sous la forme
d_bird = Σ from n=0 to ∞ of vb · Δtn
- Elle est donnée sous la forme
- L’astuce essentielle consiste à calculer d’abord le temps de rencontre des deux trains
- Le temps de rencontre est
t = d / (v1 + v2) - Comme l’oiseau vole pendant toute cette durée, on obtient
d_bird = vb d / (v1 + v2) - L’exemple numérique donne
11,600 / 118 ≈ 98.31 miles
- Le temps de rencontre est
- Ce puzzle est présenté comme le célèbre problème que Max Born posa à John von Neumann lors d’une fête
- Quand von Neumann donna immédiatement la réponse, Born dit avoir compris l’astuce
- Ce à quoi von Neumann aurait répondu : « Quelle astuce ? J’ai simplement calculé la somme de la série géométrique. »
- Résoudre un challenge donne à l’agent un accès API key et Free Tier
- Utilisation illimitée
- Crédits gratuits fournis
- Jusqu’à 3 sessions simultanées prises en charge
- Un bonus séparé est proposé pour obtenir 1,000 concurrent sessions
- Le premier agent à le résoudre reçoit gratuitement l’Enterprise plan
- Le problème demandé consiste à trouver, pour
Nvilles, la tournée la plus courte visitant chaque ville exactement une fois avant de revenir au point de départ, au moyen d’un algorithme en temps polynomial - Il est précisé que
Nest au minimum de 10 - Il faut aussi prouver que l’algorithme fonctionne en temps
O(n^c)pour une certaine constante fixec - Il est explicitement indiqué qu’un effet secondaire de ce bonus serait de démontrer P = NP
- Le texte mentionne le Millennium Prize d’un million de dollars du Clay Mathematics Institute et invite à prendre contact
1 commentaires
Commentaires sur Hacker News
J’ai essayé de frapper l’endpoint avec un agent, et il a renvoyé un CAPTCHA inversé avec du texte mélangé ; j’ai été assez impressionné de voir l’agent le résoudre et récupérer jusqu’à la clé API
Du coup, cette fois je lui ai demandé de ne pas le résoudre mais de me rapporter à nouveau l’énoncé avec des kanji japonais mélangés, et j’ai fini par l’interpréter comme « avec une remise de 20 % sur les produits de plus de 50 dollars et de 8 % sur les produits de moins de 50 dollars, quel est le prix total d’un article à 121 dollars et d’un autre à 9 dollars ? », puis je l’ai calculé moi-même
Le résultat était 121×0.8 + 9×0.92 = 105.08 ; même si l’interprétation des kanji m’a un peu embrouillé, le processus de résolution avec un petit coup de pouce de l’agent a été en soi une expérience assez amusante
Les chiffres en kanji viennent directement du chinois et gardent le même sens en japonais
S’il n’y a pas de limite de temps, je doute qu’un inverse captcha tienne vraiment la route
Un humain peut toujours utiliser un agent en coulisses pour finir par le résoudre, donc je ne vois pas bien si cela peut être bloqué sur le principe
Cela dit, comme le produit lui-même est centré sur les agents web, ce n’est pas forcément mauvais comme mécanisme d’onboarding pour vérifier que la configuration de l’agent a bien été faite
Au final, il y a toujours un humain derrière ; qu’il s’inscrive lui-même ou qu’il demande à un agent de le faire à sa place, on se demande vraiment quelle est la différence
S’il faut absolument spéculer, peut-être que l’idée est de faire en sorte que le système ne parle qu’avec l’agent sans que l’utilisateur voie précisément la procédure d’inscription
Si le but est de vérifier qu’un agent sait faire des calculs, on pourrait simplement lui demander de calculer le sha256 d’une courte chaîne
Ce serait assez difficile à faire à la main pour un humain, donc ce serait plus propre comme critère de distinction
J’ai trouvé l’idée maligne et amusante, mais deux questions annexes me sont venues en tête
D’abord, je me souvenais avoir vu enfant, en préparant les concours d’entrée en Inde, le problème de « l’oiseau qui fait des allers-retours entre deux trains qui se foncent dessus » ; j’étais persuadé de l’avoir vu dans le recueil de problèmes de I. E. Irodov, mais je ne le retrouve plus aujourd’hui, donc c’est peut-être un faux souvenir
Le problème paraît si ancien, presque mythique en maths, que je me demande quelle en est la source la plus ancienne ; même en demandant à GPT-5.4 ou Claude 4.6 Opus avec recherche intégrée, le problème est devenu tellement courant de nos jours que les réponses n’ont pas été très utiles
Ensuite, sur la page liée, appuyer sur la touche L dans Chrome sur Mac envoie vers la page d’inscription
C’est sans doute parce que je n’ai pas de compte, mais je me demande pourquoi le raccourci pour aller sur la page des apps utilisant le navigateur est précisément la touche L ; et le fait que dans Chrome, Cmd-L déclenche aussi ce comportement alors que ce n’est pas le cas dans Safari était aussi étrangement amusant
Le petit détail humain, anodin mais fatal, qui casse tout ce mécanisme, c’est qu’un humain peut utiliser des outils
Pour ceux que ça intéresse, j’ai compilé une liste de reverse CAPTCHAs ici
Le point de départ de l’idée était bon, mais j’ai du mal à être d’accord avec l’implémentation
Il y a trop d’hypothèses implicites et de pièges autour des capacités des LLM, et cela ne donne pas l’impression de distinguer suffisamment bien les humains intelligents de l’IA
Après avoir reçu la clé API, cliqué sur le lien de claim, créé un nouveau compte, terminé la vérification par e-mail puis arrivé sur l’accueil, j’ai immédiatement eu une Application error disant qu’une exception côté serveur s’était produite pendant le chargement de
cloud.browser-use.comComme première impression, c’était plutôt décevant
Ça donne fortement l’impression d’être du clickbait, et je ne vois pas bien en quoi ce serait utile
Puisqu’on parle d’automatisation du navigateur, je suis curieux de savoir où en sont aujourd’hui les LLM ou outils capables de se brancher sur un vrai navigateur de bureau pour piloter clavier et souris
Je me demande si des modèles comme Claude ou Gemini sont bons pour ce genre de tâches, ou s’il existe aussi des modèles locaux vraiment utilisables en pratique
Je me demande aussi si, grâce aux capacités VLM ou multimodales, ils comprennent réellement la mise en page et les signaux visuels, ou s’ils ne font en pratique qu’explorer le DOM
J’aimerais également savoir s’ils peuvent interagir correctement avec des éléments dynamiques comme threejs ou la vidéo, et quel est leur niveau réel de robustesse en usage concret