- Les IA de frontière automatisent désormais les problèmes faciles et intermédiaires des CTF (Capture The Flag) publics en ligne, au point que le classement ne reflète plus proprement le niveau humain en sécurité
- Le problème n’est pas l’assistance IA en soi, mais le fait que les modèles sont arrivés à un niveau où ils prennent en charge le raisonnement et l’écriture du code de résolution, ne laissant à l’humain qu’à copier le flag
- Depuis Claude Opus 4.5 et Claude Code, il est facile de lancer un agent par défi via l’API CTFd pour traiter les premiers problèmes, ce qui permet aux humains de se concentrer sur les plus difficiles
- GPT-5.5 Pro peut résoudre en one-shot jusqu’à des défis HackTheBox de niveau Insane en active leakless heap pwn, donnant un avantage à ceux qui peuvent assumer le coût en tokens et en agents
- Le classement public mesure désormais aussi l’orchestration de l’IA et la capacité à payer, ce qui affaiblit l’échelle de progression des CTF où les débutants montaient vers les meilleures équipes à force de progresser
Le classement des CTF publics en ligne a changé
- Les IA de frontière ont cassé le format des CTF publics, et le classement ne mesure donc plus clairement le niveau humain en sécurité
- Le point central n’est pas que l’IA donne des indices, mais qu’elle effectue le raisonnement et écrit le code de résolution, ne laissant à l’humain qu’à copier le flag
- Autrefois, un CTF n’était pas seulement un ensemble d’énigmes, mais une échelle de progression permettant aux débutants de monter en compétence puis d’accéder à de meilleures équipes et compétitions
- Les performances dans les CTF publics en ligne reflètent désormais non seulement le niveau en sécurité, mais aussi la volonté d’utiliser des modèles de frontière, la qualité de l’automatisation et la capacité à injecter suffisamment de tokens
- Le format actuel des CTF publics en ligne a du mal à conserver son rôle d’autrefois, et il est difficile de faire comme s’il n’avait pas subi de changement fondamental
D’où vient ce basculement
-
Expérience CTF et point de départ de la réflexion
- L’auteur a commencé les CTF à son entrée à l’université en 2021, et a remporté son premier concours, le CTF solo de 48 heures HCKSYD, en résolvant tout en 2 heures
- Ensuite, avec Blitzkrieg, il a remporté à plusieurs reprises DownUnderCTF, le plus grand CTF d’Australie, avant de rejoindre plus tard TheHackersCrew, une équipe internationale de tout premier plan
- TheHackersCrew a conservé un rang élevé sur CTFTime et figurait régulièrement dans le top 10 mondial des grands CTF jusqu’à fin 2025
- Les CTF ont été le point d’entrée qui lui a fait aimer la sécurité, une méthode d’apprentissage, un moyen de se situer, et une voie pour rencontrer de nombreuses personnes qu’il respecte
-
Premier changement après GPT-4
- Après l’arrivée de GPT-4, une grande partie des défis CTF de difficulté intermédiaire sont devenus des cibles de one-shot, où un simple prompt suffisait pour obtenir la résolution et le flag
- Il devenait possible de coller un problème de cryptographie dans ChatGPT et de revenir dix minutes plus tard avec la réponse
- À l’époque, les problèmes difficiles semblaient en général moins touchés, et le temps économisé n’était pas encore considéré comme suffisamment important pour ruiner une compétition
- Les joueurs de CTF ont toujours utilisé des outils ; la question n’était donc pas l’assistance IA en elle-même, mais de savoir si l’on avait atteint un niveau où le travail humain significatif disparaissait
Le changement de format provoqué par Claude Opus 4.5
- Avec Claude Opus 4.5, presque tous les problèmes de difficulté intermédiaire et une partie des difficiles sont devenus solvables par agents
- Claude Code relie tout en CLI et facilite la connexion à d’autres outils CLI et MCP, ce qui simplifie la mise en place d’un orchestrateur lançant une instance Claude pour chaque défi via l’API CTFd
- Il est devenu possible, pendant la première heure d’un concours, de laisser le système traiter les problèmes faciles et intermédiaires, tandis que les humains se concentrent uniquement sur ceux qui restent
- Les équipes qui n’utilisent pas d’IA ne renoncent pas seulement à un confort : elles jouent en réalité une version plus lente de la compétition
- Les CTF publics en ligne se transforment en jeu consistant à automatiser le plus vite possible les défis faciles et intermédiaires, puis à réserver le maximum d’attention humaine aux plus difficiles
- Le classement commence à mesurer, en plus du niveau en sécurité — et parfois davantage — la capacité d’orchestration et la volonté d’utiliser des modèles de frontière
- Le leaderboard CTFTime est devenu étrange : des équipes légendaires autrefois régulièrement en haut apparaissent moins, et l’activité des joueurs semble aussi avoir baissé
- Si des auteurs passent des semaines à créer des défis raffinés que des agents résolvent en quelques minutes, la motivation à traiter les CTF comme une forme d’art diminue aussi
Le basculement décisif après GPT-5.5
- GPT-5.5 et GPT-5.5 Pro semblent, d’après les benchmarks, proches de Claude Mythos, voire susceptibles de le dépasser pour la version Pro
- Ces modèles peuvent résoudre en one-shot des défis HackTheBox de type active leakless heap pwn au niveau Insane
- Ils peuvent traiter une large part des problèmes qu’un petit organisateur de CTF peut raisonnablement créer, et orchestrer Pro sur des défis Insane dans un CTF de 48 heures donne une chance d’obtenir le flag avant la fin
- Les CTF publics prennent donc une dimension pay-to-win
- Plus on injecte de tokens dans un concours, plus on peut faire descendre rapidement le classement
- Des modèles cybersécurité spécialisés comme alias1 d’Alias Robotics deviennent relativement moins importants face aux LLM généralistes de frontière
- La compétition se déplace vers la question de savoir qui peut financer suffisamment d’agents, avec assez de contexte et assez de temps
- Les performances en CTF ne définissent plus la compétence individuelle comme auparavant, et leur valeur pour recruter des profils sécurité s’affaiblit aussi
- La majeure partie de l’orchestration nécessaire en CTF est déjà open source ou peut être produite via du vibe coding ; ce n’est donc pas non plus un bon indicateur des compétences en IA
La dégradation du parcours d’apprentissage des débutants
-
Le classement était une échelle d’apprentissage
- Les CTF formaient une échelle où les débutants résolvaient davantage de problèmes, obtenaient de meilleurs classements, rejoignaient de meilleures équipes et devenaient plus compétitifs
- Si les classements publics sont dominés par des équipes utilisant l’IA, les débutants se font dépasser par cet usage avant même d’avoir acquis les intuitions que l’IA remplace
- C’est un anti-pattern qui freine l’apprentissage actif, alors que ce qui enseigne réellement vient de l’effort concret et de la confrontation directe aux problèmes
- Même avec de vrais efforts, si le haut de l’échelle est automatisé au point que la progression visible disparaît, la motivation chute fortement
-
Différence entre CTF pour débutants et plateformes d’apprentissage
- Si même les CTF pour débutants deviennent des espaces où l’on colle discrètement des prompts pour grimper au classement, il devient plus pertinent pour les auteurs de se concentrer sur des plateformes d’apprentissage
- Sur des plateformes comme picoGym et HackTheBox, l’attente première est pédagogique, et les débutants ont moins d’incitation à tricher contre leur propre apprentissage qu’avec un classement public
- Pour les débutants, il vaut mieux apprendre sur picoGym, HackTheBox et d’autres environnements de labos que dans une compétition publique qui prétend encore refléter une progression humaine
Les limites de l’argument « les CTF ne sont pas morts »
- Dire que l’IA ne peut pas résoudre tous les problèmes et que des CTF comme DEF CON existent encore est partiellement vrai, mais ne constitue pas une défense centrale
- Les problèmes les plus difficiles des finales de très haut niveau concernent très peu de participants, et l’accès passe généralement par des qualifications plus faciles que les finales elles-mêmes
- Si les qualifications s’effondrent sous les agents, alors le nombre de personnes réellement qualifiées pour atteindre les problèmes encore résistants à l’IA diminue
- Quelques finales d’élite ne suffisent pas à sauver le format public en ligne que la majorité des gens joue réellement
- Le point n’est pas que tous les problèmes sont résolus, mais qu’une part suffisamment grande du classement est automatisée pour que celui-ci ait perdu son sens d’avant
La recherche en sécurité et les CTF compétitifs sont deux choses différentes
- Les CTF peuvent montrer des techniques nouvelles et intéressantes, mais ils n’ont jamais été en eux-mêmes le lieu de découverte de la recherche en sécurité
- Le fait que l’IA soit utile en sécurité n’implique pas qu’elle doive entrer sans limite dans la dynamique compétitive de ce domaine
- Dans les CTF, une IA sans restriction retire presque complètement l’humain de la résolution d’énigmes et réduit l’aspect artistique de la sécurité à des prompts
- Les LLM continueront à faire progresser les capacités en sécurité tant que les CTF existeront, mais cela ne veut pas dire que le format compétitif reste sain
- Les CTF servaient à partager des techniques et à repousser les limites des compétences humaines en sécurité, mais cet objectif est en train de se dénuder
Le problème de l’analogie avec les moteurs d’échecs
- Aux échecs, l’informatique domine depuis longtemps, mais les moteurs d’échecs ne peuvent pas être utilisés pendant les parties en compétition
- Les moteurs servent à l’analyse, à l’entraînement, au commentaire et à la pratique, enrichissant le jeu autour de la compétition sans remplacer les concurrents
- Si l’on donnait à tous les joueurs le meilleur moteur possible en autorisant son usage libre en partie, on pourrait se demander si ce serait équitable, intéressant à regarder, justifiable pour les prix, ou encore utile pour repousser les limites humaines
- Les mêmes questions s’appliquent aux CTF
Pourquoi les organisateurs ont du mal à réagir
- Les organisateurs de CTF ont tenté diverses techniques pour casser ou freiner les résolutions par LLM, mais la plupart ne créent qu’une friction temporaire
- Claude Code n’est pas réellement perturbé par les vieilles astuces de chaînes de rejet
- Les modèles de frontière deviennent meilleurs pour détecter les injections de prompt
- Les fonctions de recherche web affaiblissent les défenses des problèmes fondés sur des techniques apparues après la date limite d’entraînement
- Les règles interdisant l’usage des LLM sont faciles à ignorer dans des événements publics en ligne et quasiment impossibles à faire respecter
- Si l’on crée des problèmes classiques, les agents en résolvent trop ; si l’on crée des problèmes hostiles aux agents, ils deviennent souvent aussi spéculatifs, surconçus ou désagréables pour les humains
- Ces réponses ne constituent pas de vraies solutions : elles rendent surtout les CTF pires pour tout le monde
Les angles morts du « il suffit de s’adapter »
- Si s’adapter signifie fabriquer de meilleurs outils, les joueurs de CTF le font déjà depuis longtemps
- Si cela signifie écrire des problèmes plus difficiles, les organisateurs l’ont déjà tenté eux aussi
- Si cela signifie accepter que le classement devienne un benchmark d’orchestration IA, alors il faut le dire franchement au lieu de prétendre que l’ancienne compétition existe encore
- Même si l’on crée aujourd’hui des problèmes spéculatifs ou surconçus que les LLM ne savent pas encore résoudre, il n’existe pas de bon parcours permettant aux joueurs d’apprendre les compétences nécessaires tout en restant compétitifs
- Et après encore quelques générations de modèles, même ce point pourrait perdre toute pertinence, tant les progrès des LLM en sécurité avancent plus vite que la conception de problèmes ne peut durablement garder de l’avance
Les conséquences sur la scène CTF actuelle
- Le leaderboard CTFTime ne reflète presque plus ni l’histoire ni la compétence humaine, et le classement 2026 est devenu difficilement comparable aux années précédentes
- De nombreuses équipes importantes et réputées, dont TheHackersCrew, ne jouent plus du tout, ou avec beaucoup moins de monde, ou peinent à entrer dans le top 10
- La triche non régulée a fortement augmenté, et certains bons CTF comme Plaid CTF ne sont plus organisés
- De nombreux membres de l’équipe locale Emu Exploit partagent ce ressenti ; ce sont des personnes qui participent régulièrement à l’International Cybersecurity Championship, obtiennent de très bons résultats en bug bounty, concourent à Pwn2Own et interviennent dans des conférences comme Black Hat
- Ceux qui perdent l’intérêt ne sont pas des spectateurs extérieurs, mais précisément le type de personnes que la scène CTF savait autrefois attirer et retenir
- La perte ne concerne pas seulement le classement, mais aussi l’échelle qui menait de la curiosité des débutants à la compétition d’élite, l’artisanat de la conception des problèmes, et cette intuition humaine née d’une compréhension profonde de choses difficiles
- Dans son état actuel, le CTF public en ligne a du mal à prolonger cet héritage, et nier le caractère fondamental du changement rend plus difficile encore de parler honnêtement de ce qui a été perdu
Ce qu’il faut préserver pour la suite
- Beaucoup de choses autour des CTF et de l’IA se commercialisent et échappent au contrôle, mais les CTF ont eu un impact très positif sur l’industrie
- Grâce aux CTF, l’auteur a rencontré de nombreuses personnes gentilles, brillantes et passionnées, et a découvert de beaux problèmes ainsi que des résolutions inattendues et fascinantes
- La communauté CTF a été un excellent espace pour apprendre, progresser et créer des liens, et cet aspect ne doit pas être perdu quelle que soit l’évolution de la compétition
- La communauté doit rester soudée, préserver cette passion et créer de nouvelles voies pour continuer à apprendre
- Des événements sociaux liés à la sécurité comme SecTalks, les conférences étudiantes ou les meetups locaux sont de bons moyens de maintenir le lien et la participation
- Les plateformes d’apprentissage qui offrent une communauté, par exemple via Discord, restent aussi des ressources précieuses
- Même s’il est difficile de trouver un équivalent à ce qui existait auparavant, la communauté construite autour des CTF devient encore plus importante aujourd’hui pour inventer de nouvelles façons de faire vivre l’esprit de compétition
1 commentaires
Commentaires sur Hacker News
J’en viens à me demander s’il faut supplier les gens de développer une fois les sigles quand ils les utilisent pour la première fois. Même si 90 % des lecteurs les connaissent déjà, les 10 % restants vous en seront reconnaissants, ça ne demande presque aucun effort, et cela élargit la portée du texte ou de l’idée.
L’exception, c’est quand le sigle lui-même est tellement connu que beaucoup de gens connaissent bien le concept sans savoir ce que l’expression complète signifie à l’origine. Je me souviens qu’en entendant un jour « Border Gateway Protocol » pendant une formation en entreprise, j’ai dû réfléchir un instant avant de me dire : « ah, ils parlent de BGP ? »
Plus généralement, tous les textes ne s’adressent pas à tous les lecteurs. Si vous écrivez un billet de blog sur les CTF pour des gens qui aiment les CTF, il n’y a pas besoin d’expliquer ce qu’est un CTF au public visé. Au fond, HN est un site d’agrégation de liens, mais parfois c’est un peu comme écouter la conversation de quelqu’un d’autre, sans avoir tout le contexte
Personnellement, je n’ai jamais entendu ce concept désigné par cet acronyme. Après, ce n’est presque jamais un sujet autour de moi, donc ça vaut ce que ça vaut
Si on remplace « CTF » par « lycée » ou « université », cela devient une description de l’effondrement lent de l’éducation. Le seul salut, c’est qu’on exige encore majoritairement une présence physique.
On dirait qu’on a trouvé le pipeline pour remplacer les humains, mais pas encore celui de l’éducation. Les LLM peuvent être d’excellents enseignants, mais il est presque impossible de résister à la tentation de leur dire « fais-le à ma place »
La solution simple consiste à retirer presque totalement l’informatique de l’éducation. Un composition book bleu, un crayon, et un tableau blanc forment les humains. Les calculatrices peuvent aider, mais peut-être qu’une règle à calcul serait encore mieux. Face aux informations recyclées produites par l’IA, il nous faut des humains capables de penser de manière critique à partir des premiers principes
On a vu un développeur avec trois ans d’expérience et un diplôme en logiciel incapable d’écrire un fizzbuzz sans IA
L’emballement autour de l’IA devient globalement fatigant. D’un côté, certains parlent comme si une nouvelle ère de l’humanité s’ouvrait et qu’on allait bientôt conquérir l’univers entier ; de l’autre, on nous dit que la société entière s’effondre.
Dans l’éducation en particulier, tout le monde semble lever les bras au ciel en disant qu’il n’y a rien à faire. La solution est simple : il suffit d’évaluer les étudiants en présentiel. C’est tout. Tout le reste de cet « effondrement de l’éducation » a d’autres causes que l’IA
Bien sûr, l’informatique à Brown University ne représente pas toute l’éducation, mais cela reste un point de vue intéressant.
[0] Episode webpage: https://share.transistor.fm/s/31855e83
Je suis d’accord avec la prémisse de cet article, mais il y a un point qui continue de me sauter aux yeux.
Il dit : « Le problème n’a jamais été que l’IA puisse aider », puis les trois phrases suivantes disent justement que le vrai problème est l’aide de l’IA.
« Les équipes qui n’utilisaient pas l’IA ne se privaient pas seulement de confort ; elles jouaient une version plus lente de la compétition. »
« Le CTF n’était pas juste un ensemble d’énigmes. C’était une échelle. »
« L’affirmation n’est pas que tous les défis ont été résolus. L’affirmation est… »
« Ce qui a été perdu, ce n’est pas seulement le tableau des scores. C’est l’échelle qui menait vers… »
Désolé, mais ça continue de me frapper. Je suis le seul ?
Je construisais récemment un outil d’obfuscation, et je faisais désobfusquer le code par le modèle puis l’optimiser pour le ramener vers sa forme d’origine, avant de continuer à améliorer l’outil d’obfuscation jusqu’à ce qu’il n’y parvienne plus. Le plus drôle, c’est qu’à la fin de ce processus, j’avais aussi créé un outil de désobfuscation et d’optimisation potentiellement plus puissant que la plupart des outils commerciaux.
La seule solution, c’est de rendre les CTF plus difficiles, mais à partir de quand un CTF devient-il trop difficile ? Peut-être qu’au fond, même les CTF « difficiles » restent trop « simples » dans leur structure, et finissent toujours par se réduire à des chaînes logiques et à une exploration exhaustive vers la solution. Les façons de cacher une solution sous les yeux des gens sont de toute façon limitées.
Ou alors la créativité humaine est déjà épuisée, et n’est pas aussi infinie que nous le pensions. Seul le temps le dira.
Une autre idée m’est venue : cacher deux flags, dont un que seuls des agents IA pourraient trouver, et que ni les humains ni les outils créés par des humains ne pourraient trouver
Tu as publié ça quelque part ? Voici un exemple de sortie de mon outil d’obfuscation JS : https://gist.github.com/Trung0246/c8f30f1b3bb6a9f57b0d9be94d...
Je comprends tout à fait le ressenti de cet article. Pour moi, l’IA a ruiné à la fois le fait de jouer aux CTF et celui de créer des défis CTF.
Le plus agaçant, c’est l’attitude « je ne sais pas trop, mais voilà le flag ».
Avant, quand je faisais des CTF avec des amis, on pouvait rester bloqués des heures sur un défi, puis un autre ami nous rejoignait, on regardait ça ensemble et on le résolvait en 30 minutes ; c’était l’une des expériences d’apprentissage les plus gratifiantes. Aujourd’hui, un ami arrive, balance ça à clanker, et c’est résolu en 5 minutes. Si on lui demande comment ça marchait, la réponse est toujours : « je n’ai aucune idée de ce qu’il a fait, mais qui s’en soucie ? Le flag est là. »
C’est pareil quand on crée des défis. Quand on demande un write-up ou si quelqu’un l’a résolu autrement, on obtient en général : « aucune idée, clanker l’a résolu », et tout le plaisir disparaît.
Donc oui, pour moi ce format de CTF est clairement mort. La raison principale, c’est son fort aspect compétitif et les prix à gagner. Cette structure poussait déjà les gens à résoudre les défis par des combines, et autrefois c’était acceptable parce qu’une résolution inattendue restait un moment de créativité. Mais aujourd’hui, à cause de l’IA, plus besoin de cerveau, plus besoin de combine, plus besoin d’humain. Comme cela a été dit, c’est une structure pay-to-win.
À mon avis, les CTF ouverts 24/7 vont attirer davantage l’attention, parce que là le tableau des scores n’est pas important et il n’y a pas de prix
Remarque méta, mais cet article a d’abord été soumis sous son titre original, « The CTF scene is dead », et c’était très facile à comprendre. Puis il a été changé pour la première phrase du sous-titre, « Frontier AI has broken the open CTF format », et c’est devenu bien plus difficile à saisir. On dirait presque une garden-path sentence à la lecture.
Au début, j’ai cru que « Frontier » était le nom d’une entreprise et que CTF était un format de fichier. Si on ne connaît pas les compétitions Capture The Flag, ce changement n’aide pas. Et si on les connaît, je trouve même que c’est pire
La règle de base, c’est de définir tout sigle lors de sa première apparition
La même chose arrive dans d’autres formes de programmation compétitive. Les IA de pointe ont désormais une capacité de résolution de problèmes au niveau des meilleurs humains, et s’il n’est pas possible d’interdire facilement l’IA, la compétition sera dominée par des agents IA.
Je pensais que pour le code golf, cela prendrait plus de temps, faute de suffisamment de données d’entraînement. C’est un domaine plus niche. Pourtant, même là, l’IA commence à rivaliser avec les meilleurs humains. C’est triste, parce que le golf est mon type préféré d’énigmes de programmation.
C’est vraiment impressionnant de voir jusqu’où la capacité de résolution de problèmes de l’IA est allée
https://en.wikipedia.org/wiki/Capture_the_flag_(cybersecurit...
Il n’y a pas encore de mention de l’IA, mais cela changera probablement bientôt si l’IA continue à dominer de plus en plus les compétitions
Ce n’est pas propre aux CTF. Je crois fermement que dans les game jams comme Ludum Dare ou dans les hackathons, le rôle du programmeur est en pratique terminé
Il y a toujours eu des compétitions hors ligne dans le monde de la programmation compétitive, et elles deviennent encore plus importantes depuis l’IA. En fait, elles étaient déjà généralement plus équitables avant cela. Si les CTF veulent survivre, ils devront sans doute adopter cette stratégie.
On pourrait même aller plus loin et autoriser tout ce qui se trouve déjà dans l’ordinateur, mais rien au-delà. Par exemple, certaines compétitions de programmation autorisent une quantité illimitée de documentation papier. En CTF, il faudrait probablement bien plus que cela, donc des ressources électroniques seraient nécessaires