[2026/06/01 ~ 07] Sélection d’articles de recherche IA/ML à suivre cette semaine
(discuss.pytorch.kr)PyTorchKR🔥🇰🇷 🤔💭
À travers les 10 articles retenus cette semaine, on voit une convergence rapide autour de trois axes : la gestion d’état des agents fondés sur de grands modèles de langage (LLM), l’amélioration de l’efficacité du raisonnement, ainsi que la sûreté et la vérifiabilité en conditions réelles. Des évolutions structurelles pour maximiser l’efficacité des agents à la refonte fondamentale de l’architecture des transformers, jusqu’au renforcement de la robustesse pour s’adapter à des environnements dynamiques du monde réel, plusieurs tendances de recherche particulièrement intéressantes se dégagent.
:one: Innovation dans les workflows d’agents : externalisation de l’état et internalisation de la logique de raisonnement (Internalization) Dans les articles de cette semaine, deux approches à la fois opposées et complémentaires se sont distinguées pour résoudre les coûts et les goulets d’étranglement de contexte qui apparaissent lorsque des agents exécutent des tâches complexes et longues. Harness-1 et AdaCoM augmentent la stabilité des tâches de longue haleine en déchargeant vers l’environnement externe ou vers un modèle de gestion séparé une partie du fardeau lié à la mémoire d’état et à la gestion du contexte. À l’inverse, Latent Agents et les travaux sur l’internalisation des workflows agentiques (Subterranean Agents) proposent un post-entraînement qui compile directement dans les poids d’un modèle unique les processus complexes de communication entre orchestrateurs externes ou agents multiples. Le modèle peut ainsi débattre par lui-même ou effectuer un raisonnement procédural sans dépendre de prompts ni d’une coordination externe, tout en conservant des performances de niveau frontier model et en réduisant de façon spectaculaire les coûts d’inférence et l’usage des tokens.
:two: Refonte de l’architecture de base : fusion du mécanisme d’attention et optimisation des paramètres La recherche fondamentale visant à surmonter les inefficacités de calcul inhérentes aux transformers et à réduire leur empreinte mémoire constitue elle aussi une tendance forte. L’article SISA (Forget Attention) propose une « fusion au niveau du score » qui injecte directement dans le calcul des scores d’attention les signaux d’importance séquentielle issus des modèles d’espace d’état (SSM), afin d’obtenir à la fois une capacité de recherche globale et une priorisation séquentielle. Par ailleurs, l’étude sur les variantes QKV (Do Transformers Need Three Projections?) remet en cause le standard tenu pour acquis qui consiste à séparer requêtes, clés et valeurs, et montre empiriquement qu’un schéma de projection partagé entre clés et valeurs (Q-K=V) peut réduire fortement le cache KV tout en limitant au minimum la baisse de performance. Au-delà du simple gain de performance, ces améliorations structurelles au niveau architectural ouvrent largement la voie à des déploiements pratiques sur des appareils edge à mémoire limitée ou dans des environnements d’IA on-device.
:three: Adaptation en temps réel dans des environnements dynamiques et renforcement de la robustesse au niveau système Au-delà de la simple génération de bonnes réponses, plusieurs travaux retiennent l’attention par leur capacité à réagir activement à des situations changeantes et à des menaces, tout en faisant évoluer le système lui-même. MOSS étend l’auto-évolution, auparavant limitée à la modification de prompts, jusqu’à la réécriture du code source afin de permettre à un système d’agents de guérir lui-même ses défauts structurels. FuzzingBrain V2, de son côté, s’appuie sur des multi-agents pour détecter et corriger de véritables vulnérabilités logicielles de manière 100 % reproductible. AdvGame reformule l’alignement de sûreté des modèles de langage comme un jeu non coopératif en temps réel entre attaquant et défenseur, ce qui renforce les capacités de défense dynamiques, tandis que l’étude Plan, Watch, Recover présente un modèle d’assistant proactif capable d’intervenir en temps réel et de guider l’utilisateur lorsqu’il s’écarte d’une procédure définie. Cela montre que l’IA s’impose de plus en plus comme un système proactif et fiable, capable d’opérer hors du laboratoire contrôlé, au milieu des erreurs imprévisibles et des menaces de sécurité du monde réel.
Résumé des points clés par article
-
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses : un agent de recherche fondé sur l’apprentissage par renforcement, où le harnais prend en charge la mémoire au lieu de la politique. Il a atteint un curated recall moyen de 0.730 sur 8 benchmarks, avec notamment une forte capacité de transfert.
-
Forget Attention: Importance-Aware Attention Is All You Need : propose SISA, qui injecte directement dans les scores d’attention les signaux d’importance des modèles d’espace d’état (SSM). L’approche peut être implémentée avec un seul appel SDPA et améliore nettement les performances de recherche ainsi que la récupération des dépendances à longue distance.
-
Do Transformers Need Three Projections? Systematic Study of QKV Variants : une étude systématique sur le degré de partage possible dans les projections QKV. Q-K=V conserve presque les performances tout en réduisant fortement le cache KV, et les gains mémoire augmentent encore lorsqu’il est combiné à GQA/MQA.
-
Compiling Agentic Workflows into LLM Weights : traite d’une approche qui compile la procédure de travail elle-même dans les poids du modèle plutôt que de s’appuyer sur une orchestration externe. Elle réduit les appels répétés et la consommation de contexte long tout en atteignant une qualité proche du niveau frontier.
-
Learning Agent-Compatible Context Management for Long-Horizon Tasks : propose AdaCoM, où un LLM externe édite dynamiquement le contexte pour un agent figé. Sur les tâches de recherche web de longue durée et de recherche approfondie, il réduit les informations passées inutiles tout en préservant les contraintes de la tâche.
-
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate : une méthode de post-entraînement qui distille un débat multi-agents à l’intérieur d’un seul LLM. Elle atteint des performances équivalentes ou supérieures à un débat explicite avec jusqu’à 93 % de tokens en moins.
-
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems : un système d’agents qui réalise son auto-évolution au niveau du code source plutôt qu’au niveau du prompt. Il réécrit la structure du code à partir de preuves réelles d’échec et déploie les changements avec validation et possibilité de rollback.
-
Safety Alignment of LMs via Non-cooperative Games : redéfinit l’alignement de sûreté comme un jeu non coopératif où un LM attaquant et un LM défenseur s’adaptent mutuellement. L’apprentissage par renforcement fondé sur les préférences permet de repousser simultanément la frontière de Pareto entre sûreté et utilité.
-
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance : un système d’assistance multimodal proactive qui apprend quand intervenir et comment ramener l’utilisateur vers la procédure lorsqu’il s’en écarte. Il évalue les performances réelles de coaching de retour à la tâche via EgoProactive et Pro²Bench.
-
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction : un système de sécurité qui automatise la découverte et la reproduction de vulnérabilités grâce à des multi-agents LLM. En combinant validation basée sur OSS-Fuzz, localisation précise des vulnérabilités et fuzzing hiérarchique, il a obtenu un taux de détection élevé et découvert de véritables vulnérabilités.
Harness-1: apprentissage par renforcement pour des agents de recherche avec harnais d’externalisation d’état / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
Présentation de l’article
Les agents de recherche sont souvent entraînés comme des politiques opérant sur des transcriptions en croissance continue. Le modèle doit alors, en même temps, décider comment chercher, se souvenir de ce qu’il a déjà vu, de quelles preuves sont utiles, de quelles contraintes restent ouvertes et de quelles affirmations ont effectivement été vérifiées. Les auteurs estiment que cette configuration impose une charge trop importante de gestion d’état à l’intérieur même de la politique, et conduit l’apprentissage par renforcement à devoir optimiser simultanément des décisions de recherche pertinentes et une gestion des traces récupérable que l’environnement pourrait traiter de façon plus stable.
Pour résoudre ce problème, ils proposent Harness-1, un agent de recherche 20B entraîné par apprentissage par renforcement dans un harnais d’externalisation d’état (state-externalizing harness). Ce harnais gère la mémoire de travail du côté de l’environnement, notamment le pool de candidats, l’ensemble curé avec étiquettes d’importance, les liens de preuves compressés, l’historique de vérification, les observations compressées et dédupliquées, ainsi que le rendu du contexte tenant compte du budget.
En revanche, la politique prend en charge les décisions sémantiques, notamment quoi rechercher, quels documents conserver ou écarter, quoi vérifier et quand s’arrêter. Sur huit benchmarks de recherche couvrant le web, la finance, les brevets et le question answering multi-hop, Harness-1 a atteint un curated recall moyen de 0,730, soit 11,4 points de plus que le sous-agent de recherche open source le plus performant suivant. Les gains sont particulièrement marqués sur les benchmarks de transfert hors domaine d’apprentissage, ce qui suggère que l’apprentissage par renforcement sur un état de recherche explicite peut produire des comportements de recherche qui se généralisent mieux.
Résumé (Abstract)
Les agents de recherche sont souvent entraînés comme des politiques opérant sur des transcriptions qui s’allongent progressivement : le modèle doit décider quoi rechercher tout en se souvenant de ce qu’il a vu, quelles preuves sont utiles, quelles contraintes restent ouvertes et quelles affirmations ont réellement été vérifiées.
Nous soutenons que cette formulation place trop de gestion d’état routinière à l’intérieur de la politique. Autrement dit, l’apprentissage par renforcement (RL) se retrouve contraint d’optimiser à la fois les décisions sémantiques de recherche et une tenue de registres récupérable que l’environnement peut maintenir de façon plus fiable.
Nous présentons Harness-1, un agent de recherche 20B (sous-agent de retrieval) entraîné par apprentissage par renforcement dans un harness de recherche avec état. Ce harness maintient une mémoire de travail côté environnement, comprenant un pool de candidats, un ensemble sélectionné avec des tags d’importance, des liens de preuve compacts, des registres de vérification, des observations compressées et dédupliquées, ainsi qu’un rendu de contexte tenant compte du budget. La politique conserve les décisions sémantiques : quoi rechercher, quels documents conserver ou éliminer, quoi vérifier et quand s’arrêter.
Sur huit benchmarks de recherche couvrant le web, la finance, les brevets et le QA multi-hop, Harness-1 atteint un curated recall moyen de 0,730, devance de +11,4 points le deuxième meilleur sous-agent de recherche open source et affiche des performances compétitives face à des moteurs de recherche fondés sur des frontier models bien plus grands. Les gains sont particulièrement nets sur des benchmarks de transfert inédits, ce qui suggère que l’apprentissage par renforcement sur un état de recherche explicite peut produire des comportements de recherche qui se généralisent au-delà des domaines d’entraînement. Code : https://github.com/pat-jj/harness-1
Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.
Lien vers l’article
https://arxiv.org/abs/2606.02373
Pour aller plus loin
https://github.com/pat-jj/harness-1
https://huggingface.co/pat-jj/harness-1
Oubliez l’attention : l’attention sensible à l’importance suffit / Forget Attention: Importance-Aware Attention Is All You Need
Présentation de l’article
Dans la modélisation du langage hybride qui combine les Transformers et les State Space Models (SSM), l’enjeu central est de savoir comment préserver à la fois la capacité d’explorer globalement l’information et celle de déterminer ce qui est important dans une séquence. Les Transformers classiques peuvent regarder partout, mais peinent à hiérarchiser les priorités, tandis que les SSM peuvent accumuler les signaux importants, mais ont plus de difficulté à référencer avec précision des informations passées. En ce sens, les deux approches sont complémentaires. Cependant, les méthodes hybrides existantes se contentaient le plus souvent de disposer ces deux mécanismes en parallèle au niveau des blocs ou des têtes, si bien qu’au moment même du calcul des scores d’attention, le signal d’importance issu du SSM n’était pas directement pris en compte. Partant de ce constat, les auteurs proposent SSM-Informed Softmax Attention (SISA), un nouveau mode de combinaison qui injecte le signal d’importance séquentiel fourni par le SSM non pas dans la sortie de l’attention, mais dans les scores eux-mêmes. L’idée clé consiste à ajouter, en plus du terme standard de produit scalaire représentant la similarité de contenu, un terme de produit scalaire dérivé d’un vecteur d’importance issu du SSM, afin d’étendre les relations entre tokens au-delà de la simple correspondance de contenu pour y intégrer aussi « ce qui est important maintenant ».
Un point particulièrement important de cette méthode est qu’elle peut être implémentée sans état récurrent supplémentaire ni custom kernel, simplement en construisant des query et key étendus et en effectuant un seul appel à Scaled Dot-Product Attention (SDPA). Autrement dit, SISA exploite bien, sur le plan mathématique, l’information séquentielle du SSM, mais elle est conçue, du point de vue de l’implémentation, pour s’intégrer naturellement au flux d’opérations standard d’un Transformer, tout en conservant la compatibilité avec les optimisations de la famille FlashAttention. De plus, le canal SSM calcule à partir de l’entrée des composantes de decay et de rotation pour construire le signal d’importance, et ce signal agit au niveau des scores d’attention, ce qui améliore directement les performances de retrieval. Les résultats expérimentaux montrent clairement l’effet de cette conception : dans une configuration de 152M de paramètres et 5B de tokens, SISA a atteint 17,3 % sur LAMBADA-greedy, surpassant le Transformer standard et Mamba-3, et sur NIAH (Needle-in-a-Haystack), il a atteint 100 % dès l’étape d’entraînement 1K, montrant une convergence de recherche très rapide.
Plus encore, même si SISA ne domine pas absolument tous les indicateurs à l’échelle 369M, il présente une réelle valeur pratique en conservant au minimum de solides performances de façon stable sur des tâches de récupération importantes, sans perdre la compatibilité avec l’exécution SDPA standard. Les auteurs montrent ainsi qu’au-delà des niveaux bloc et tête, un troisième axe de conception — la fusion au niveau des scores (score-level fusion) — constitue une alternative valable pour les modèles de langage hybrides. En fin de compte, la contribution de cet article ne consiste pas simplement à mélanger deux familles de modèles, mais à placer au cœur de la formation des scores d’attention le signal d’importance fourni par les SSM, afin d’intégrer dans une même opération la récupération globale et l’évaluation séquentielle des priorités. Cette approche peut être considérée comme un exemple important de la manière dont les architectures hybrides peuvent évoluer de façon plus sophistiquée dans les tâches de modélisation du langage où la restauration des dépendances de longue portée et le suivi des informations essentielles sont cruciaux.
Résumé (Abstract)
Combiner la capacité de récupération globale de l’attention avec le signal d’importance séquentiel des modèles d’espace d’état (SSM) reste un problème ouvert de la modélisation du langage hybride. Les transformeurs voient tout, mais ne savent pas établir de priorités ; les SSM savent ce qui compte, mais ne peuvent pas y revenir. Les hybrides existants, Jamba (niveau bloc) et Hymba (niveau tête), placent les deux mécanismes dans des compartiments séparés, si bien qu’aucun n’informe l’autre dans le calcul même de l’attention. Nous proposons SISA (SSM-Informed Softmax Attention), qui ajoute directement dans le score d’attention un terme d’importance dérivé du SSM et réalise l’opération complète via un unique appel SDPA sur des vecteurs requête/clé augmentés. Aucun état récurrent ni noyau personnalisé n’est nécessaire. À 152M / 5 milliards de tokens, SISA atteint 17,3 % sur LAMBADA-greedy (contre 13,9 pour Transformer et 15,5 pour Mamba-3), et obtient 100 % sur NIAH dès l’étape 1K, avec une convergence en récupération 7 fois plus rapide que celle du Transformer. À 369M, Mamba-3 est devant sur LAMBADA, mais SISA conserve un NIAH parfait et l’exécution SDPA standard. SISA propose donc, au-delà des paradigmes dominants au niveau bloc et au niveau tête, un troisième axe de conception pour les hybrides SSM-attention : la fusion au niveau des scores (score-level fusion).
Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.
Lien vers l’article
https://arxiv.org/abs/2606.02332
Les transformeurs ont-ils besoin de trois projections ? Étude systématique des variantes QKV / Do Transformers Need Three Projections? Systematic Study of QKV Variants
Présentation de l’article
Le composant central qui soutient les performances des transformeurs (Transformer) est l’attention QKV (query-key-value), composée de requêtes (query), clés (key) et valeurs (value). Pourtant, la question de savoir dans quelle mesure chaque projection doit réellement rester indépendante n’a pas fait l’objet d’un examen suffisamment systématique. Cette étude s’attaque précisément à ce manque en analysant en détail, autour de trois contraintes de partage de projection — Q-K=V, Q=K-V et Q=K=V — l’impact du weight tying à l’intérieur de l’attention sur la capacité de représentation et l’efficacité en inférence. Elle accorde une attention particulière au fait que les deux dernières variantes tendent à rendre les cartes d’attention symétriques, et examine aussi une conception introduisant un encodage positionnel bidimensionnel (two-dimensional positional encoding) pour compenser cette perte de directionnalité, élargissant ainsi la discussion au-delà d’une simple réduction de paramètres vers une transformation de la structure même de l’espace de représentation. Cette approche est importante car elle ne se limite pas à demander si le partage des projections entraîne une baisse de performance, mais explique séparément dans quelles conditions la qualité est préservée et dans quelles autres la directionnalité et la sélectivité de l’attention sont dégradées.
Les expériences couvrent différents domaines — tâches synthétiques, vision et modélisation du langage — afin de vérifier que les effets du partage des projections ne sont pas limités à un domaine de données particulier. Dans les tâches synthétiques, les auteurs utilisent des problèmes de manipulation comme l’inversion d’ordre, le tri, la permutation, l’échange et la copie pour évaluer la capacité du modèle à apprendre des relations structurelles. Dans les expériences en vision, ils évaluent la généralisation dans des environnements où l’information de position spatiale est importante à l’aide de MNIST, CIFAR, TinyImageNet et de la détection d’anomalies (anomaly detection). En modélisation du langage, des modèles de 300M et 1,2B de paramètres sont entraînés sur 10 milliards de tokens afin de vérifier si les mêmes tendances se maintiennent à grande échelle. Les résultats montrent que l’approche Q-K=V offre des performances globalement équivalentes, voire parfois supérieures, à celles du transformeur QKV de base ; en modélisation du langage, elle réduit en outre le cache key-value (KV) de 50 %, pour une dégradation de la perplexité limitée à 3,1 %.
Plus important encore, cet effet d’économie se combine de manière complémentaire avec la grouped query attention (GQA) et la multi-query attention (MQA). Utilisé avec GQA-4, Q-K=V permet de réduire le cache KV jusqu’à 87,5 %, et jusqu’à 96,9 % en combinaison avec MQA, ce qui procure un avantage concret pour l’inférence on-device. À partir de ces résultats, les auteurs avancent que les clés et les valeurs peuvent en pratique partager un espace de représentation similaire, et que, l’attention fonctionnant sur une structure low-rank, une séparation complète de QKV n’est pas nécessairement indispensable. À l’inverse, Q=K-V lie trop fortement requêtes et clés, ce qui affaiblit la directionnalité de l’attention et se révèle donc moins favorable en termes de performance et de stabilité.
En somme, cette étude invite à considérer la structure QKV des transformeurs non comme un standard intangible, mais comme un espace de conception qui mérite d’être réexaminé, et elle fournit des critères empiriques sur ce qui doit être partagé ou séparé entre les projections. En particulier, comme elle permet de réduire fortement l’usage mémoire tout en préservant presque entièrement les performances, ces résultats constituent un guide de conception important pour un déploiement efficace dans des environnements contraints tels que les edge devices.
Résumé (Abstract)
Les transformers sont devenus la solution standard pour diverses tâches d’IA, avec la formulation d’attention query, key et value (QKV) au cœur de cette approche. Cependant, la contribution individuelle de ces trois projections et l’impact de l’omission de certaines d’entre elles restent encore mal compris. Nous avons évalué de manière systématique trois contraintes de partage de projection : a) Q-K=V (partage key-value), b) Q=K-V (partage query-key) et c) Q=K=V (projection unique). Les deux dernières variantes produisant des cartes d’attention symétriques, nous avons également exploré une attention asymétrique via des encodages positionnels 2D pour y remédier. À travers des expériences couvrant des tâches synthétiques, la vision (MNIST, CIFAR, TinyImageNet, détection d’anomalies) et la modélisation du langage (modèles de 300M et 1,2B de paramètres sur 10B de tokens), nous avons constaté que nos transformers obtiennent des performances comparables, voire parfois supérieures, à celles du transformer QKV. En modélisation du langage, le partage de projection Q-K=V réduit le cache KV de 50 % avec seulement 3,1 % de dégradation de perplexité. Fait crucial, le partage de projection est complémentaire du partage de têtes (GQA/MQA). La combinaison de Q-K=V avec GQA-4 permet de réduire le cache de 87,5 %, tandis que Q-K=V combiné à MQA atteint 96,9 %, rendant possible une inférence on-device pratique. Nous montrons que Q-K=V préserve la qualité parce que les keys et les values peuvent occuper des espaces de représentation similaires et que l’attention opère dans un régime de bas rang, tandis que Q=K-V rompt la directionnalité de l’attention. Nos résultats caractérisent de manière systématique le partage de projection comme un cas de weight tying encore peu exploré dans l’attention, avec des bénéfices directs et quantifiables sur la mémoire d’inférence, particulièrement utiles pour les déploiements en edge. Le code est disponible sur https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections.
Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
Lien vers l’article
https://arxiv.org/abs/2606.04032
Pour aller plus loin
https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
Compiler des workflows agentiques dans les poids des LLM : une qualité proche de la frontière pour un coût 100 fois moindre / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost
Présentation de l’article
La récente prolifération des frameworks d’orchestration d’agents montre qu’il est devenu quasiment standard, pour des tâches complexes, de piloter de grands modèles de langage (Large Language Model, LLM) via un orchestrateur externe. Cet article soutient toutefois que, pour les tâches procédurales, cette architecture n’est pas nécessairement la meilleure. Le fait qu’un orchestrateur externe injecte à chaque tour des instructions et des décisions de routage offre certes des avantages en matière de contrôle et de débogage, mais cela consomme en permanence la context window, impose d’appeler un frontier model à chaque conversation et peut exposer la procédure elle-même à des prestataires tiers. Les auteurs proposent donc, au lieu de placer la procédure dans le prompt, de la compiler directement dans les poids d’un petit modèle fine-tuné, afin de créer au runtime un agent qui a internalisé la procédure sans orchestration séparée. Cette approche présente des avantages structurels : elle réduit fortement les coûts puisqu’il n’est plus nécessaire de réinjecter en continu la procédure depuis l’extérieur, elle n’occupe pas un long contexte et elle n’expose pas des workflows sensibles à des services externes. Les auteurs appellent ce type d’agent, dont la procédure agit de façon cachée à l’intérieur du modèle, un subterranean agent, et le distinguent clairement des conceptions classiques centrées sur l’orchestration.
La méthodologie centrale ne se limite pas à présenter une idée simple : elle consiste à tester, dans des environnements de travail réels, trois barrières perçues qui freinent l’adoption de cette approche par les développeurs. Premièrement, les auteurs examinent les inquiétudes liées aux performances : un petit modèle peut-il atteindre un niveau de qualité proche de celui des modèles frontier ? Deuxièmement, ils évaluent la question de l’internalisation des connaissances : est-il possible d’intégrer dans les poids des informations qui changent fréquemment, comme des connaissances spécifiques à un produit ? Troisièmement, ils vérifient si cette approche peut passer à l’échelle pour de grands workflows complexes, riches en branches conditionnelles et en hubs de décision. Pour cela, les chercheurs ont choisi trois domaines aux caractéristiques différentes — réservation de voyages, support Zoom et demandes d’indemnisation en assurance — afin de comparer l’efficacité de la compilation dans des conditions où la profondeur procédurale et le niveau de connaissances métier requis varient. La réservation de voyages teste la stabilité des transitions d’état et de la prise de décision par étapes à travers un flux procédural standard composé de 14 nœuds. Le support Zoom souligne que, même pour un workflow de taille similaire, il faut aussi des connaissances sur les politiques et les fonctionnalités propres à chaque produit. Les demandes d’indemnisation en assurance constituent un stress test plus réaliste, avec une structure plus complexe comportant 55 nœuds et 6 hubs de décision, où les branchements conditionnels et les calculs de politique doivent être gérés simultanément.
Les implications des résultats expérimentaux sont claires. Il est confirmé qu’un petit modèle intégrant la procédure dans ses poids peut réduire les coûts d’un multiple à deux chiffres tout en conservant une quality proche de la frontière, c’est-à-dire une qualité proche de celle des modèles frontier, ce qui invite à repenser le compromis traditionnel entre performance et efficacité. En particulier, comme le montre le cas des demandes d’indemnisation d’assurance, le modèle ne se contente pas de générer une réponse : il peut exécuter de manière cohérente un raisonnement procédural incluant la vérification, le branchement, le calcul de compensation et les instructions de versement. Ces résultats suggèrent que, pour des tâches répétables et à la structure relativement stable, une approche compilée où la procédure elle-même est apprise peut être plus adaptée qu’une orchestration passant à chaque fois par des ajustements externes. En même temps, cette approche laisse subsister des limites, notamment le fait qu’un changement de procédure puisse nécessiter un réentraînement, et qu’elle puisse être moins avantageuse qu’une approche fondée sur les prompts en matière de correction immédiate et d’interprétabilité. Mais la contribution de cette recherche est d’élargir l’éventail des choix de conception pour les agents. En fin de compte, cet article remet en cause l’idée reçue selon laquelle les workflows d’agents doivent toujours être assemblés de l’extérieur, et montre empiriquement que le fait de déplacer la procédure à l’intérieur du modèle peut constituer une alternative pleinement valable en conditions réelles.
Résumé (Abstract)
Les frameworks d’orchestration d’agents se sont rapidement diffusés, et le total des étoiles GitHub de LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands et LlamaIndex dépasse désormais 290 000. Ils suivent tous le même schéma : placer un orchestrateur externe au-dessus du LLM et injecter à chaque tour des instructions et des décisions de routage. Des travaux récents ont montré que, pour les tâches procédurales, cette architecture est surpassée par une approche consistant simplement à fournir la procédure dans le system prompt d’un modèle frontier [Dennis et al., 2026a]. Mais cela consomme la fenêtre de contexte, impose l’usage d’un modèle frontier pour chaque conversation et expose des procédures propriétaires à des prestataires tiers. Compiler la procédure dans les poids d’un petit modèle fine-tuné — en créant un agent souterrain (subterranean agent) — devrait permettre de résoudre l’ensemble de ces problèmes, et des travaux antérieurs (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) ont déjà montré l’efficacité de cette technique. Pourtant, l’adoption par les développeurs reste massivement orientée vers l’orchestration. Nous identifions trois barrières perçues et les traitons empiriquement dans trois domaines : la réservation de voyage (14 nœuds), le support Zoom (14 nœuds, avec des connaissances spécifiques au produit) et les demandes d’indemnisation d’assurance (55 nœuds, 6 hubs de décision).
Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).
Lien vers l’article
https://arxiv.org/abs/2605.22502
Pour aller plus loin
https://discuss.pytorch.kr/t/llm-subterranean-agent/10501
Apprendre une gestion de contexte compatible avec les agents pour les tâches de longue haleine / Learning Agent-Compatible Context Management for Long-Horizon Tasks
Présentation de l’article
Lorsque des agents fondés sur des grands modèles de langage (LLM) exécutent des tâches de longue haleine (long-horizon tasks), comme la recherche sur le web ou les enquêtes approfondies, où les étapes sont nombreuses et les jugements intermédiaires s’accumulent, l’un des principaux obstacles est que, à mesure que la conversation s’allonge, les indices pertinents et les informations passées inutiles se mélangent, ce qui fragilise le raisonnement. Les méthodes existantes de gestion du contexte apprennent souvent conjointement la politique interne de l’agent ou reposent sur des stratégies fixes comme le résumé. Or, ces approches sont difficiles à appliquer à des agents closed-source et reflètent mal la réalité selon laquelle chaque agent peut nécessiter un mode de gestion différent. Pour résoudre ce problème, l’Adaptive Context Management (AdaCoM) proposé adopte une approche où l’agent figé (frozen agent) est conservé tel quel, tandis qu’un autre LLM externe apprend à éditer dynamiquement le contexte. L’idée centrale n’est pas simplement de compresser une longue conversation, mais d’apprendre des actions de modification souples — suppression, réécriture et fusion au niveau des messages — de façon à préserver les contraintes et l’état d’avancement nécessaires à la tâche en cours, tout en éliminant le bruit ancien. Cette conception est importante en ce qu’elle redéfinit la gestion du contexte non comme un prétraitement statique, mais comme un problème d’apprentissage de politique visant à améliorer directement le taux de réussite de l’agent.
AdaCoM commence par un fine-tuning supervisé (supervised fine-tuning, SFT) destiné à familiariser le gestionnaire de contexte avec un format de sortie structuré, puis affine la politique via la Group Relative Policy Optimization (GRPO), en prenant la performance réelle sur la tâche comme récompense. Dans ce processus, le gestionnaire reçoit le contexte actuel transformé en prompt et choisit, du point de vue d’un processus de décision markovien (Markov decision process, MDP), quels messages conserver ou modifier à chaque étape. En outre, au lieu de ne considérer que la réponse finale correcte, les auteurs conçoivent aussi une récompense de processus (process reward) intégrant le dépassement de longueur de contexte, les appels d’outils répétitifs, les erreurs de format et les signaux intermédiaires de la tâche, afin d’apprendre également la qualité des éditions locales, cruciale dans les tâches de longue haleine. Grâce à cela, AdaCoM ne fonctionne pas comme un simple résumeur, mais comme une politique d’édition adaptative aidant l’agent à poursuivre son raisonnement de manière stable.
Sur le plan expérimental, des gains de performance ont été observés lorsqu’AdaCoM est appliqué à divers agents sur des benchmarks de recherche web et d’investigation approfondie. Il apparaît notamment que, plus un agent a déjà de bonnes performances de base avec une approche ReAct (Reasoning and Acting), plus il bénéficie d’une préservation du contexte à haute fidélité ; à l’inverse, des agents relativement plus faibles tirent davantage profit d’une compression plus agressive, qui les maintient dans une zone de raisonnement plus stable. Les auteurs interprètent cela comme un fidelity-reliability trade-off, montrant que la gestion du contexte doit varier selon le niveau de capacité de l’agent. Plus encore, dans les expériences de transfert, on observe que la stratégie d’AdaCoM se transfère mieux entre des agents présentant des caractéristiques de capacité similaires, ce qui suggère qu’un gestionnaire de contexte externe réutilisable peut être plus pratique qu’une règle universelle de résumé. En définitive, cette étude propose une avancée méthodologique importante en ne considérant pas l’échec dans les tâches de longue haleine comme relevant uniquement de la capacité de raisonnement de l’agent, mais en traitant la gestion du contexte qui soutient ce raisonnement comme un composant central pouvant être appris.
Résumé (Abstract)
Les agents LLM (grands modèles de langage) sont de plus en plus confrontés à des tâches de longue haleine comme la recherche web et la recherche approfondie, où, dans des applications réelles, l’accumulation de contexte peut provoquer une dégradation des performances sur les longs contextes ainsi que des échecs de raisonnement. Les travaux antérieurs ont atténué ce problème via une gestion du contexte reposant sur un contrôle côté agent ou sur des stratégies fixes comme la synthèse, mais ces méthodes exigent d’entraîner l’agent lui-même pour l’adaptation, ce qui les rend peu pratiques pour les agents closed source, tout en négligeant le fait que différents agents peuvent nécessiter des stratégies différentes.
Nous proposons Adaptive Context Management (AdaCoM), qui entraîne un LLM externe à gérer le contexte d’un agent figé grâce à des actions de modification flexibles et à un apprentissage par renforcement de bout en bout. Sur divers agents évalués sur des benchmarks de recherche web et de recherche approfondie, AdaCoM améliore fortement les performances en supprimant les contenus obsolètes tout en préservant les contraintes de la tâche et l’avancement. Les stratégies apprises révèlent un compromis fidélité-fiabilité (Fidelity-Reliability Trade-off) : les agents ayant de meilleures performances ReAct de base bénéficient d’une préservation du contexte à plus haute fidélité, tandis que les agents moins performants nécessitent une compression plus agressive pour rester dans une zone de raisonnement fiable. Les expériences de transfert montrent qu’AdaCoM se généralise le plus efficacement entre des agents de capacité similaire (mesurée par les performances ReAct de base), ce qui suggère une voie pratique vers des gestionnaires de contexte réutilisables pour les systèmes d’agents.
LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.
Lien vers l’article
https://arxiv.org/abs/2605.30785
Agents latents : une procédure de post-entraînement pour un débat multi-agents internalisé / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate
Présentation de l’article
Le débat multi-agents (Multi-Agent Debate), utilisé pour améliorer les performances de raisonnement des grands modèles de langage (Large Language Models, LLMs), est une méthode puissante, mais elle souffre d’un coût de calcul très élevé, car plusieurs agents doivent échanger de longs historiques de débat. Pour résoudre cette inefficacité, Latent Agents propose une procédure de post-entraînement qui distille à l’intérieur d’un seul modèle de langage le débat multi-agents auparavant mené à l’extérieur. L’idée centrale va au-delà d’une simple compression des résultats du débat : elle consiste à faire d’abord apprendre au modèle la structure même du débat, puis à l’amener à l’internaliser via l’apprentissage par renforcement (Reinforcement Learning, RL). Pour cela, les auteurs ont d’abord construit des données de débat composées de 3 agents et de 2 rounds, puis ont appliqué des balises structurelles aux historiques de débat sur des problèmes arithmétiques où un consensus final est atteint, afin de produire un format cohérent. Ensuite, lors de l’étape de Supervised Fine-Tuning (SFT), ils ont entraîné le modèle sur l’intégralité de la trace du débat afin qu’il reproduise la manière dont le débat se déroule et dont le consensus se forme.
L’étape d’apprentissage par renforcement qui suit ne se limite pas à imiter la forme ; elle correspond au processus d’internalisation effectif du débat. Ici, les auteurs utilisent Group Relative Policy Optimization (GRPO) pour comparer plusieurs sorties candidates, en y combinant une récompense de length clipping qui pousse à faire apparaître la bonne réponse plus tôt. En parallèle, ils affaiblissent progressivement la récompense de format qui aide à conserver des balises structurelles telles que <|Agent 1|>, <|Round 1|>, <|endofdebate|>, de façon à ce que le modèle parvienne à une conclusion à partir de ses seules représentations internes, sans plus dépendre de longs débats externes. Cette planification dynamique des récompenses et cette réduction de longueur jouent un rôle essentiel pour diminuer l’apparence computationnelle du débat tout en préservant les avantages de raisonnement issus des interactions entre agents. Les résultats expérimentaux montrent que le modèle proposé obtient des performances égales ou supérieures à celles d’un explicit multi-agent debate sur GSM8K, MMLU-Pro et Big-Bench Hard (BBH), tout en réduisant les tokens utilisés jusqu’à 93 %, ce qui améliore fortement l’efficacité du raisonnement. Dans certaines configurations en particulier, le SFT seul donnait déjà des résultats supérieurs aux méthodes de débat existantes, et l’ajout de RL renforçait à la fois la précision et la réduction du nombre de tokens, mettant clairement en évidence l’efficacité de cette procédure d’internalisation.
Une autre contribution importante de cette recherche réside dans l’analyse mécanistique de la manière dont le débat internalisé modifie l’espace de représentation du modèle. À travers des expériences d’activation steering, les auteurs montrent que des sous-espaces spécifiques aux agents (agent-specific subspaces) se forment à l’intérieur du modèle internalisé, et qu’il existe des directions interprétables correspondant à différents points de vue d’agents. Cela suggère que les avantages du débat multi-agents ne proviennent pas simplement d’une moyenne des textes de sortie, mais sont liés au processus par lequel différentes perspectives de raisonnement se séparent structurellement puis se combinent dans l’espace latent. Plus loin, une expérience consistant à internaliser un agent malveillant puis à le supprimer via un negative steering montre que, dans le modèle distillé, les comportements nuisibles peuvent être davantage localisés et plus faciles à contrôler. Au final, Latent Agents est significatif à la fois parce qu’il propose une manière de compresser le raisonnement multi-agents de façon rentable, et parce qu’il éclaire en même temps la structure et la contrôlabilité du raisonnement internalisé.
Résumé (Abstract)
Le débat multi-agent s’est révélé améliorer les performances de raisonnement des grands modèles de langage (LLM). Cependant, il est coûteux en calcul et nécessite de générer de longs historiques de conversation avant de répondre aux questions. Pour remédier à cette inefficacité, nous développons un cadre qui distille le débat multi-agent dans un seul LLM au moyen d’un pipeline de fine-tuning en deux étapes, combinant l’apprentissage de la structure du débat et l’internalisation via une planification dynamique des récompenses et un clipping de longueur. Sur plusieurs modèles et benchmarks, nos modèles internalisés égalent ou dépassent les performances du débat multi-agent explicite en utilisant jusqu’à 93 % de tokens en moins. Nous étudions ensuite les bases mécanistes de cette capacité via l’activation steering, et constatons que l’internalisation crée des sous-espaces spécifiques aux agents : des directions interprétables dans l’espace d’activation correspondant à différentes perspectives d’agent. Nous montrons également une application pratique. En injectant des agents malveillants dans le LLM via le débat internalisé, puis en appliquant un negative steering pour les supprimer, nous montrons que la distillation facilite la localisation et le contrôle des comportements nuisibles, tout en entraînant une baisse globale de performance plus faible que lorsque le steering est appliqué au modèle de base. Nos résultats offrent une nouvelle perspective pour comprendre les capacités multi-agents dans les modèles distillés et fournissent des lignes directrices pratiques pour contrôler les comportements de raisonnement internalisés. Le code est disponible à l’URL suivante : https://github.com/johnsk95/latent_agents
Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents
Lien vers l’article
https://arxiv.org/abs/2604.24881
Pour aller plus loin
https://github.com/johnsk95/latent_agents
MOSS : auto-évolution par réécriture au niveau du code source dans les systèmes d’agents autonomes / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems
Présentation de l’article
Les systèmes d’agents autonomes capables d’apprendre par eux-mêmes même après leur déploiement et de réduire les échecs répétés constituent depuis longtemps un objectif important. Pourtant, dans la pratique, la plupart des systèmes en restent à des réglages modifiables en texte et au niveau des prompts, sans traiter fondamentalement les défauts structurels. Pour dépasser cette limite, MOSS propose d’utiliser l’adaptation au niveau du code source (source-level adaptation) comme vecteur d’auto-évolution, avec une conception permettant de réécrire la structure d’exécution centrale même de l’agent. Les auteurs soulignent que les éléments qui déterminent le comportement réel — comme le routage, l’ordre des hooks, les invariants d’état ou le dispatch — résident dans le code, si bien que les échecs inaccessibles à une simple modification des fichiers de skill ou de la composition des prompts subsistent inévitablement. À l’inverse, le code source, parce qu’il est Turing-complete, constitue un sur-ensemble des artefacts textuels et fonctionne de manière déterministe sans dépendre de la capacité du modèle à suivre les instructions, est présenté comme un moyen d’adaptation bien plus général et stable.
La méthodologie de MOSS repose essentiellement sur l’utilisation comme point de départ de preuves d’échec en production (production-failure evidence) collectées automatiquement, puis sur l’exécution systématique d’un pipeline d’évolution en plusieurs étapes à partir de celles-ci. La modification du code elle-même est déléguée à un agent de codage externe en CLI (command-line interface), mais MOSS contrôle directement l’ordre des étapes et la décision finale, séparant ainsi la responsabilité de la génération et celle de la validation. Les versions candidates ainsi produites sont vérifiées dans des workers de test éphémères (ephemeral trial workers), qui rejouent (replay) les lots d’échecs, ce qui est significatif en ce que l’évaluation ne repose pas sur une simple analyse statique mais sur une validation fondée sur la reproduction des situations réelles d’échec. Seules les candidates qui passent cette validation sont promues via un in-place container swap soumis au consentement préalable de l’utilisateur, puis conçues pour être automatiquement rollback si elles ne satisfont plus les conditions de la health probe, garantissant ainsi aussi la sûreté opérationnelle.
Cette approche se distingue des agents auto-évolutifs existants qui, jusqu’ici, cherchaient surtout à s’améliorer dans des domaines exprimables en texte comme les prompts, les schémas mémoire ou les graphes de workflow, car elle prend pour cible d’évolution l’ensemble du système, y compris le harness d’exécution réel. MOSS doit donc être compris non pas simplement comme un modèle générant de meilleures réponses, mais comme une plateforme d’adaptation qui corrige directement les défauts structurels d’un système d’agents en production. En particulier, en combinant un pipeline déterministe avec des procédures de validation, de promotion et de rollback, il propose une voie d’auto-amélioration plus robuste que les approches centrées sur le texte, vulnérables au long-context drift. Cette conception montre clairement que, pour qu’un agent autonome évolue en toute sécurité dans un environnement de service réel, il faut non seulement des capacités d’apprentissage, mais aussi des mécanismes d’ingénierie système couvrant le déploiement, la validation et le rollback.
Expérimentalement, MOSS a fait passer sur OpenClaw le grader score moyen de quatre tâches de 0,25 à 0,61 en un seul cycle d’évolution, et ce sans intervention humaine. Ce résultat montre que l’approche par réécriture au niveau du code source n’est pas seulement théoriquement plus générale, mais qu’elle peut aussi se traduire par des gains de performance significatifs dans de véritables systèmes d’agents en production. En définitive, cet article élargit le champ des agents auto-évolutifs, de l’ajustement textuel à la reconfiguration au niveau du code, et ouvre une nouvelle possibilité pour que les systèmes autonomes corrigent eux-mêmes leurs échecs répétés.
Résumé (Abstract)
Après leur déploiement, les systèmes agentiques autonomes sont généralement statiques : ils n’apprennent pas des interactions avec les utilisateurs, et les échecs récurrents persistent jusqu’à ce que la prochaine mise à jour pilotée par des humains déploie un correctif. Des agents auto-évolutifs ont émergé en réponse, mais ils limitent eux aussi l’évolution aux artefacts modifiables sous forme de texte — fichiers de compétences, configurations de prompts, schémas de mémoire, graphes de workflow — tout en laissant intact le harnais de l’agent. Comme le routage, l’ordre des hooks, les invariants d’état et le dispatch résident dans le code plutôt que dans un artefact textuel, toute une catégorie d’échecs structurels est physiquement inaccessible depuis la couche texte. Nous soutenons que l’adaptation au niveau du code source constitue un médium fondamentalement plus général. Elle est Turing-complete, forme un sur-ensemble strict de tout ce qui est modifiable par le texte, produit ses effets de manière déterministe au lieu de dépendre de la conformité du modèle de base, et ne se dégrade pas sous l’effet de la dérive liée aux contextes longs. Nous présentons MOSS, un système qui réalise une auto-réécriture (self-rewriting) au niveau du code source sur des substrats agentiques de production. Chaque évolution s’ancre dans un lot de preuves d’échecs en production automatiquement constitué, puis suit un pipeline déterministe en plusieurs étapes. La modification du code est déléguée à un CLI externe d’agent de codage enfichable, tandis que MOSS conserve l’ordre des étapes et les verdicts. Les candidats sont vérifiés en rejouant le lot contre l’image candidate dans des workers de test éphémères, puis promus via un échange de conteneur sur place soumis au consentement de l’utilisateur, avec rollback conditionné par des sondes de santé. Sur OpenClaw, MOSS fait passer le score moyen de correction sur quatre tâches de 0,25 à 0,61 en un seul cycle sans intervention humaine.
Les systèmes agentiques autonomes sont largement statiques après leur déploiement : ils n’apprennent pas des interactions utilisateur, et les échecs récurrents persistent jusqu’à la prochaine mise à jour pilotée par des humains qui déploie un correctif. Des agents auto-évolutifs ont émergé en réponse, mais tous limitent l’évolution à des artefacts modifiables sous forme de texte — fichiers de compétences, configurations de prompts, schémas de mémoire, graphes de workflow — et laissent intact le harnais de l’agent. Étant donné que le routage, l’ordre des hooks, les invariants d’état et le dispatch vivent dans le code plutôt que dans un artefact textuel, toute une classe d’échecs structurels est physiquement inaccessible depuis la couche texte. Nous soutenons que l’adaptation au niveau du code source est un médium fondamentalement plus général : elle est Turing-complete, constitue un sur-ensemble strict de tout périmètre modifiable par le texte, prend effet de manière déterministe plutôt que par conformité du modèle de base, et ne s’érode pas sous l’effet de la dérive des contextes longs. Nous présentons MOSS, un système qui effectue une auto-réécriture au niveau du code source sur des substrats agentiques de production. Chaque évolution est ancrée dans un lot automatiquement constitué de preuves d’échecs en production et progresse à travers un pipeline déterministe en plusieurs étapes ; la modification du code est déléguée à un CLI externe d’agent de codage enfichable tandis que MOSS conserve l’ordre des étapes et les verdicts. Les candidats sont vérifiés en rejouant le lot contre l’image candidate dans des workers d’essai éphémères, puis promus via un échange de conteneur sur place soumis au consentement de l’utilisateur, avec rollback conditionné par des sondes de santé. Sur OpenClaw, MOSS fait passer le score moyen de correction sur quatre tâches de 0,25 à 0,61 en un seul cycle sans intervention humaine.
Lien vers l’article
https://arxiv.org/abs/2605.22794
Pour aller plus loin
https://github.com/dav-joy-thon/MOSS
Alignement de sécurité des modèles de langage via des jeux non coopératifs / Safety Alignment of LMs via Non-cooperative Games
Présentation de l’article
L’alignement de sécurité des modèles de langage (language models, LM) est devenu une question centrale de la recherche récente sur l’alignement de l’IA, dans la mesure où il doit garantir à la fois le maintien de l’utilité et la robustesse face à des entrées malveillantes. Alors que les approches existantes se limitaient principalement à générer des prompts offensifs puis à affiner séquentiellement le modèle pour qu’il s’en défende, cet article redéfinit l’alignement de sécurité comme un jeu à somme non nulle (non-zero-sum game) dans lequel un Attacker LM et un Defender LM s’adaptent en temps réel aux stratégies de l’autre. Les deux modèles apprennent conjointement via l’apprentissage par renforcement en ligne (online reinforcement learning, RL) : l’attaquant explore des stratégies de red-teaming plus sophistiquées, tandis que le défenseur évolue pour répondre plus solidement à ces attaques. Cette structure d’adaptation mutuelle se distingue nettement des approches antérieures, car il ne s’agit pas d’un apprentissage ponctuel sur un dataset statique, mais d’une extension continue de la frontière de performance elle-même à mesure que la compétition entre modèles se répète. En particulier, les auteurs conçoivent le signal de récompense non pas comme un score ponctuel (point-wise score), mais comme un signal fondé sur les préférences obtenu à partir de comparaisons par paires (pairwise comparison), afin de fournir une supervision plus stable et de réduire la vulnérabilité au reward hacking.
Au cœur de cette méthodologie se trouve une procédure d’apprentissage appelée AdvGame, dont l’objectif est de déplacer vers l’extérieur la frontière de Pareto (Pareto frontier) entre sécurité et utilité. Concrètement, comme l’attaquant et le défenseur sont mis à jour alternativement en reflétant chacun la politique la plus récente de l’autre, le défenseur s’entraîne effectivement face à des attaques réellement plus puissantes, et l’attaquant apprend une capacité générale de détection des vulnérabilités qui ne se limite pas aux faiblesses d’un modèle donné. Les développements mathématiques de l’annexe montrent le processus clé qui transforme ce problème d’optimisation de type jeu en une forme effectivement entraînable : la distribution optimale de la politique de l’attaquant est d’abord exprimée comme une repondération exponentielle par rapport à une politique de référence (reference policy), puis reformulée en comparant deux candidats afin d’éliminer la constante de normalisation. Dans ce processus, l’apprentissage de l’attaquant cesse d’être une régression sur des scores absolus pour devenir un problème d’ajustement d’un ordre de préférences relatif, ce qui conduit naturellement à une fonction objectif de la famille Direct Preference Optimization (DPO). Autrement dit, c’est l’ensemble de la trajectoire (trajectory) formée conjointement par le prompt généré par l’attaquant et la réponse du défenseur qui devient l’objet de comparaison, ce qui permet d’obtenir un signal d’apprentissage plus riche fondé sur les interactions réelles.
En outre, cet article relie la probabilité de préférence au modèle de Bradley-Terry et introduit le concept de préférence marginalisée (marginalized preference), qui agrège dans l’espace des logits (logit) les interactions entre l’attaquant et le défenseur. Cela permet de moyenner le bruit des réponses individuelles tout en apprenant une structure de préférence qui reflète non pas le prompt seul, mais l’effet combiné du prompt et de la réponse. En conséquence, comme la mise à jour de l’attaquant s’effectue sur une distribution dynamique continuellement révisée par la politique actuelle du défenseur, elle converge non vers des attaques spécialisées sur une cible fixe, mais vers des capacités de red-teaming généralisables à divers modèles. Comme le souligne le résumé, cette optimisation conjointe est significative en ce qu’elle fournit à la fois un Defender LM plus utile et plus résistant aux attaques, et un puissant Attacker LM généraliste exploitable dans des environnements de déploiement réels. En définitive, cette recherche propose une nouvelle orientation méthodologique capable d’améliorer simultanément la sécurité et l’utilité des modèles de langage en élargissant l’alignement de sécurité au-delà d’une simple technique défensive, vers un problème d’apprentissage exploitant de manière systématique la compétition et l’adaptation entre modèles.
Résumé (Abstract)
Garantir la sécurité des modèles de langage (LM) tout en préservant leur utilité reste un défi central de l’alignement de l’IA. Les approches actuelles reposent sur un entraînement adversarial séquentiel : générer des prompts adversariaux puis affiner les LM pour qu’ils s’en défendent. Nous proposons un paradigme différent : formaliser l’alignement de sécurité comme un jeu à somme non nulle entre un LM attaquant et un LM défenseur, entraînés conjointement via apprentissage par renforcement en ligne. Chaque LM s’adapte en continu aux stratégies changeantes de l’autre, ce qui entraîne une amélioration itérative. Notre méthode utilise un signal de récompense fondé sur les préférences, dérivé de comparaisons par paires, plutôt que des scores ponctuels (point-wise), offrant une supervision plus robuste et réduisant potentiellement le reward hacking. Notre recette RL, AdvGame, déplace la frontière de Pareto entre sécurité et utilité, produisant un LM défenseur à la fois plus utile et plus résilient face aux attaques adversariales. En outre, le LM attaquant obtenu converge vers un puissant agent de red teaming à usage général, pouvant être déployé directement pour sonder et évaluer n’importe quel modèle cible. Le code est disponible sur github.com/facebookresearch/advgame.
Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.
Lien vers l’article
https://arxiv.org/abs/2512.20806
Pour aller plus loin
https://github.com/facebookresearch/advgame
Planifier, observer, récupérer : un benchmark et des architectures pour une assistance procédurale proactive / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance
Présentation de l’article
Dans les tâches procédurales du monde réel, les utilisateurs ne suivent pas toujours exactement l’ordre prévu. Un système d’assistance doit donc aller au-delà de la simple prédiction de l’étape suivante et être capable de décider à la fois quand intervenir et comment guider l’utilisateur. À partir de ce constat, l’approche proposée se concentre sur une assistance procédurale proactive qui interprète la situation courante à partir de la vue à la première personne de l’utilisateur, de l’historique conversationnel et du contexte de la requête, tout en détectant en temps réel si l’utilisateur est entré dans un état hors plan (out-of-plan, OOP). Le point clé de cette étude est en particulier de traiter séparément la décision d’intervenir et le contenu de l’intervention, car le choix du bon moment et la génération du coaching répondent à des objectifs d’optimisation distincts. Lorsque l’utilisateur s’écarte de la procédure normale, il ne suffit pas d’attendre passivement : il faut fournir, au moment opportun, des consignes de retour courtes et précises. Pour cela, le système doit suivre à la fois l’état procédural et les indices visuels.
Pour soutenir ces objectifs, les auteurs ont d’abord construit EgoProactive, un vaste jeu de données wearable en vue à la première personne, qui fournit à la fois des annotations explicites d’écart au plan et des étapes de récupération (recovery steps). Ce dataset est particulièrement important, car il rend apprenables les détours et les erreurs qui surviennent dans des environnements réels, comblant ainsi les limites des ressources existantes qui supposaient une progression strictement linéaire des étapes. En outre, avec Pro²Bench, qui recompose cinq benchmarks existants — Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist et HowTo100M — dans un cadre unifié d’assistance proactive, les auteurs mettent en place un environnement d’évaluation permettant de comparer de façon cohérente, à travers différents domaines, la capacité à choisir le bon moment d’intervention et à produire un coaching de récupération. C’est important en ce que cela élargit la compréhension procédurale au-delà d’un simple problème de prédiction de l’étape suivante, pour en faire une question de mesure de la qualité réelle de l’interaction.
Du côté des modèles, les auteurs proposent une decoupled planner-interaction architecture qui sépare le module de planification du module d’interaction, afin d’optimiser le suivi de l’état procédural et la génération de réponses selon leurs rôles respectifs, plutôt que de les coupler de manière lâche. Ils y ajoutent une sélection de clips ancrée sur le plan (plan-anchored), conçue pour privilégier non pas un traitement indifférencié de l’ensemble de la vidéo, mais les segments visuels directement pertinents pour l’étape en cours et la décision de récupération. Cette approche réduit le bruit inutile dans les longues vidéos en vue subjective, tout en capturant plus clairement les signes d’écart au plan et les indices nécessaires au retour à la procédure. Autrement dit, cette architecture aligne sur le plan à la fois « quoi dire » et « quoi regarder ».
Il convient aussi de noter qu’au moyen d’une recette de post-training, cette méthode se révèle être non pas un traitement spécial adapté à un seul modèle, mais une procédure générale transférable à différents backbones. En pratique, les auteurs ont réalisé une reproduction cross-backbone sur Llama 4 et Qwen-3.6-VL afin de vérifier la portabilité de la méthode, ce qui suggère qu’elle pourra être facilement étendue à des modèles multimodaux encore plus puissants à l’avenir. Les résultats expérimentaux montrent que le système Llama-4 entraîné obtient une meilleure qualité d’intervention objective (objective intervention quality) que de solides baselines telles que Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2 et Qwen3 VL 235B sur l’ensemble de six jeux de données. En particulier, dans la condition avec plan oracle (oracle plan), les performances de guidage de récupération s’améliorent fortement lorsque la qualité du plan est contrôlée, ce qui confirme clairement la validité d’une structure séparant le suivi du plan et la génération d’intervention. Dans l’ensemble, cette étude est importante en ce qu’elle redéfinit l’assistant multimodal destiné aux utilisateurs exécutant des tâches procédurales non plus comme un système de prédiction d’étapes, mais comme un coach d’intervention en temps réel, tout en proposant des données, une architecture et une stratégie d’apprentissage plus proches des situations réelles.
Résumé (Abstract)
En respectant la structure et la terminologie du résumé à traduire, je vais d’abord traduire directement la première phrase en français, puis retravailler l’ensemble du résumé dans un style naturel et académique.
Nous envisageons un système d’assistant multimodal proactif capable de fournir aux utilisateurs un guidage étape par étape en temps réel dans le cadre de tâches procédurales, en décidant de manière autonome quand interrompre et comment coacher. Cependant, les progrès restent limités par l’absence de benchmarks à grande échelle et inter-domaines reflétant des conditions réalistes, en particulier les cas fréquents où les utilisateurs s’écartent de la séquence d’étapes attendue. Nous comblons cette lacune par quatre contributions : (1) nous publions EgoProactive, un jeu de données wearable-egocentric à grande échelle pour l’assistance procédurale proactive, intégrant explicitement des annotations Out-of-Plan (OOP) et des étapes de récupération ; (2) nous étendons cinq benchmarks de référence existants (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) en Pro^2Bench sous un schéma unifié de guidage proactif ; (3) nous proposons une architecture découplée planificateur--interaction, spécialisée dans l’état procédural, les indices visuels et l’injection de récupération ; (4) nous introduisons une recette de post-entraînement transférable à travers différentes familles de modèles, validée par réplication inter-backbones sur Llama 4 et Qwen-3.6-VL. Dans de vastes expérimentations, notre système Llama-4 entraîné améliore substantiellement la qualité objective des interventions par rapport à de solides références propriétaires (Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) ainsi qu’à des références open-weight (Qwen3 VL 235B) sur l’ensemble des six jeux de données. Des expériences avec plan oracle montrent en outre que, à qualité de plan contrôlée, le modèle duplex entraîné produit un guidage de haute qualité et obtient des gains importants pour la récupération Out-of-Plan (OOP).
We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery.
Lien vers l’article
https://arxiv.org/abs/2606.04970
Pour aller plus loin
https://huggingface.co/datasets/facebook/wearable-ai
FuzzingBrain V2: système LLM multi-agents pour la découverte et la reproduction automatisées de vulnérabilités / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction
Présentation de l’article
Alors que les menaces de sécurité dues aux vulnérabilités logicielles s’aggravent de jour en jour, environ 50 000 CVE (Common Vulnerabilities and Exposures) ont été signalées pour la seule année 2025. Les grands modèles de langage (LLM) ouvrent de nouvelles perspectives pour la détection automatisée de vulnérabilités, mais les approches actuelles fondées sur les LLM souffrent encore de problèmes fondamentaux. Plus précisément, les rapports de vulnérabilité générés par les LLM présentent des taux élevés de faux positifs tout en manquant de mécanismes de vérification reproductibles ; ils utilisent en outre des niveaux de granularité sous-optimaux, comme l’échelle de la fonction ou de la ligne, pour localiser précisément les vulnérabilités, et peinent à traiter efficacement des vulnérabilités impliquant des dépendances complexes entre fonctions et des conditions de déclenchement multi-couches. L’étude présente FuzzingBrain V2, un système LLM multi-agents conçu pour répondre systématiquement à ces défis, en s’appuyant sur le framework OSS-Fuzz de Google comme backend de validation afin de garantir une reproductibilité à 100 % pour toutes les vulnérabilités signalées. Le système introduit également un nouvel objet d’abstraction, le Suspicious Point, qui intègre les informations de flux de contrôle et permet une localisation précise des vulnérabilités à un niveau optimal entre la fonction et la ligne ; combiné à une analyse hiérarchique des fonctions fondée sur la logique et à une stratégie de fuzzing à deux niveaux, il améliore la couverture des fonctions sous contrainte de ressources. En outre, il renforce le raisonnement sur les vulnérabilités complexes grâce à des outils d’analyse statique et dynamique basés sur le Model Context Protocol, ainsi qu’à une ingénierie de contexte sophistiquée. Sur le jeu de données C/C++ de la finale d’AIxCC 2025, FuzzingBrain V2 a atteint un taux de détection de 90 % (36 vulnérabilités sur 40) ; en conditions réelles, il a découvert au total 41 vulnérabilités auparavant inconnues dans 12 projets open source, dont 26 ont été confirmées, 23 corrigées, et 2 ont reçu un identifiant CVE. Ces résultats démontrent clairement qu’une approche multi-agents combinant capacités d’analyse sémantique et détection fondée sur l’exécution peut aller bien au-delà d’une simple performance académique et améliorer directement la sécurité des logiciels en production.
Résumé (Abstract)
Les vulnérabilités logicielles représentent une menace critique pour la sécurité, avec près de 50 000 CVE signalées en 2025. Si les grands modèles de langage (LLM) montrent un fort potentiel pour la détection automatisée des vulnérabilités, trois défis majeurs subsistent. Premièrement, les rapports de vulnérabilité générés par les LLM souffrent d’un taux élevé de faux positifs et manquent de validation reproductible. Deuxièmement, les approches existantes fondées sur les LLM utilisent des granularités sous-optimales pour localiser les vulnérabilités : l’analyse au niveau des fonctions laisse passer des bugs lorsque le contexte devient trop vaste, tandis que l’analyse au niveau des lignes ne fournit pas assez de contexte. Troisièmement, les approches actuelles peinent à raisonner sur des vulnérabilités impliquant des dépendances complexes entre fonctions et des conditions de déclenchement. Nous présentons FuzzingBrain V2, un système multi-agents qui comble ces lacunes grâce à quatre contributions majeures : (1) une analyse de vulnérabilités entièrement automatisée, construite sur l’OSS-Fuzz de Google, garantissant que toutes les vulnérabilités signalées sont reproductibles par fuzzer ; (2) Suspicious Point, une nouvelle abstraction fondée sur le flux de contrôle pour une localisation précise des vulnérabilités à une granularité optimale ; (3) une analyse hiérarchique des fonctions pilotée par la logique, avec fuzzing à double couche, qui améliore la couverture des fonctions sous contraintes de ressources ; (4) des outils d’analyse statique et dynamique basés sur MCP, avec context engineering, renforçant le raisonnement sur les vulnérabilités complexes. Sur le jeu de données C/C++ de la finale AIxCC 2025, FuzzingBrain V2 a atteint un taux de détection de 90 % (36 vulnérabilités sur 40). En déploiement réel, FuzzingBrain V2 a découvert 29 vulnérabilités zero-day dans 12 projets open source ; toutes ont été confirmées et corrigées par les mainteneurs, et 2 se sont vu attribuer un identifiant CVE.
Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs.
Lien vers l’article
https://arxiv.org/abs/2605.21779
⚠️Publicité⚠️ : 🔥Vous avez trouvé utile cet article compilé par le groupe d’utilisateurs PyTorch Corée🇰🇷 ? En devenant membre, vous recevrez par e-mail💌 les principaux articles ! Vous pouvez aussi être notifié des nouveaux billets via Telegram ou Slack/Discord/Teams/Dooray/GoogleChat etc.. :D
Aucun commentaire pour le moment.