ML à découvrir cette semaine

(discuss.pytorch.kr)

7 points par ninebow 2025-12-24 | Aucun commentaire pour le moment. | Partager sur WhatsApp

[2025/12/15 ~ 21] Sélection d’articles de recherche AI/ML à découvrir cette semaine

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ L’importance de l’adaptation des agents : les articles sélectionnés cette semaine soulignent la nécessité de l’adaptation pour améliorer les performances et la fiabilité des systèmes d’IA fondés sur des agents. Un cadre systématique intégrant l’adaptation des agents et des outils a été proposé afin de clarifier l’espace de conception des différentes stratégies d’adaptation et de fournir des guides pratiques.

2️⃣ Les avancées des systèmes de mémoire : la mémoire des agents s’impose comme une fonction centrale des systèmes d’IA, et des systèmes de mémoire variés, tant dans leurs formes que dans leurs fonctions, font l’objet de recherches. Constatant que les méthodes traditionnelles de classification de la mémoire ne suffisent pas à saisir la diversité de la mémoire des agents modernes, les chercheurs proposent de nouvelles pistes en analysant de manière intégrée les formes, les fonctions et la dynamique de la mémoire.

3️⃣ Transition et optimisation efficaces des modèles : des articles récents explorent des moyens d’améliorer simultanément la vitesse et la précision en passant des modèles de langage autorégressifs (AR) aux modèles de langage par diffusion (dLM). En particulier, les recherches comparent divers schémas d’attention et stratégies d’entraînement, et proposent des principes et méthodologies pour une transition efficace afin de maximiser les performances des modèles.

Adaptation de l’IA agentique / Adaptation of Agentic AI

Présentation de l’article

Les systèmes d’IA agentique de pointe, fondés sur des foundation models, sont de plus en plus capables d’accomplir des tâches complexes et spécialisées. Pour améliorer les performances, la fiabilité et la généralisation de ces systèmes, l’adaptation s’impose comme un mécanisme clé. Cette étude présente un cadre systématique couvrant à la fois l’adaptation des agents et celle des outils, ce qui permet de clarifier l’espace de conception des différentes stratégies d’adaptation et d’expliciter les compromis entre elles. Le cadre se subdivise en formes d’adaptation fondées sur les signaux d’exécution des outils et sur les signaux de sortie des agents, ainsi qu’en formes d’adaptation des outils prenant la forme d’agents critiques et d’agents superviseurs.

Cette recherche passe en revue des approches représentatives dans chaque catégorie, analyse leurs forces et leurs limites, et met en avant les principaux défis ouverts ainsi que les opportunités futures. En particulier, les premières méthodes de type A1 mettaient l’accent sur le Supervised Fine-Tuning et la Direct Preference Optimization, et ces méthodes ont évolué vers des approches obtenant des signaux d’apprentissage en collectant les réponses des modèles liées à l’usage des outils. Les premiers modèles comme Toolformer ont tenté d’améliorer l’usage des outils à l’aide de signaux d’apprentissage auto-supervisé, mais ils présentaient des limites dans les environnements réels.

Pour dépasser ces limites, des modèles ultérieurs comme TRICE et ToolAlpaca ont introduit l’apprentissage par renforcement via le feedback d’exécution afin d’améliorer directement la capacité d’usage des outils. TP-LLaMA propose une nouvelle approche qui exploite les trajectoires ayant échoué pour permettre au modèle d’apprendre de ses échecs, tandis que Gorilla met l’accent sur la correction structurelle pour générer les bons appels d’API au sein de vastes ensembles d’API de machine learning. CodeAct propose un paradigme d’apprentissage par interaction directe avec un environnement de code exécutable, rendant possible la définition d’objectifs d’apprentissage fondés sur des résultats vérifiables.

Enfin, les méthodes fondées sur le RLVR (récompenses vérifiables) permettent au modèle d’apprendre directement via des interactions en ligne avec les outils et l’environnement, rendant l’adaptation dynamique et sensible au contexte. Ces travaux contribuent au développement des systèmes d’IA agentique et fournissent une base importante pour les recherches futures et les applications pratiques.

Résumé de l’article (Abstract)

Les systèmes d’IA agentique de pointe reposent sur des foundation models qui peuvent être adaptés pour planifier, raisonner et interagir avec des outils externes afin d’accomplir des tâches toujours plus complexes et spécialisées. À mesure que ces systèmes gagnent en capacités et en portée, l’adaptation devient un mécanisme central pour améliorer les performances, la fiabilité et la généralisation. Cet article unifie un paysage de recherche en expansion rapide au sein d’un cadre systématique couvrant à la fois les adaptations des agents et celles des outils. Nous les décomposons plus précisément en adaptations des agents fondées sur les signaux d’exécution des outils et sur les signaux de sortie des agents, ainsi qu’en adaptations des outils de type agent-agnostic et agent-supervised. Nous montrons que ce cadre aide à clarifier l’espace de conception des stratégies d’adaptation en IA agentique, à expliciter leurs compromis et à fournir des indications pratiques pour sélectionner ou changer de stratégie lors de la conception d’un système. Nous passons ensuite en revue les approches représentatives de chaque catégorie, analysons leurs forces et leurs limites, et mettons en lumière les principaux défis ouverts et les opportunités futures. Dans l’ensemble, cet article vise à offrir une base conceptuelle et une feuille de route pratique aux chercheurs et praticiens souhaitant construire des systèmes d’IA agentique plus capables, plus efficaces et plus fiables.
> Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.

Lien vers l’article

https://arxiv.org/abs/2512.16301

Pour aller plus loin

https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI

La mémoire à l’ère des agents IA / Memory in the Age of AI Agents

Présentation de l’article

La mémoire des agents s’est imposée comme un élément indispensable des systèmes d’intelligence artificielle (IA) modernes, et cette étude vise à organiser et analyser de manière systématique la complexité et la diversité de cette mémoire. Les travaux existants présentent de fortes différences dans les motivations, les modes d’implémentation et les protocoles d’évaluation de la mémoire des agents, ce qui se traduit par un manque de clarté conceptuelle. Cet article définit donc clairement le périmètre de la mémoire des agents et souligne sa différence par rapport à la mémoire des grands modèles de langage (LLM), à la génération augmentée par recherche (RAG) et au context engineering.

L’étude analyse la mémoire des agents selon trois perspectives : la forme, la fonction et la dynamique. Du point de vue de la forme, elle présente trois catégories principales — la mémoire au niveau des tokens, la mémoire paramétrique et la mémoire latente — et en explique les caractéristiques ainsi que le fonctionnement. Du point de vue fonctionnel, elle distingue mémoire factuelle, mémoire expérientielle et mémoire de travail afin de clarifier le rôle de chacune. Du point de vue dynamique, elle explore les processus de formation, d’évolution et de récupération de la mémoire afin d’analyser la manière dont celle-ci fonctionne lorsque l’agent interagit avec son environnement.

Cette étude fournit également, afin de soutenir le développement pratique, un résumé complet des benchmarks mémoire et des frameworks open source, tout en proposant une perspective sur de nouvelles frontières de recherche comme l’automatisation de la mémoire, l’intégration de l’apprentissage par renforcement, la mémoire multimodale et la mémoire multi-agents. Cette approche pose les bases permettant de repenser la mémoire comme un concept primitif de premier ordre dans la conception des systèmes de mémoire pour agents, et indique l’orientation des recherches futures.

En conséquence, cet article devrait contribuer à faire progresser les systèmes de mémoire des agents IA en offrant une synthèse globale de l’état actuel de la recherche sur la mémoire des agents et des éclairages sur les travaux à venir.

Résumé de l’article (Abstract)

La mémoire s’est imposée comme une capacité centrale des agents fondés sur des foundation models, et continuera à jouer un rôle essentiel à l’avenir. Alors que la recherche sur la mémoire des agents se développe rapidement et suscite une attention sans précédent, le domaine devient aussi de plus en plus fragmenté. Les travaux existants relevant de la mémoire des agents diffèrent souvent fortement dans leurs motivations, leurs implémentations et leurs protocoles d’évaluation, tandis que la prolifération de terminologies de la mémoire définies de manière floue a encore brouillé la clarté conceptuelle. Les taxonomies traditionnelles comme la mémoire à long terme / à court terme se sont révélées insuffisantes pour rendre compte de la diversité des systèmes contemporains de mémoire d’agent. Cette étude vise à proposer une cartographie à jour de la recherche actuelle sur la mémoire des agents. Nous commençons par délimiter clairement le périmètre de la mémoire des agents et par la distinguer de concepts connexes tels que la mémoire des LLM, la génération augmentée par récupération (RAG) et le context engineering. Nous examinons ensuite la mémoire des agents à travers une perspective unifiée articulée autour des formes, des fonctions et des dynamiques. Du point de vue des formes, nous identifions trois réalisations dominantes de la mémoire des agents : la mémoire au niveau des tokens, la mémoire paramétrique et la mémoire latente. Du point de vue des fonctions, nous proposons une taxonomie plus fine distinguant mémoire factuelle, expérientielle et de travail. Du point de vue des dynamiques, nous analysons comment la mémoire se forme, évolue et est récupérée au fil du temps. Afin de soutenir le développement pratique, nous compilons un résumé complet des benchmarks mémoire et des frameworks open source. Au-delà de cette synthèse, nous formulons une perspective tournée vers l’avenir sur des frontières de recherche émergentes, notamment l’automatisation de la mémoire, l’intégration de l’apprentissage par renforcement, la mémoire multimodale, la mémoire multi-agents et les enjeux de fiabilité. Nous espérons que cette survey servira non seulement de référence pour les travaux existants, mais aussi de fondation conceptuelle pour repenser la mémoire comme un concept primitif de premier ordre dans la conception de futures intelligences agentiques.
> Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.

Lien vers l’article

https://arxiv.org/abs/2512.13564

Pour aller plus loin

https://github.com/Shichun-Liu/Agent-Memory-Paper-List

Équilibre détaillé dans les agents pilotés par de grands modèles de langage / Detailed balance in large language model-driven agents

Présentation de l’article

Les agents fondés sur de grands modèles de langage (LLM) offrent une approche innovante pour résoudre des problèmes complexes, mais malgré le succès empirique de ces systèmes, il manque encore un cadre théorique solide. Cette étude propose une nouvelle méthodologie, fondée sur le principe de moindre action, pour estimer la directionnalité générationnelle des LLM. Cette méthodologie démontre statistiquement l’existence d’un équilibre détaillé observé dans les transitions générées par les LLM, en mesurant expérimentalement les probabilités de transition entre les états produits par ces modèles. Ces résultats suggèrent que les LLM pourraient atteindre ce comportement non pas en apprenant un ensemble spécifique de règles ou de stratégies, mais en apprenant implicitement une classe de fonctions potentielles pouvant transcender différentes architectures de LLM et divers templates de prompts.

Cette recherche constitue le premier cas d’identification de lois physiques macroscopiques dans la dynamique générationnelle des LLM, et représente une tentative d’établir une théorie des dynamiques macroscopiques des systèmes d’intelligence artificielle (IA) complexes. Elle vise ainsi à poser les bases permettant à la recherche sur les agents IA d’évoluer d’un simple ensemble de pratiques d’ingénierie vers une science prédictible et quantifiable. Comprendre la dynamique des transitions qui se produisent pendant le processus de génération des LLM est essentiel pour élucider le principe de fonctionnement de ces systèmes.

Cette étude propose un nouveau cadre théorique capable d’expliquer la dynamique générationnelle des LLM, ouvrant ainsi une nouvelle direction pour la recherche en IA. Les données recueillies grâce à l’approche expérimentale apportent une contribution importante à la compréhension des principes de fonctionnement des LLM et pourront servir de base à de futurs travaux. Ces résultats devraient offrir des éclairages importants pour la conception et l’exploitation des agents fondés sur les LLM, et contribuer au progrès des technologies d’IA.

Résumé de l’article (Abstract)

Les agents fondés sur de grands modèles de langage (LLM) s’imposent comme un nouveau paradigme puissant pour résoudre des problèmes complexes. Malgré le succès empirique de ces approches, il manque encore un cadre théorique capable d’en comprendre et d’en unifier la dynamique macroscopique. Cet article propose une méthode fondée sur le principe de moindre action pour estimer la directionnalité générative sous-jacente des LLM intégrés dans les agents. En mesurant expérimentalement les probabilités de transition entre des états générés par les LLM, nous mettons statistiquement en évidence un équilibre détaillé dans ces transitions, ce qui suggère que la génération par les LLM ne repose pas, en général, sur l’apprentissage d’ensembles de règles et de stratégies, mais plutôt sur l’apprentissage implicite d’une classe de fonctions potentielles sous-jacentes susceptibles de transcender différentes architectures de LLM et divers modèles de prompt. À notre connaissance, il s’agit de la première mise en évidence d’une loi physique macroscopique dans la dynamique générative des LLM qui ne dépende pas de détails spécifiques au modèle. Ce travail constitue une tentative d’établir une théorie de la dynamique macroscopique des systèmes d’IA complexes, avec pour objectif de faire évoluer l’étude des agents d’IA d’un ensemble de pratiques d’ingénierie vers une science fondée sur des mesures effectives, prévisibles et quantifiables.
> Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.

Lien vers l’article

https://arxiv.org/abs/2512.10047

Efficient-DLM : des modèles de langage autoregressifs aux modèles de langage par diffusion, et au-delà en matière de vitesse / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

Présentation de l’article

Les modèles de langage par diffusion (Diffusion Language Models, dLM) émergent comme un paradigme prometteur grâce à leur génération non autoregressive parallèle, mais ils souffrent d’une moindre efficacité d’entraînement par rapport aux modèles de langage autoregressifs (Autoregressive Language Models, AR). Pour résoudre ce problème, une méthodologie de conversion des modèles AR en dLM efficaces a été proposée. Les chercheurs ont analysé les limites des méthodes existantes de conversion AR-to-dLM et ont constaté que la préservation de la distribution des poids préentraînés du modèle AR est essentielle pour une conversion efficace.

Sur cette base, ils ont introduit une approche de préentraînement continu qui conserve un schéma d’attention par blocs. Cette méthode permet une modélisation bidirectionnelle au sein de chaque bloc, ce qui aide à mieux préserver la distribution des poids du modèle AR. Elle offre également l’avantage de permettre le KV caching, améliorant à la fois la précision et l’efficacité. Afin de réduire l’écart de distribution des tokens masqués pendant l’entraînement, une stratégie de masquage des tokens dépendante de la position a aussi été proposée ; elle attribue une probabilité de masquage plus élevée aux tokens suivants pendant l’entraînement afin de mieux reproduire le comportement observé au moment du test.

Grâce à cette méthodologie, une étude approfondie des schémas d’attention, de la dynamique d’entraînement et des choix de conception des dLM a été menée, fournissant des pistes concrètes pour une conversion scalable des modèles AR vers les dLM. Au final, la famille Efficient-DLM affiche des performances supérieures à celles des modèles AR et dLM de pointe : Efficient-DLM 8B a notamment atteint une précision supérieure de +5,4 % et +2,7 % ainsi qu’un débit 4,5 fois et 2,7 fois plus élevé que Dream 7B et Qwen3 4B, respectivement. Ces travaux proposent une nouvelle méthodologie pour convertir efficacement les modèles AR en dLM, contribuant à améliorer à la fois l’efficacité d’entraînement et les performances des modèles.

Résumé(Abstract)

Les modèles de langage par diffusion (dLMs) se sont imposés comme un paradigme prometteur permettant une génération parallèle non autorégressive, mais leur efficacité d’apprentissage reste inférieure à celle des modèles de langage autorégressifs (AR) lorsqu’ils sont entraînés à partir de zéro. Pour résoudre ce problème, nous étudions la conversion AR-to-dLM afin de transformer des modèles AR préentraînés en dLMs efficaces, plus rapides tout en conservant la précision des modèles AR sur les tâches. Nous y parvenons en identifiant les limites des schémas d’attention et des objectifs des méthodes AR-to-dLM existantes, puis en proposant des principes et méthodologies pour une conversion AR-to-dLM plus efficace. Plus précisément, nous comparons d’abord systématiquement différents schémas d’attention et constatons que le maintien de la distribution des poids du modèle AR préentraîné est crucial pour une conversion AR-to-dLM efficace. Nous introduisons donc un schéma de préentraînement continu avec un motif d’attention par blocs, qui reste causal entre les blocs tout en permettant une modélisation bidirectionnelle à l’intérieur de chaque bloc. Nous constatons que cette approche préserve mieux la distribution des poids des modèles AR préentraînés qu’une modélisation entièrement bidirectionnelle, tout en offrant l’avantage déjà connu de permettre le KV caching, et qu’elle produit un résultat gagnant-gagnant en précision comme en efficacité. Deuxièmement, afin d’atténuer l’écart entre l’entraînement et le test dans les distributions de tokens masqués, nous proposons une stratégie de masquage de tokens dépendante de la position, qui attribue pendant l’entraînement une probabilité de masquage plus élevée aux tokens suivants afin de mieux imiter le comportement au moment du test. En nous appuyant sur ce cadre, nous menons des études approfondies sur les schémas d’attention des dLMs, la dynamique d’entraînement et d’autres choix de conception, apportant des enseignements concrets pour une conversion AR-to-dLM scalable. Ces travaux ont conduit à la famille Efficient-DLM, qui surpasse les meilleurs modèles AR et dLMs de l’état de l’art. Par exemple, notre Efficient-DLM 8B atteint une précision supérieure de +5,4 %/+2,7 % et un débit supérieur de 4,5x/2,7x par rapport à Dream 7B et Qwen3 4B, respectivement.
> Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

Lien vers l’article

https://arxiv.org/abs/2512.14067

Tout est contexte : abstraction agentique du système de fichiers pour l’ingénierie du contexte / Everything is Context: Agentic File System Abstraction for Context Engineering

Présentation de l’article

Les avancées de l’IA générative (GenAI) ont entraîné des transformations majeures dans la conception des systèmes logiciels, notamment via les foundation models qui redéfinissent l’architecture et les opérations. Le principal défi actuel ne réside plus seulement dans le fine-tuning des modèles, mais se déplace vers la « context engineering », qui consiste à capturer et structurer efficacement les connaissances externes, la mémoire, les outils et les interventions humaines. Les approches existantes comme le prompt engineering ou la retrieval-augmented generation (RAG) restent fragmentaires, ce qui fait que les artefacts de contexte générés sont souvent éphémères et difficiles à vérifier.

Cette étude, inspirée par la philosophie Unix selon laquelle « tout est fichier », propose une abstraction du système de fichiers pour l’ingénierie du contexte. Cette abstraction fournit une infrastructure persistante et administrée pour gérer des artefacts de contexte hétérogènes, en permettant un montage cohérent, des métadonnées et un contrôle d’accès. Implémentée dans le framework AIGNE, cette architecture remplit les fonctions d’assemblage, de transmission et de vérification du contexte sous contrainte de tokens grâce à un pipeline vérifiable d’ingénierie du contexte composé de générateurs, de chargeurs et d’évaluateurs de contexte.

À mesure que la GenAI s’impose comme un collaborateur actif dans l’aide à la décision, les humains occupent un rôle central en tant que curateurs, validateurs et co-raisonneurs. Cette étude démontre la praticité de l’architecture proposée à travers des agents dotés de mémoire et un assistant GitHub basé sur MCP, montrant sa viabilité opérationnelle dans des environnements de développement et industriels. Cette approche établit une base réutilisable pour une collaboration IA responsable et centrée sur l’humain, et contribue à soutenir des systèmes GenAI vérifiables et faciles à maintenir.

En conclusion, cette étude souligne l’importance de l’ingénierie du contexte dans la conception des systèmes GenAI et montre comment une abstraction fondée sur le système de fichiers peut poser les bases d’une gestion du contexte persistante et transparente.

Résumé(Abstract)

L’IA générative (GenAI) a reconfiguré la conception des systèmes logiciels en introduisant les foundation models comme sous-systèmes préentraînés. Le nouveau défi n’est plus le fine-tuning des modèles, mais le context engineering : la manière dont les systèmes capturent, structurent et gouvernent les connaissances externes, la mémoire, les outils et les entrées humaines afin de permettre un raisonnement fiable. Les pratiques existantes comme le prompt engineering, la retrieval-augmented generation (RAG) et l’intégration d’outils restent fragmentées et produisent des artefacts transitoires qui limitent la traçabilité et la responsabilité. Cet article propose une abstraction de système de fichiers pour le context engineering, inspirée du concept Unix selon lequel « tout est un fichier ». Cette abstraction fournit une infrastructure persistante et gouvernée pour gérer des artefacts de contexte hétérogènes via un montage uniforme, des métadonnées et un contrôle d’accès. Implémentée dans le framework open source AIGNE, cette architecture matérialise un pipeline vérifiable de context engineering, composé du Context Constructor, du Loader et de l’Evaluator, qui assemble, transmet et valide le contexte sous contraintes de tokens. À mesure que GenAI devient un collaborateur actif dans l’aide à la décision, les humains jouent un rôle central comme curateurs, vérificateurs et co-raisonneurs. L’architecture proposée établit une base réutilisable pour une collaboration IA centrée sur l’humain et responsable, illustrée par deux exemples : un agent doté de mémoire et un assistant GitHub basé sur MCP. Son implémentation dans le framework AIGNE montre comment cette architecture peut être opérationnalisée dans des environnements de développement et industriels, en prenant en charge des systèmes GenAI vérifiables, maintenables et prêts pour l’industrie.
> Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.

Lien vers l’article

https://arxiv.org/abs/2512.05470

Vers une science du passage à l’échelle des systèmes d’agents / Towards a Science of Scaling Agent Systems

Présentation de l’article

Les agents et les systèmes fondés sur des modèles de langage jouent un rôle de plus en plus important dans les applications d’intelligence artificielle du monde réel, mais les principes qui déterminent les performances de ces systèmes restent encore insuffisamment explorés. Cette étude vise à combler cette lacune en dérivant des principes quantitatifs de passage à l’échelle des systèmes d’agents, afin d’aider les praticiens à faire des choix de conception fondés sur des principes plutôt que sur des méthodes empiriques. La recherche est menée sur quatre benchmarks distincts — Finance-Agent, BrowseComp-Plus, PlanCraft et Workbench — avec une évaluation contrôlée de 180 configurations, en appliquant cinq architectures typiques (single, standalone, centralisée, distribuée, hybride) à trois familles de modèles de langage.

Le cœur de cette recherche consiste à dériver un modèle prédictif à l’aide de métriques d’ajustement empiriques. Ce modèle prend en compte divers facteurs comme l’efficacité, le surcoût, l’amplification des erreurs et la redondance, et atteint une valeur de R² validée par validation croisée de 0,513. L’étude identifie trois effets majeurs. Premièrement, le compromis outil-coordination montre que, sous un budget de calcul fixe, les tâches centrées sur les outils sont affectées de manière disproportionnée par le surcoût du multi-agents. Deuxièmement, le phénomène de saturation des capacités indique que lorsque les performances d’un agent unique dépassent environ 45 %, la coordination diminue ou génère des rendements négatifs. Troisièmement, le phénomène d’amplification des erreurs dépendant de la topologie révèle que les agents indépendants amplifient les erreurs de 17,2 fois, tandis que la coordination centralisée limite ce facteur à 4,4.

La coordination centralisée améliore les performances de 80,9 % sur des tâches parallélisables comme le raisonnement financier, tandis que la coordination distribuée affiche des performances relativement supérieures dans l’exploration web dynamique. En revanche, sur les tâches de raisonnement séquentiel, toutes les variantes multi-agents entraînent une baisse des performances de 39 à 70 %. Ces résultats apportent une contribution importante à la prédiction des performances des systèmes d’agents et à l’identification de stratégies de coordination optimales, en proposant des principes prédictifs fondés sur les caractéristiques des tâches agentiques. En dérivant quantitativement des principes de passage à l’échelle des systèmes d’agents, cette étude établit une base permettant aux praticiens de concevoir et d’optimiser plus efficacement leurs systèmes.

Résumé de l’article (Abstract)

Les agents, systèmes basés sur des language models (LM) capables de raisonner, planifier et agir, sont en train de devenir le paradigme dominant des applications d’IA dans le monde réel. Malgré cette adoption massive, les principes qui déterminent leurs performances restent peu étudiés, poussant les praticiens à s’appuyer sur des heuristiques plutôt que sur des choix de conception fondés. Nous comblons cette lacune en dérivant des principes quantitatifs de scaling pour les systèmes d’agents. Nous les évaluons sur quatre benchmarks variés : Finance-Agent, BrowseComp-Plus, PlanCraft et Workbench. En utilisant cinq architectures canoniques (Single, Independent, Centralized, Decentralized, Hybrid) déclinées sur trois familles de LLM, nous menons une évaluation contrôlée couvrant 180 configurations avec des outils et des budgets de tokens standardisés. Nous dérivons un modèle prédictif à partir de métriques empiriques de coordination, notamment l’efficacité, l’overhead, l’amplification des erreurs et la redondance, qui atteint un $R^2=0.513$ en validation croisée. Nous identifions trois effets dominants : (1) un compromis entre outils et coordination : sous des budgets de calcul fixes, les tâches fortement dépendantes des outils souffrent de manière disproportionnée de l’overhead multi-agent. (2) une saturation des capacités : la coordination produit des gains décroissants, voire négatifs (beta=-0.408, p<0.001), dès que les baselines mono-agent dépassent ~45 %. (3) une amplification des erreurs dépendante de la topologie : les agents indépendants amplifient les erreurs d’un facteur 17,2 via une propagation non contrôlée, tandis qu’une coordination centralisée limite ce facteur à 4,4. La coordination centralisée améliore les performances de 80,9 % sur des tâches parallélisables comme le raisonnement financier, tandis que la coordination décentralisée excelle sur la navigation web dynamique (+9,2 % contre +0,2 %). En revanche, pour les tâches de raisonnement séquentiel, toutes les variantes multi-agents ont dégradé les performances de 39 à 70 %. Ce cadre prédit la stratégie de coordination optimale pour 87 % des configurations mises de côté, fournissant un principe prédictif de scaling agentique fondé sur des propriétés mesurables des tâches.
> Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

Lien vers l’article

https://arxiv.org/abs/2512.08296

LMCache : une couche de cache KV efficace pour l’inférence LLM à l’échelle de l’entreprise / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

Présentation de l’article

LMCache a été proposé comme une nouvelle approche visant à améliorer l’efficacité de l’inférence des grands modèles de langage (LLM). Traditionnellement, le cache KV est stocké dans la mémoire GPU afin d’accélérer l’étape de décodage des LLM, mais la quantité de cache KV conservée par les utilisateurs dépasse désormais la capacité de la mémoire GPU. Dans ce contexte, LMCache s’est imposé comme la première solution open source permettant de déplacer le cache KV hors du GPU et de le réutiliser entre différentes requêtes et différents moteurs d’inférence.

La fonction centrale de LMCache est de prendre en charge l’offload du cache ainsi que la désagrégation prefill-decode (PD). Cela permet la réutilisation des préfixes entre les requêtes et facilite le transfert de cache entre différents GPU. LMCache maximise les performances grâce à trois contributions majeures. Premièrement, il optimise le déplacement des données du cache KV au moyen d’opérations de transfert de données par lots ainsi que du pipelining du calcul et des entrées/sorties (I/O). Deuxièmement, il introduit des connecteurs de cache KV modulaires afin de s’adapter avec souplesse à l’évolution de divers moteurs d’inférence. Troisièmement, il fournit une API de contrôle de premier ordre pour la coordination du cache entre les couches GPU, CPU, stockage et réseau, offrant ainsi davantage de flexibilité aux utilisateurs.

Les performances de LMCache, combiné à vLLM, ont montré jusqu’à 15 fois plus de throughput sur diverses tâches telles que les questions-réponses multi-tours et l’analyse de documents. Des cas d’usage réels ont confirmé que récupérer le cache KV depuis un stockage distant est efficace pour réduire la latence de prefill, et ont également apporté un enseignement important : les techniques de context truncation largement utilisées dans l’industrie peuvent réduire de moitié le taux de réussite du cache de préfixe.

En conclusion, LMCache constitue une solution innovante qui améliore considérablement l’efficacité de l’inférence LLM, et son adoption à grande échelle dans les environnements d’entreprise devrait bénéficier à de nombreux secteurs. Il transforme les moteurs LLM en un écosystème distribué de calcul et de stockage, et laisse entrevoir la possibilité que les données AI-native deviennent à l’avenir le socle de l’inférence LLM.

Résumé (Abstract)

Le cache KV a traditionnellement été stocké dans la mémoire GPU afin d’accélérer la phase de décodage de l’inférence des grands modèles de langage (LLM). Toutefois, il devient de plus en plus nécessaire de déplacer les caches KV hors des GPU afin de permettre leur réutilisation entre différentes requêtes et différents moteurs d’inférence. Nos statistiques d’usage en conditions réelles confirment cette tendance : au fil du temps, le volume total de cache KV stocké par les utilisateurs a augmenté rapidement, dépassant largement la capacité de la mémoire GPU. Malgré ce besoin, il manque une solution efficace pour décharger et transférer les caches KV. Nous présentons LMCACHE, la première solution open source de cache KV, et à ce jour la plus efficace, qui extrait et stocke hors de la mémoire GPU les caches KV générés par les moteurs LLM modernes (vLLM et SGLang), puis les partage entre moteurs et requêtes. LMCACHE prend en charge à la fois le déchargement du cache (réutilisation de préfixes entre requêtes) et la désagrégation prefill-decode (PD) (transfert de cache entre moteurs/GPU). Les hautes performances et la large adoption de LMCACHE reposent sur les contributions suivantes : (1) un déplacement de données de cache KV hautement optimisé, rendu possible par des opérations groupées de transfert de données ainsi que par le pipelining du calcul et des E/S ; (2) un composant modulaire de connexion au cache KV, qui découple LMCACHE de l’évolution rapide des moteurs d’inférence ; (3) une API de contrôle de premier plan pour une orchestration flexible du cache entre les couches GPU, CPU, stockage et réseau. Notre évaluation montre que la combinaison de LMCACHE avec vLLM permet d’obtenir jusqu’à 15 fois plus de débit sur des charges de travail comme les questions-réponses multi-tours et l’analyse de documents. L’adoption de LMCACHE à grande échelle dans des environnements d’entreprise nous apporte aussi des enseignements précieux : par exemple, récupérer le cache KV depuis un stockage distant améliore, sans surprise, la latence de prefill, tandis que la troncature de contexte, une technique largement utilisée dans l’industrie, peut réduire de moitié le taux de cache hit sur les préfixes. Le code source de LMCACHE est disponible ici : https://github.com/LMCache/LMCache.
> KV cache has traditionally been stored in GPU memory to accelerate the decoding phase of large language model (LLM) inference. However, it is increasingly necessary to move KV caches outside GPU devices, to enable cache reuse across different queries and inference engines. Our real-world usage statistics confirm this trend: over time, the total KV cache stored by users has grown rapidly, far exceeding the capacity of GPU memory. Despite this need, there lacks an efficient solution for offloading and transferring KV caches. We present LMCACHE, the first and so far the most efficient open-source KV caching solution, which extracts and stores KV caches generated by modern LLM engines (vLLM and SGLang) out of the GPU memory and shares them across engines and queries. LMCACHE supports both cache offloading (prefix reuse across queries) and prefill-decode (PD) disaggregation (cross-engine/GPU cache transfer). LMCACHE's high performance and wide adoption stem from the following contributions: (1) highly optimized KV cache data movement powered by batched data movement operations, compute and I/O pipelining; (2) a modular KV cache connector component, decoupling LMCACHE from the rapid evolution of inference engines; (3) a first-class control API for flexible cache orchestration across GPU, CPU, storage, and network layers. Our evaluation shows that combining LMCACHE with vLLM achieves up to 15x improvement in throughput across workloads such as multi-round question answering and document analysis. Large-scale adoption of LMCACHE in enterprise settings provides us valuable insights, for example, fetching KV cache from remote storage has unsurprisingly benefits to prefill delay, and that context truncation, which is a widely applied technique in industry, can greatly reduce prefix cache hit ratio by half. The source code of LMCACHE is at: https://github.com/LMCache/LMCache.

Lien vers l’article

https://arxiv.org/abs/2510.09665

Pour aller plus loin

https://github.com/LMCache/LMCache

https://discuss.pytorch.kr/t/lmcache-llm/7179

ReFusion : un grand modèle de langage par diffusion avec décodage autorégressif parallèle / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Présentation de l’article

ReFusion est un modèle innovant de diffusion masquée exploitant un décodage autorégressif parallèle, conçu pour dépasser les limites des modèles autorégressifs (ARM) traditionnels et des modèles de diffusion masquée (MDM). Les ARM classiques souffrent d’une vitesse d’inférence lente en raison d’un décodage séquentiel, tandis que les MDM, bien qu’ils supposent une indépendance conditionnelle, voient leur efficacité réduite par des goulots d’étranglement architecturaux et des problèmes de génération incohérente. Pour résoudre ces problèmes, ReFusion améliore le décodage parallèle au niveau des slots, c’est-à-dire de sous-séquences continues de longueur fixe.

Au cœur de ReFusion se trouve un processus de décodage « plan-and-infill ». Lors de la première étape, le modèle identifie des slots présentant de faibles dépendances, puis, dans la seconde, décode ces slots en parallèle. Cette conception fondée sur les slots permet la réutilisation du cache Key-Value (KV), évitant de recalculer à chaque fois l’état KV de l’ensemble du contexte. En conséquence, la complexité d’apprentissage est réduite, passant de l’espace combinatoire des tokens à l’espace des permutations au niveau des slots, ce qui améliore fortement l’efficacité.

Les résultats expérimentaux montrent que ReFusion enregistre une amélioration des performances de 34 % par rapport aux MDM précédents, ainsi qu’une accélération moyenne de 18 fois. Il réduit également l’écart de performance avec des ARM puissants, tout en atteignant une accélération moyenne de 2,33 fois. Ces résultats indiquent que ReFusion surmonte les limites des modèles existants et ouvre de nouvelles perspectives pour les modèles de diffusion.

ReFusion apporte une contribution marquante à la fois en performance et en vitesse grâce à la réutilisation du cache KV et à la réduction de la complexité d’apprentissage, tout en offrant des pistes importantes pour les recherches futures. En combinant les avantages des modèles de diffusion et des modèles autorégressifs, ce modèle devrait contribuer aux progrès des grands modèles de langage.

Résumé(Abstract)

Les modèles autorégressifs (ARM) sont limités par une inférence séquentielle lente. Les modèles de diffusion masquée (MDM) offrent une alternative parallèle, mais présentent des inconvénients majeurs : un surcoût de calcul élevé dû à l’impossibilité d’utiliser le cache clé-valeur (KV), ainsi qu’une génération incohérente liée à l’apprentissage de dépendances dans un espace de combinaisons de tokens impossible à traiter. Pour répondre à ces limites, nous présentons ReFusion, un nouveau modèle de diffusion masquée qui atteint de meilleures performances et une meilleure efficacité en faisant passer le décodage parallèle du niveau du token à un niveau supérieur, celui des slots, où chaque slot correspond à une sous-séquence contiguë de longueur fixe. Cela est rendu possible grâce à un processus de décodage itératif de type « planification et remplissage » : une étape de planification basée sur la diffusion identifie d’abord un ensemble de slots faiblement dépendants, puis une étape de remplissage autorégressive décode ces slots sélectionnés en parallèle. Cette conception fondée sur les slots permet à la fois une réutilisation complète du cache KV dans un cadre causal unifié, et réduit la complexité d’apprentissage de l’espace des combinaisons de tokens à un espace de permutations de slots plus gérable. Des expériences approfondies sur sept benchmarks variés montrent que ReFusion surpasse largement les précédents MDM, avec un gain de performance de 34 % et une accélération moyenne de plus de 18$\times$, tout en comblant l’écart de performance avec de solides ARM et en conservant une accélération moyenne de 2.33$\times$.
> Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.

Lien vers l’article

https://arxiv.org/abs/2512.13586

Pour aller plus loin

https://github.com/ML-GSAI/ReFusion

https://huggingface.co/GSAI-ML/ReFusion

Une approche de pré-entraînement scalable pour la génération de tokenizers visuels / Towards Scalable Pre-training of Visual Tokenizers for Generation

Présentation de l’article

La qualité de l’espace latent des tokenizers visuels a un impact déterminant sur les performances des modèles génératifs modernes. Cependant, les méthodes d’apprentissage existantes fondées sur la reconstruction produisent des espaces latents biaisés vers l’information de bas niveau, ce qui entraîne un problème où une meilleure précision au niveau pixel ne garantit pas nécessairement une génération de meilleure qualité. Ce phénomène est défini comme le « problème de scaling du pré-entraînement » et souligne la nécessité, pour des modèles génératifs efficaces, de disposer d’un espace latent qui exprime de manière concise une sémantique de haut niveau.

Cette étude propose un nouveau cadre unifié de pré-entraînement des tokenizers visuels appelé VTP (Visual Tokenizer Pre-training). VTP adopte une approche innovante qui optimise conjointement le contraste image-texte, l’apprentissage auto-supervisé et la perte de reconstruction, contribuant ainsi à améliorer les performances en génération. Une étude à grande échelle a permis de dégager deux constats majeurs. Premièrement, elle confirme que la compréhension sémantique constitue le principal moteur de la génération. Deuxièmement, VTP présente d’excellentes propriétés de scaling, avec une amélioration efficace des performances génératives en fonction des ressources de calcul, du nombre de paramètres du modèle et de la taille des données.

VTP atteint une précision zero-shot de 78.2 % sur ImageNet et un rFID de 0.36, tout en convergeant 4.1 fois plus vite que les méthodes de distillation de pointe existantes. En outre, VTP a obtenu une amélioration de 65.8 % du FID sur la génération downstream simplement en investissant davantage de FLOPS dans le pré-entraînement, sans modifier les spécifications d’entraînement standard de DiT. Ces résultats montrent que VTP surpasse les approches traditionnelles basées sur les autoencodeurs et peut s’imposer comme un modèle scalable.

En conclusion, VTP contribue à résoudre le problème de scaling du pré-entraînement des tokenizers visuels et à établir une forte corrélation entre la compréhension de l’espace latent et les capacités de génération. Cette recherche ouvre une nouvelle direction pour améliorer les performances des modèles génératifs et pourra servir de base importante pour les travaux futurs.

Résumé (Abstract)

Dans les tokenizers visuels (par ex. les VAE), la qualité de l’espace latent est cruciale pour les modèles génératifs modernes. Cependant, le paradigme d’entraînement standard fondé sur la reconstruction produit un espace latent biaisé vers l’information de bas niveau, ce qui entraîne un défaut fondamental : une meilleure précision au niveau des pixels ne conduit pas à une génération de meilleure qualité. Cela signifie qu’investir massivement en ressources de calcul dans le pré-entraînement des tokenizers visuels se traduit mal par une amélioration des performances de génération. Nous définissons cela comme le « problème de scaling du pré-entraînement » et proposons qu’un espace latent, pour être efficace en génération, doive représenter de façon concise des sémantiques de haut niveau. Nous présentons VTP, un framework unifié de pré-entraînement de tokenizer visuel qui ouvre la voie à l’optimisation conjointe des pertes de contraste image-texte, d’auto-supervision et de reconstruction. Notre étude à grande échelle met en évidence deux constats majeurs : (1) la compréhension est un moteur clé de la génération, et (2) les performances génératives présentent des propriétés de scaling bien meilleures, en évoluant efficacement avec le calcul, les paramètres et les données alloués au pré-entraînement du tokenizer visuel. Après un pré-entraînement à grande échelle, notre tokenizer affiche un profil compétitif (78.2 de précision zero-shot et 0.36 de rFID sur ImageNet) et une convergence 4.1 fois plus rapide en génération que des méthodes de distillation avancées. Plus important encore, il passe effectivement à l’échelle : sans modifier les spécifications standard d’entraînement de DiT, le seul fait d’investir davantage de FLOPS dans le pré-entraînement de VTP permet d’obtenir une amélioration de 65.8 % du FID en génération downstream, tandis que les autoencodeurs traditionnels stagnent très tôt avec 1/10 des FLOPS. Nos modèles pré-entraînés sont disponibles sur https://github.com/MiniMax-AI/VTP.
> The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the pre-training scaling problem and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.

Lien vers l’article

https://arxiv.org/abs/2512.13687

Pour aller plus loin

https://github.com/MiniMax-AI/VTP

CLaRa : intégration de la recherche et de la génération par raisonnement latent continu / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Présentation de l’article

CLaRa (Continuous Latent Reasoning) est un framework innovant développé pour dépasser les limites des systèmes de retrieval-augmented generation (RAG). Les approches RAG existantes ont du mal à traiter de longs contextes, et comme l’optimisation de la recherche et de la génération est séparée, leur efficacité s’en trouve réduite. Pour résoudre ces problèmes, CLaRa propose une nouvelle méthodologie qui unifie la recherche et la génération grâce à une compression fondée sur les embeddings et à une optimisation conjointe dans un espace continu partagé.

L’un des composants clés de CLaRa, SCP (synthèse de données avec préservation des clés), exploite des questions-réponses (QA) et la paraphrase (supervision) pour produire des vecteurs compressés à la fois riches sémantiquement et facilement recherchables. Ce processus contribue à améliorer la précision de la recherche tout en préservant la diversité et la qualité des données. Ensuite, CLaRa entraîne de bout en bout un reranker et un générateur via une unique perte de modélisation du langage, ce qui optimise le flux de gradients entre les deux modules. Cette approche d’optimisation intégrée joue un rôle essentiel pour aligner la pertinence de la recherche et la qualité des réponses générées.

Selon les résultats expérimentaux, CLaRa a montré des performances de compression et de reranking à l’état de l’art sur plusieurs benchmarks de questions-réponses (QA), en dépassant les méthodes textuelles existantes. En particulier, CLaRa obtient des résultats avantageux pour le traitement de longs contextes, ce qui démontre concrètement l’efficacité de son approche d’optimisation intégrée. Ces résultats suggèrent que CLaRa possède un fort potentiel pour améliorer sensiblement les performances des systèmes RAG.

L’approche de CLaRa se distingue des recherches RAG existantes et, en tant que première méthode optimisant directement la recherche et la génération, montre un potentiel d’application dans de nombreux domaines à l’avenir. Cette étude ouvre de nouvelles perspectives pour les systèmes RAG et devrait servir de base importante pour de futurs travaux de recherche.

Résumé(Abstract)

La génération augmentée par la recherche (RAG) enrichit les grands modèles de langage (LLM) avec des connaissances externes, mais reste confrontée aux longs contextes et à l’optimisation disjointe entre recherche et génération. Cette étude propose CLaRa (Continuous Latent Reasoning), un framework unifié qui réalise une compression fondée sur les embeddings et une optimisation conjointe dans un espace continu partagé. Pour obtenir des vecteurs compressés riches sémantiquement et faciles à retrouver, les auteurs introduisent SCP, un framework de synthèse de données préservant les clés, qui utilise une supervision par QA et paraphrases. CLaRa entraîne ensuite le reranker et le générateur de bout en bout via une unique loss de modélisation du langage, les gradients circulant à travers les deux modules grâce à un estimateur top-k différentiable. En théorie, cette optimisation unifiée aligne la pertinence de la recherche avec la qualité des réponses. Les expériences menées sur plusieurs benchmarks de QA montrent que CLaRa atteint des performances de pointe en compression et en reranking, dépassant souvent les baselines affinées à partir de texte.
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.

Lien vers l’article

https://arxiv.org/abs/2511.18659

Pour aller plus loin

https://github.com/apple/ml-clara

⚠️Publicité⚠️ : Cet article compilé par 🔥PyTorch Korea User Group🇰🇷 vous a été utile ? Inscrivez-vous comme membre pour recevoir les principaux articles par e-mail💌 ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer à Daily.)

[2025/12/15 ~ 21] Sélection d’articles de recherche AI/ML à découvrir cette semaine