ML à suivre cette semaine

(discuss.pytorch.kr)

7 points par ninebow 2025-10-01 | Aucun commentaire pour le moment. | Partager sur WhatsApp

[2025/09/22 ~ 28] Sélection d’articles AI/ML à suivre cette semaine

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Les avancées des agents IA : des recherches récentes explorent comment transformer des articles scientifiques en agents IA. Par exemple, Paper2Agent convertit des résultats de recherche en systèmes actifs afin que les utilisateurs puissent les exploiter plus facilement. Cette approche favorise la diffusion et la réutilisation des résultats scientifiques, tout en proposant un nouveau paradigme où l’IA peut jouer un rôle d’assistant de recherche.

2️⃣ Intégration de la pensée parallèle et de l’apprentissage par renforcement : des travaux comme Parallel-R1 et ParaThinker proposent d’exploiter la pensée parallèle pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Grâce à l’apprentissage par renforcement (RL), ils explorent simultanément différents chemins de raisonnement nécessaires à la résolution de problèmes complexes, ce qui améliore les performances. Cette méthode contribue à atteindre une précision supérieure à celle des modèles de raisonnement séquentiel classiques.

3️⃣ Intégration de la recherche d’information et de la structuration : des recherches telles que Retrieval And Structuring (RAS) Augmented Generation étudient comment combiner recherche d’information dynamique et représentation structurée des connaissances pour dépasser les limites des LLM. Cette approche contribue à améliorer les performances des LLM en transformant du texte non structuré en formes organisées et en explorant divers mécanismes d’accès aux connaissances externes.

Paper2Agent : réinventer les articles de recherche en agents IA interactifs et fiables / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

Présentation de l’article

Paper2Agent est un framework automatisé qui transforme des articles de recherche en agents d’intelligence artificielle (IA) interactifs, et propose une approche innovante pour accélérer l’usage et la diffusion des résultats scientifiques. Les articles scientifiques traditionnels demandent aux lecteurs un effort considérable pour comprendre et appliquer leur contenu, ce qui constitue un frein à la réutilisation et à la circulation des résultats. Pour résoudre ce problème, Paper2Agent analyse de manière systématique l’article et la base de code associée, puis s’appuie sur plusieurs agents pour construire un serveur Model Context Protocol (MCP). Au cours de ce processus, il améliore et renforce le MCP par des tests itératifs, afin de créer au final un agent IA capable d’exécuter des requêtes scientifiques complexes en langage naturel.

Ce framework a permis de développer des agents s’appuyant sur diverses méthodologies comme AlphaGenome, ScanPy et TISSUE pour l’interprétation de variants génomiques et l’analyse de cellules uniques. Ces agents sont non seulement capables de reproduire les résultats des articles d’origine, mais aussi de fournir des réponses précises à de nouvelles requêtes utilisateur. En transformant des articles scientifiques statiques en agents IA dynamiques et interactifs, Paper2Agent propose un nouveau paradigme pour la diffusion des connaissances et pose les bases d’un écosystème de co-scientifiques IA.

Cette recherche transforme en profondeur la manière dont la communication scientifique est conçue, en faisant passer les résultats de recherche du statut de simple document à celui de système de connaissances actif. Paper2Agent permet aux chercheurs d’interagir avec les agents en langage naturel et d’appliquer facilement des méthodes de recherche, sans devoir maîtriser des écosystèmes logiciels complexes. Cette approche joue un rôle important pour améliorer l’accessibilité des résultats, démocratiser l’accès aux méthodologies avancées et accélérer la vitesse d’application concrète de la recherche.

En conséquence, Paper2Agent s’imposera comme une plateforme innovante permettant de maximiser l’utilité des articles scientifiques et de rendre possible une diffusion interactive et collaborative des connaissances scientifiques.

Résumé de l’article (Abstract)

Nous présentons Paper2Agent, un framework automatisé qui convertit des articles de recherche en agents IA. Paper2Agent transforme les productions de la recherche, de livrables passifs en systèmes actifs capables d’accélérer les usages en aval, l’adoption et la découverte. Les articles scientifiques classiques obligent les lecteurs à investir des efforts considérables pour comprendre le code, les données et les méthodes d’un article, puis les adapter à leur propre travail, ce qui crée des obstacles à la diffusion et à la réutilisation. Paper2Agent répond à ce défi en convertissant automatiquement un article en agent IA jouant le rôle d’assistant de recherche expert. Le système analyse systématiquement l’article et la base de code associée à l’aide de plusieurs agents afin de construire un serveur Model Context Protocol (MCP), puis génère et exécute de manière itérative des tests pour affiner et renforcer le MCP obtenu. Ces MCP d’articles peuvent ensuite être reliés de manière flexible à un agent conversationnel (par exemple Claude Code) afin d’exécuter des requêtes scientifiques complexes en langage naturel tout en invoquant les outils et workflows de l’article d’origine. Nous démontrons, à travers des études de cas approfondies, l’efficacité de Paper2Agent pour créer des agents d’articles fiables et compétents. Paper2Agent a créé un agent qui exploite AlphaGenome pour interpréter des variants génomiques, ainsi que des agents basés sur ScanPy et TISSUE pour mener des analyses en transcriptomique spatiale et en cellule unique. Nous validons que ces agents d’articles peuvent reproduire les résultats des travaux originaux et répondre correctement à de nouvelles requêtes utilisateur. En transformant des articles statiques en agents IA dynamiques et interactifs, Paper2Agent introduit un nouveau paradigme pour la diffusion des connaissances et fournit une base pour l’écosystème collaboratif des co-scientifiques IA.

We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting a paper into an AI agent that acts as a knowledgeable research assistant. It systematically analyzes the paper and the associated codebase using multiple agents to construct a Model Context Protocol (MCP) server, then iteratively generates and runs tests to refine and robustify the resulting MCP. These paper MCPs can then be flexibly connected to a chat agent (e.g. Claude Code) to carry out complex scientific queries through natural language while invoking tools and workflows from the original paper. We demonstrate Paper2Agent's effectiveness in creating reliable and capable paper agents through in-depth case studies. Paper2Agent created an agent that leverages AlphaGenome to interpret genomic variants and agents based on ScanPy and TISSUE to carry out single-cell and spatial transcriptomics analyses. We validate that these paper agents can reproduce the original paper's results and can correctly carry out novel user queries. By turning static papers into dynamic, interactive AI agents, Paper2Agent introduces a new paradigm for knowledge dissemination and a foundation for the collaborative ecosystem of AI co-scientists.

Lien de l’article

https://arxiv.org/abs/2509.06917

Pour aller plus loin

https://github.com/jmiao24/Paper2Agent

https://huggingface.co/spaces/Paper2Agent/alphagenome_agent

Pensée parallèle : méthode d’amélioration des capacités de pensée parallèle via l’apprentissage par renforcement / Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Présentation de l’article

La pensée parallèle est une approche innovante visant à améliorer les capacités de raisonnement des grands modèles de langage (LLM), en explorant simultanément plusieurs trajectoires de raisonnement. Cependant, les méthodes existantes de supervised fine-tuning (SFT) reposent sur des données synthétiques, ce qui limite souvent le modèle à un simple apprentissage par imitation et freine l’exploration ainsi que la généralisation. Pour résoudre ce problème, Parallel-R1 a été proposé comme le premier framework d’apprentissage par renforcement (reinforcement learning, RL) permettant des comportements de pensée parallèle pour la résolution de problèmes complexes du monde réel.

Parallel-R1 adopte un processus d’entraînement en deux étapes fondé sur un curriculum progressif : il commence par apprendre sur des problèmes simples, puis utilise le RL pour explorer et généraliser la capacité de pensée parallèle sur des problèmes plus difficiles. Dans ce processus, le modèle tend d’abord à utiliser la pensée parallèle comme stratégie d’exploration, avant de faire évoluer cette capacité vers une stratégie de vérification multi-perspective dans les phases ultérieures. Les résultats expérimentaux montrent que Parallel-R1 améliore la précision de 8,4 % par rapport aux modèles de pensée séquentielle existants sur divers benchmarks mathématiques, avec notamment un gain de performance de 42,9 % sur le benchmark AIME25.

La contribution principale de cette étude est de proposer un framework RL pour la pensée parallèle, afin d’amener le modèle à apprendre lui-même cette capacité. En outre, grâce au mécanisme d’exploration propre à la pensée parallèle, le modèle peut être guidé vers des régions plus efficaces de l’espace des politiques, jouant ainsi un rôle structurel qui contribue à l’apprentissage de la politique finale. Parallel-R1 peut servir de base importante pour améliorer les capacités de raisonnement des LLM et devrait contribuer à faire progresser davantage le concept de pensée parallèle dans les recherches futures.

Résumé de l’article (Abstract)

La pensée parallèle est une nouvelle approche visant à améliorer les capacités de raisonnement des grands modèles de langage (LLM), en explorant simultanément plusieurs trajectoires de raisonnement. Cependant, activer cette capacité par l’entraînement reste difficile, car les méthodes existantes reposent principalement sur le supervised fine-tuning (SFT) appliqué à des données synthétiques, ce qui favorise l’imitation sous teacher forcing plutôt que l’exploration et la généralisation. En réponse, nous proposons \textbf{Parallel-R1}, le premier framework de reinforcement learning (RL) qui permet des comportements de pensée parallèle pour des tâches de raisonnement complexes du monde réel. Notre framework utilise un curriculum progressif qui traite explicitement le problème du cold start dans l’entraînement de la pensée parallèle avec RL. Nous utilisons d’abord le SFT sur des trajectoires générées à partir de prompts pour des tâches plus faciles afin d’inculquer la capacité de pensée parallèle, puis nous passons au RL pour explorer et généraliser cette compétence sur des problèmes plus difficiles. Les expériences menées sur divers benchmarks mathématiques, notamment MATH, AMC23 et AIME, montrent que Parallel-R1 inculque efficacement la pensée parallèle, conduisant à un gain de précision de 8,4 % par rapport à un modèle de pensée séquentielle entraîné directement par RL sur des tâches difficiles. Des analyses complémentaires révèlent un changement clair dans le comportement de pensée du modèle : à un stade précoce, il utilise la pensée parallèle comme stratégie d’exploration, tandis qu’à un stade plus avancé, il mobilise cette même capacité pour une vérification multi-perspective. Plus important encore, nous validons la pensée parallèle comme un \textbf{échafaudage d’exploration en milieu d’entraînement}, cette phase exploratoire temporaire permettant d’ouvrir un plafond de performance plus élevé après le RL, avec un gain de 42,9 % par rapport à la baseline sur AIME25. Notre modèle, nos données et notre code seront disponibles en open source à l’adresse https://github.com/zhengkid/Parallel-R1.
> Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.

Lien vers l’article

https://arxiv.org/abs/2509.07980

Pour aller plus loin

https://zhengkid.github.io/Parallel_R1.github.io/

https://github.com/zhengkid/Parallel-R1

Enquête sur la génération augmentée par recherche et structuration avec les grands modèles de langage / A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

Présentation de l’article

Les grands modèles de langage (LLM) ont apporté des avancées majeures en traitement automatique du langage naturel, mais dans les applications réelles, ils restent confrontés à des problèmes tels que la génération d’hallucinations, l’obsolescence des connaissances et une expertise de domaine limitée. Pour surmonter ces limites, l’approche de génération augmentée par recherche et structuration (Retrieval And Structuring, RAS) a été proposée : elle améliore les performances des LLM en intégrant une recherche d’information dynamique et des représentations de connaissances structurées. Cette étude passe en revue divers mécanismes de recherche permettant d’accéder à des connaissances externes, y compris des approches sparse, dense et hybrides. Ces mécanismes de recherche aident les LLM à produire des informations plus exactes et plus fiables.

Les techniques de structuration de texte, qui transforment un texte non structuré en représentations organisées, jouent également un rôle important. Grâce à des méthodes comme la construction de taxonomies, la classification hiérarchique et l’extraction d’informations, les LLM peuvent renforcer leur expertise dans des domaines spécifiques et permettre un raisonnement en plusieurs étapes face à des requêtes complexes. Le RAS intègre ces représentations structurées aux LLM afin d’améliorer leur capacité à générer des réponses, via des méthodes fondées sur les prompts, des frameworks de raisonnement et des techniques d’embedding de connaissances.

Cette étude identifie les défis techniques du RAS et met en avant l’importance de l’efficacité de la recherche, de la qualité de la structure et de l’intégration des connaissances. Elle présente également des pistes de recherche futures, telles que la recherche multimodale, les structures interlinguistiques et les systèmes interactifs, afin d’élargir le champ d’application des LLM. L’approche RAS est considérée comme une méthodologie innovante susceptible de maximiser les performances des LLM et de contribuer aux avancées du traitement automatique du langage naturel.

Résumé de l’article (Abstract)

Les grands modèles de langage (LLM) ont révolutionné le traitement automatique du langage naturel grâce à leurs capacités remarquables en génération de texte et en raisonnement. Cependant, lorsqu’ils sont déployés dans des applications réelles, ces modèles sont confrontés à des défis majeurs, notamment les hallucinations, l’obsolescence des connaissances et une expertise limitée dans certains domaines. La génération augmentée par récupération et structuration (RAS) répond à ces limites en intégrant la recherche dynamique d’informations et des représentations de connaissances structurées. Cette survey (1) examine les mécanismes de recherche, y compris les approches sparse, denses et hybrides, pour accéder à des connaissances externes ; (2) explore des techniques de structuration du texte telles que la construction de taxonomies, la classification hiérarchique et l’extraction d’informations, qui transforment un texte non structuré en représentations organisées ; et (3) étudie la manière dont ces représentations structurées sont intégrées aux LLM via des méthodes fondées sur les prompts, des frameworks de raisonnement et des techniques d’embedding de connaissances. Elle identifie également les défis techniques liés à l’efficacité de la recherche, à la qualité de la structure et à l’intégration des connaissances, tout en mettant en lumière des opportunités de recherche dans la recherche multimodale, les structures interlinguistiques et les systèmes interactifs. Cette vue d’ensemble complète fournit aux chercheurs et aux praticiens des éclairages sur les méthodes RAS, leurs applications et leurs orientations futures.

Large Language Models (LLMs) have revolutionized natural language processing with their remarkable capabilities in text generation and reasoning. However, these models face critical challenges when deployed in real-world applications, including hallucination generation, outdated knowledge, and limited domain expertise. Retrieval And Structuring (RAS) Augmented Generation addresses these limitations by integrating dynamic information retrieval with structured knowledge representations. This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques. It also identifies technical challenges in retrieval efficiency, structure quality, and knowledge integration, while highlighting research opportunities in multimodal retrieval, cross-lingual structures, and interactive systems. This comprehensive overview provides researchers and practitioners with insights into RAS methods, applications, and future directions.

Lien vers l’article

https://arxiv.org/abs/2509.10697

ParaThinker : la pensée parallèle native comme nouveau paradigme pour étendre le calcul en phase de test des LLM / ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

Présentation de l’article

Les avancées des grands modèles de langage (LLM) reposent récemment de manière importante sur des stratégies d’extension du calcul en phase de test, qui contribuent à améliorer leurs capacités de raisonnement. Cependant, ces approches se heurtent à un goulot d’étranglement où les gains de performance deviennent marginaux à mesure que la charge de calcul augmente. Ce problème résulte d’un phénomène appelé « Tunnel Vision », dans lequel un raisonnement incomplet dès les premières étapes enferme le modèle sur une trajectoire sous-optimale. Pour y remédier, un nouveau paradigme a été proposé : le parallélisme natif de la pensée (Native Thought Parallelism), une méthode consistant à générer simultanément plusieurs trajectoires de raisonnement variées, puis à les synthétiser pour produire la réponse finale.

ParaThinker est un framework end-to-end centré sur la mise en œuvre de ce parallélisme de la pensée. Le système entraîne le modèle à générer indépendamment différentes pensées, ce qui lui permet d’éviter efficacement le problème de Tunnel Vision et de maximiser ses capacités potentielles de raisonnement. ParaThinker atteint cet objectif grâce à trois innovations majeures. Premièrement, il introduit des tokens de contrôle entraînables afin de garantir l’originalité de chaque trajectoire ; deuxièmement, il utilise des embeddings positionnels spécifiques à chaque pensée pour distinguer clairement l’origine de chaque trajectoire ; troisièmement, il s’appuie sur une stratégie de Supervised Fine-Tuning pour permettre au modèle de générer davantage de trajectoires parallèles.

Cette approche a permis, sur des benchmarks de raisonnement difficiles, d’obtenir un gain de précision moyen de 12,3 % pour le modèle 1.5B et de 7,5 % pour le modèle 7B par rapport aux modèles de raisonnement auto-régressifs existants, tout en ne provoquant qu’une hausse marginale de la latence de 7,1 %. ParaThinker montre ainsi qu’un modèle plus petit peut potentiellement surpasser un modèle bien plus grand et ouvre une nouvelle voie pour l’extension future des LLM. Les résultats de l’étude apportent une contribution importante à la recherche sur les LLM en identifiant les goulots d’étranglement dans leur processus de raisonnement et en démontrant que le parallélisme natif de la pensée constitue une meilleure méthode de mise à l’échelle.

Résumé de l’article (Abstract)

Les avancées récentes des grands modèles de langage (LLM) ont été portées par l’augmentation du calcul au moment de l’inférence, une stratégie qui améliore le raisonnement en générant des processus de pensée séquentiels plus longs. Si cette approche est efficace, elle se heurte à un goulot d’étranglement important à mesure que le calcul augmente, les ressources supplémentaires n’apportant que des gains de performance marginaux. Nous soutenons que cette limite n’est pas inhérente aux capacités du modèle, mais qu’elle provient d’un défaut de la stratégie de mise à l’échelle elle-même. Nous appelons ce phénomène la « vision en tunnel », où des étapes initiales imparfaites enferment le modèle dans une trajectoire de raisonnement sous-optimale. Pour dépasser cette limite, nous introduisons un nouveau paradigme de scaling : le parallélisme natif de la pensée. Nous présentons ParaThinker, un framework end-to-end qui entraîne un LLM à générer en parallèle plusieurs trajectoires de raisonnement variées, puis à les synthétiser en une réponse finale supérieure. En explorant simultanément différentes lignes de pensée, ParaThinker contourne efficacement le problème de vision en tunnel et libère le potentiel latent de raisonnement du modèle. Notre approche montre que faire évoluer le calcul en parallèle (en largeur) constitue une méthode plus efficace et efficiente pour obtenir un meilleur raisonnement que de simplement l’étendre de façon séquentielle (en profondeur). Sur des benchmarks de raisonnement exigeants, ParaThinker obtient des gains de précision substantiels par rapport aux LLM séquentiels (en moyenne +12,3 % pour les modèles 1.5B et +7,5 % pour les modèles 7B), tout en n’ajoutant qu’un surcoût de latence minime (7,1 %). Cela permet à des modèles plus petits de dépasser des modèles beaucoup plus grands et établit la pensée parallèle comme une dimension critique et efficiente pour le scaling futur des LLM.
> Recent advances in Large Language Models (LLMs) have been driven by test-time compute scaling - a strategy that improves reasoning by generating longer, sequential thought processes. While effective, this approach encounters a significant bottleneck as computation increases, where further computation offers only marginal performance gains. We argue this ceiling is not an inherent limit of the model's capability but a flaw in the scaling strategy itself, a phenomenon we term "Tunnel Vision", where a model's imperfect initial steps lock it into a suboptimal reasoning path. To overcome this, we introduce a new scaling paradigm: native thought parallelism. We present ParaThinker, an end-to-end framework that trains an LLM to generate multiple, diverse reasoning paths in parallel and synthesize them into a superior final answer. By exploring different lines of thoughts simultaneously, ParaThinker effectively sidesteps the Tunnel Vision issue and unlocks the model's latent reasoning potential. Our approach demonstrates that scaling compute in parallel (width) is a more effective and efficient way to superior reasoning than simply scaling sequentially (depth). On challenging reasoning benchmarks, ParaThinker achieves substantial accuracy improvements over sequential LLMs (12.3% for 1.5B and 7.5% for 7B models on average with 8 parallel paths), while adding only negligible latency overhead (7.1%). This enables smaller models to surpass much larger counterparts and establishes parallel thinking as a critical, efficient dimension for scaling future LLMs.

Lien vers l’article

https://arxiv.org/abs/2509.04475

Fine-tuning en contexte pour les modèles de fondation de séries temporelles / In-Context Fine-Tuning for Time-Series Foundation Models

Présentation de l’article

La prévision de données de séries temporelles est une tâche importante dans de nombreux domaines, et les progrès récents des modèles de fondation pour les séries temporelles ouvrent de nouvelles perspectives sur ce problème. Cette étude propose une nouvelle méthodologie visant à maximiser les performances de ces modèles : le $\textit{in-context fine-tuning}$. Cette approche est conçue pour permettre à un modèle de fondation préentraîné de prédire l’évolution future d’une série temporelle spécifique en s’appuyant sur plusieurs exemples de séries temporelles.

Le modèle proposé est entraîné non seulement sur l’historique de la série cible, mais aussi à partir d’exemples de séries temporelles liées exploités dans la fenêtre de contexte, afin de pouvoir s’adapter, au moment de l’inférence, à la distribution spécifique du domaine cible. Cette approche permet au modèle d’apprendre des motifs issus de séries temporelles variées et, sur cette base, de produire des prévisions plus précises. Les résultats expérimentaux montrent que ce modèle surpasse nettement les méthodes de deep learning supervisé, les modèles statistiques et les autres modèles de fondation pour séries temporelles existants.

En particulier, l’approche d’in-context fine-tuning atteint des performances capables de rivaliser avec celles de modèles explicitement fine-tunés sur le domaine cible, ce qui souligne son caractère innovant. L’architecture du modèle repose sur TimesFM et est conçue pour traiter efficacement les données de séries temporelles. Les exemples d’entrée sont découpés en patches de longueur $p$, puis traités avec un masque de padding afin de garantir la précision des prévisions.

Lors du processus de tokenisation, les patches et le masque sont intégrés pour former des tokens ensuite injectés dans des couches de transformer empilées, à partir desquelles les résultats de prédiction sont produits. Cet enchaînement joue un rôle essentiel dans la capacité du modèle à traiter efficacement les données d’entrée et à prédire la série temporelle sur les $h$ prochaines étapes. Cette étude propose ainsi une nouvelle approche pour la prévision de séries temporelles et démontre empiriquement que l’in-context fine-tuning peut offrir de meilleures performances que les méthodes existantes.

Résumé (Abstract)

Portés par le succès récent des foundation models de séries temporelles pour la prévision zero-shot, nous présentons une méthodologie d’$\textit{affinage en contexte}$ d’un foundation model pour les séries temporelles. Plus précisément, nous concevons un foundation model préentraîné qui peut être guidé, au moment de l’inférence, par plusieurs exemples de séries temporelles afin de prédire l’évolution future d’une série cible. Notre foundation model est spécifiquement entraîné pour exploiter, dans sa fenêtre de contexte, des exemples issus de plusieurs séries temporelles liées — en plus de l’historique de la série cible — afin de l’aider à s’adapter, à l’inférence, à la distribution spécifique du domaine cible. Nous montrons qu’un tel foundation model utilisant des exemples en contexte au moment de l’inférence peut obtenir des performances nettement supérieures sur des benchmarks de prévision populaires par rapport aux méthodes de deep learning supervisé, aux modèles statistiques, ainsi qu’à d’autres foundation models de séries temporelles. Fait intéressant, notre approche d’affinage en contexte rivalise même avec les performances d’un foundation model explicitement affiné sur le domaine cible.
> Motivated by the recent success of time-series foundation models for zero-shot forecasting, we present a methodology for $\textit{in-context fine-tuning}$ of a time-series foundation model. In particular, we design a pretrained foundation model that can be prompted (at inference time) with multiple time-series examples, in order to forecast a target time-series into the future. Our foundation model is specifically trained to utilize examples from multiple related time-series in its context window (in addition to the history of the target time-series) to help it adapt to the specific distribution of the target domain at inference time. We show that such a foundation model that uses in-context examples at inference time can obtain much better performance on popular forecasting benchmarks compared to supervised deep learning methods, statistical models, as well as other time-series foundation models. Interestingly, our in-context fine-tuning approach even rivals the performance of a foundation model that is explicitly fine-tuned on the target domain.

Lien vers l’article

https://arxiv.org/abs/2410.24087

Pour aller plus loin

https://research.google/blog/…

https://icml.cc/virtual/2025/poster/43707

Un seul bit suffit : réseaux de neurones à normalisation binaire / 1 bit is all we need: binary normalized neural networks

Présentation de l’article

Les progrès des grands modèles de réseaux de neurones offrent d’excellentes performances dans divers domaines d’application, mais l’augmentation de leur taille pose des défis en matière d’exigences mémoire et d’efficacité de calcul. Afin de répondre à ces problèmes, cette étude propose un nouveau type de modèle de réseau de neurones, la couche de normalisation binaire (binary normalized layer), qui limite à un seul bit les paramètres de toutes les couches. Cette couche fixe tous les paramètres, y compris les poids du noyau et les biais, à 0 ou 1, et a été conçue pour réduire radicalement l’usage mémoire tout en conservant des performances comparables à celles des modèles utilisant des paramètres classiques en virgule flottante 32 bits.

La couche de normalisation binaire peut être appliquée à diverses architectures de réseaux de neurones, notamment les couches entièrement connectées, les convolutions et l’attention. Pendant l’entraînement, elle utilise deux formes de valeurs — les valeurs 32 bits en pleine précision et leurs versions binarisées — afin de garantir un apprentissage stable. Dans cette étude, deux modèles exploitant la couche de normalisation binaire ont été construits pour résoudre des problèmes de classification d’images multiclasse et de décodage du langage. Les résultats expérimentaux montrent que ces modèles offrent des performances presque identiques à celles des modèles utilisant des paramètres 32 bits classiques, tout en réduisant l’usage mémoire d’un facteur 32.

Cette approche innovante présente un fort potentiel pour améliorer significativement l’efficacité des grands modèles de réseaux de neurones, avec l’avantage supplémentaire de pouvoir être mise en œuvre facilement sur du matériel peu coûteux. Grâce à la couche de normalisation binaire, elle ouvre de nouvelles perspectives pour réduire les besoins mémoire des modèles de réseaux de neurones et accroître leur applicabilité pratique dans divers domaines. Les travaux futurs devraient viser à améliorer encore les performances de la couche de normalisation binaire et à explorer des méthodologies permettant de l’appliquer à un plus large éventail de domaines.

Résumé (Abstract)

Voici le résumé d’un article du domaine AI/ML. L’augmentation de la taille des grands modèles de réseaux de neurones, en particulier les modèles de langage et les foundation models d’image, pose des défis de déploiement, ce qui stimule les efforts visant à réduire les besoins mémoire et à améliorer l’efficacité de calcul. Ces efforts sont essentiels pour garantir le déploiement pratique et l’utilisation efficace de ces modèles dans diverses applications. Cette étude développe un nouveau type de couches et de modèles de réseaux de neurones n’utilisant que des paramètres sur un seul bit. Dans ce nouveau type de modèle, tous les paramètres de toutes les couches, y compris les poids des noyaux et les biais, ne prennent que les valeurs 0 ou 1. Ce nouveau type de modèle repose sur des couches appelées binary normalized layer. Ces binary normalized layers peuvent être de tout type, comme des couches entièrement connectées, convolutionnelles ou d’attention, et consistent en de légères variantes des couches conventionnelles correspondantes. Pour montrer l’efficacité des binary normalized layers, deux modèles ont été construits pour résoudre un problème de classification d’images multiclasses, ainsi qu’un décodeur de langage pour prédire le token suivant d’une séquence. Le modèle de classification d’images se compose de couches convolutionnelles et entièrement connectées, tandis que le modèle de langage est composé de blocs Transformer avec attention multi-head. Les résultats montrent que les modèles avec binary normalized layers obtiennent presque les mêmes résultats que des modèles équivalents utilisant des paramètres réels sur 32 bits. Les binary normalized layers permettent de développer des modèles utilisant 32 fois moins de mémoire que les modèles actuels, pour des performances équivalentes. En outre, les binary normalized layers peuvent être facilement implémentées sur les ordinateurs actuels à l’aide de tableaux sur 1 bit, sans nécessiter le développement d’un matériel électronique dédié. Ce nouveau type de couche ouvre une nouvelle ère pour les grands modèles de réseaux de neurones à besoins mémoire réduits, pouvant être déployés sur un matériel simple et peu coûteux, comme des appareils mobiles ou uniquement des CPU.
> The increasing size of large neural network models, specifically language models and foundational image models, poses deployment challenges, prompting efforts to reduce memory requirements and enhance computational efficiency. These efforts are critical to ensure practical deployment and effective utilization of these models across various applications. In this work, a novel type of neural network layers and models is developed that uses only single-bit parameters. In this novel type of models all parameters of all layers, including kernel weights and biases, only have values equal to zero or one. This novel type of models uses layers named as binary normalized layer. These binary normalized layers can be of any type, such as fully connected, convolutional, attention, etc., and they consist of slight variations of the corresponding conventional layers. To show the effectiveness of the binary normalized layers, two different models are configured to solve a multiclass image classification problem and a language decoder to predict the next token of a sequence. The model to solve the image classification has convolutional and fully connected layers, and the language model is composed of transformer blocks with multi-head attention. The results show that models with binary normalized layers present almost the same results obtained by equivalent models with real 32-bit parameters. The binary normalized layers allow to develop models that use 32 times less memory than current models and have equivalent performance. Besides, the binary normalized layers can be easily implemented on current computers using 1-bit arrays, and do not require the development of dedicated electronic hardware. This novel type of layers opens a new era for large neural network models with reduced memory requirements that can be deployed using simple and cheap hardware, such as mobile devices or only cpus.

Lien vers l’article

https://arxiv.org/abs/2509.07025

Internaliser l’auto-cohérence dans les modèles de langage : alignement par consensus multi-agents / Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment

Présentation de l’article

Les modèles de langage (LM) ont tendance à générer des réponses contradictoires à un même prompt, ce qui se traduit par un raisonnement incohérent. Les méthodes existantes au moment de l’inférence peuvent atténuer ces divergences, mais elles ne résolvent pas le problème fondamental : la difficulté à sélectionner des trajectoires de raisonnement qui mènent à des résultats cohérents. Pour y remédier, cette étude formalise l’auto-cohérence comme une propriété intrinsèque des modèles de raisonnement bien alignés et introduit un cadre d’apprentissage par renforcement appelé Multi-Agent Consensus Alignment (MACA). MACA exploite les résultats majoritaires et minoritaires pour post-entraîner le modèle afin qu’il privilégie les trajectoires de raisonnement alignées avec un consensus interne. Ces trajectoires émergent de discussions approfondies entre agents et produisent des signaux de consensus plus riches grâce à un raisonnement fondé sur les arguments des pairs, plutôt que sur un simple ensemble de tentatives indépendantes. MACA permet aux agents d’apprendre par eux-mêmes à être plus décisifs et concis sans supervision externe, et entraîne des améliorations significatives dans divers contextes : auto-cohérence, raisonnement à agent unique, raisonnement basé sur l’échantillonnage et prise de décision collective multi-agents. Ces résultats montrent un auto-alignement puissant, capable de faire émerger de manière plus fiable le potentiel de raisonnement latent des modèles de langage, avec une forte capacité de généralisation à des benchmarks non vus.

Résumé (Abstract)

Les modèles de langage (LLM) sont des raisonneurs peu cohérents, générant souvent des réponses contradictoires à un même prompt. Si les méthodes d’inférence peuvent atténuer ces incohérences, elles ne résolvent pas le problème central : les LLM peinent à sélectionner de manière fiable des trajectoires de raisonnement menant à des résultats cohérents dans un cadre d’échantillonnage exploratoire. Pour y remédier, nous formalisons l’auto-cohérence comme une propriété intrinsèque des modèles de raisonnement bien alignés et introduisons Multi-Agent Consensus Alignment (MACA). MACA est un cadre d’apprentissage par renforcement de post-entraînement qui utilise les résultats majoritaires/minoritaires de débats multi-agents afin d’amener le modèle à privilégier les trajectoires de raisonnement alignées avec son consensus interne. Ces trajectoires émergent d’échanges délibératifs où les agents fondent leur raisonnement sur les arguments de leurs pairs, produisant ainsi des signaux de consensus plus riches qu’un simple vote majoritaire en un seul tour, au lieu de se limiter à un agrégat de tentatives indépendantes. MACA permet aux agents, sans supervision externe, de mieux exploiter les intuitions de leurs pairs dans des environnements multi-agents, tout en s’auto-enseignant à être plus décisifs et plus concis. Cela se traduit par des améliorations substantielles en auto-cohérence (+27,6 % sur GSM8K), en raisonnement mono-agent (+23,7 % sur MATH), en inférence fondée sur l’échantillonnage (+22,4 % de Pass@20 sur MATH) et en prise de décision par ensemble multi-agents (+42,7 % sur MathQA). Associés à une forte généralisation sur des benchmarks inédits (+16,3 % sur GPQA, +11,6 % sur CommonsenseQA), ces résultats montrent un auto-alignement robuste permettant de mobiliser plus fiablement le potentiel latent de raisonnement des modèles de langage.
> Language Models (LMs) are inconsistent reasoners, often generating contradictory responses to identical prompts. While inference-time methods can mitigate these inconsistencies, they fail to address the core problem: LMs struggle to reliably select reasoning pathways leading to consistent outcomes under exploratory sampling. To address this, we formalize self-consistency as an intrinsic property of well-aligned reasoning models and introduce Multi-Agent Consensus Alignment (MACA), a reinforcement learning framework that post-trains models to favor reasoning trajectories aligned with their internal consensus using majority/minority outcomes from multi-agent debate. These trajectories emerge from deliberative exchanges where agents ground reasoning in peer arguments, not just aggregation of independent attempts, creating richer consensus signals than single-round majority voting. MACA enables agents to teach themselves to be more decisive and concise, and better leverage peer insights in multi-agent settings without external supervision, driving substantial improvements across self-consistency (+27.6% on GSM8K), single-agent reasoning (+23.7% on MATH), sampling-based inference (+22.4% Pass@20 on MATH), and multi-agent ensemble decision-making (+42.7% on MathQA). These findings, coupled with strong generalization to unseen benchmarks (+16.3% on GPQA, +11.6% on CommonsenseQA), demonstrate robust self-alignment that more reliably unlocks latent reasoning potential of language models.

Lien vers l’article

https://arxiv.org/abs/2509.15172

Recherche approfondie universelle : apportez votre propre modèle et votre propre stratégie / Universal Deep Research: Bring Your Own Model and Strategy

Présentation de l’article

Universal Deep Research (UDR) est un système agentique généraliste développé pour dépasser les limites des outils de deep research existants, généralement codés en dur pour exécuter une stratégie de recherche spécifique de manière figée. UDR offre aux utilisateurs la possibilité de créer, modifier et améliorer leur propre stratégie de deep research personnalisée, sans nécessiter d’apprentissage supplémentaire ni de finetuning, ce qui constitue une avancée notable. Le système démontre cette généralité à travers divers exemples, allant de stratégies de recherche minimales à des stratégies étendues et intensives.

Le cœur d’UDR réside dans son interface utilisateur, pensée pour faciliter l’expérimentation et permettre aux chercheurs d’explorer librement leurs propres stratégies de recherche. Cette approche donne aux chercheurs l’occasion de développer des méthodologies originales sans dépendre d’outils existants. En particulier, UDR enveloppe différents modèles de langage, offrant ainsi la flexibilité de choisir le modèle préféré de l’utilisateur.

Cette recherche contribue à l’évolution des outils de deep research et met l’accent sur la capacité des chercheurs à élaborer des stratégies de recherche plus créatives et personnalisées. L’introduction d’UDR devrait jouer un rôle important dans l’amélioration de l’efficacité et de l’impact des travaux de recherche. À ce titre, UDR s’impose comme un système innovant ouvrant de nouvelles possibilités dans le domaine de la deep research.

Résumé de l’article (Abstract)

Les outils de deep research comptent aujourd’hui parmi les systèmes agentiques les plus influents et les plus couramment rencontrés. Nous observons toutefois que chaque agent de deep research présenté jusqu’ici est codé en dur pour exécuter une stratégie de recherche particulière à l’aide d’un choix d’outils fixe. Nous présentons Universal Deep Research (UDR), un système agentique généraliste qui s’appuie sur n’importe quel modèle de langage et permet à l’utilisateur de créer, modifier et affiner ses propres stratégies de deep research entièrement personnalisées, sans nécessiter d’apprentissage supplémentaire ni de finetuning. Pour montrer la généralité de notre système, nous dotons UDR d’exemples de stratégies de recherche minimales, extensives et intensives, et fournissons une interface utilisateur destinée à faciliter l’expérimentation avec le système.
> Deep research tools are among the most impactful and most commonly encountered agentic systems today. We observe, however, that each deep research agent introduced so far is hard-coded to carry out a particular research strategy using a fixed choice of tools. We introduce Universal Deep Research (UDR), a generalist agentic system that wraps around any language model and enables the user to create, edit, and refine their own entirely custom deep research strategies without any need for additional training or finetuning. To showcase the generality of our system, we equip UDR with example minimal, expansive, and intensive research strategies, and provide a user interface to facilitate experimentation with the system.

Lien vers l’article

https://arxiv.org/abs/2509.00244

AlphaAgents : systèmes multi-agents fondés sur des grands modèles de langage pour la construction de portefeuilles d’actions / AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

Présentation de l’article

Les progrès des grands modèles de langage (LLM) contribuent à maximiser l’efficacité et l’adaptabilité des agents d’intelligence artificielle (IA), ouvrant ainsi la voie à la collaboration multi-agents pour la résolution de problèmes complexes. Cette étude explore une approche fondée sur les rôles dans la sélection de titres et la gestion de portefeuille à l’aide d’un tel système multi-agents. L’objectif principal de la recherche est d’évaluer la performance de sélection d’actions de plusieurs agents IA collaborant entre eux, puis de la comparer à des benchmarks existants.

Le système multi-agents se compose d’agents spécialisés dans différents domaines, comme l’analyse fondamentale, l’analyse de sentiment et l’évaluation, qui discutent de leurs points de vue respectifs afin de construire un portefeuille optimal. L’étude sélectionne aléatoirement 15 actions technologiques et évalue les performances via du backtesting, en analysant l’efficacité du portefeuille à partir du rendement ajusté du risque et du ratio de Sharpe. Cette méthodologie montre qu’un processus de décision collaboratif entre plusieurs agents peut potentiellement déboucher sur de meilleures stratégies d’investissement.

Cette recherche analyse les avantages et les limites des systèmes multi-agents et propose une manière d’améliorer la prise de décision en intégrant les différents points de vue fournis par les agents IA. Toutefois, la mise en œuvre de tels systèmes pose encore des défis, notamment la vérification de la cohérence logique via une relecture humaine. Les résultats montrent que les systèmes multi-agents peuvent offrir une approche innovante de la construction de portefeuilles d’actions, et les travaux futurs prévoient d’explorer une fonction d’ajustement des pondérations des actions en fonction du niveau de fiabilité du LLM.

Ces travaux contribuent au développement de stratégies d’investissement fondées sur l’IA et mettent en évidence le potentiel d’usage des systèmes multi-agents.

Résumé de l’article (Abstract)

Le domaine des agents d’intelligence artificielle (IA) évolue rapidement grâce aux capacités des grands modèles de langage (LLM), qui peuvent exécuter et améliorer des tâches de manière autonome avec une efficacité et une adaptabilité proches de celles des humains. Dans ce contexte, la collaboration multi-agents s’impose comme une approche prometteuse, permettant à plusieurs agents IA de travailler ensemble pour résoudre des problèmes complexes. Cette étude examine l’application de systèmes multi-agents fondés sur les rôles pour soutenir la sélection d’actions dans la recherche actions et la gestion de portefeuille. Nous présentons une analyse complète menée par une équipe d’agents spécialisés et évaluons leur performance de stock-picking par rapport à des benchmarks établis sous différents niveaux de tolérance au risque. En outre, nous examinons les avantages et les limites de l’emploi de frameworks multi-agents dans l’analyse actions, en apportant des éclairages essentiels sur leur efficacité pratique et sur les défis liés à leur mise en œuvre.
> The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

Lien vers l’article

https://arxiv.org/abs/2508.11152

Survey sur l’apprentissage par renforcement pour les grands modèles de raisonnement / A Survey of Reinforcement Learning for Large Reasoning Models

Présentation de l’article

L’apprentissage par renforcement (Reinforcement Learning, RL) joue un rôle clé dans l’amélioration des capacités de raisonnement des grands modèles de langage (Large Language Models, LLM), et cet article examine l’évolution vers les grands modèles de raisonnement (Large Reasoning Models, LRM) via le RL. Le RL a montré des résultats particulièrement marquants sur des tâches logiques complexes comme la résolution de problèmes mathématiques et le codage, au point de s’imposer comme une méthodologie de base pour transformer les LLM en LRM. Toutefois, l’extension du RL aux LRM se heurte à plusieurs défis en matière de ressources de calcul, de conception algorithmique, de données d’entraînement et d’infrastructure.

Cette étude passe en revue divers travaux appliquant le RL à l’amélioration des capacités de raisonnement des LLM et des LRM, en analysant notamment les composants fondamentaux du RL — comme la conception de la récompense, l’optimisation de politique et les stratégies d’échantillonnage — à la lumière des avancées récentes, dont le modèle DeepSeek-R1. La conception de la récompense constitue un signal crucial qui détermine la direction de l’apprentissage du modèle, et l’importance de mécanismes de récompense vérifiables y est soulignée. L’optimisation de politique correspond au processus par lequel le modèle apprend à choisir les meilleures actions, avec des algorithmes fondés sur un critique et d’autres qui en sont dépourvus. Les stratégies d’échantillonnage, quant à elles, sont abordées comme un moyen d’améliorer l’efficacité du RL, notamment via l’échantillonnage dynamique et l’ajustement des hyperparamètres.

L’article met en avant l’importance d’un processus d’entraînement intégré des LLM par le RL, ainsi que celle de la qualité et de la structure des ressources d’entraînement. Il illustre aussi l’utilité pratique du RL à travers des cas d’usage en génie logiciel et en robotique. En particulier, l’intégration du RL au paradigme des agents fait progresser la génération de code et produit également des résultats probants sur des tâches multimodales. Ces travaux proposent de nouvelles pistes pour améliorer les capacités de raisonnement des LLM et devraient, à terme, contribuer à jeter les bases de l’Artificial SuperIntelligence (ASI).

Résumé de l’article (Abstract)

Cet article passe en revue les avancées récentes de l’apprentissage par renforcement (RL) pour le raisonnement avec les grands modèles de langage (LLM). Le RL a obtenu des résultats remarquables pour repousser les capacités des LLM, en particulier dans la résolution de tâches logiques complexes comme les mathématiques et le code. En conséquence, le RL s’est imposé comme une méthodologie fondamentale pour transformer les LLM en LRM. Avec les progrès rapides du domaine, l’extension supplémentaire du RL pour les LRM se heurte désormais à des défis fondamentaux, non seulement en matière de ressources de calcul, mais aussi de conception algorithmique, de données d’entraînement et d’infrastructure. Il est donc opportun de revenir sur l’évolution de ce domaine, de réévaluer sa trajectoire et d’explorer des stratégies pour améliorer la scalabilité du RL vers la superintelligence artificielle (ASI). En particulier, nous examinons les travaux appliquant le RL aux LLM et aux LRM pour les capacités de raisonnement, notamment depuis la sortie de DeepSeek-R1, en couvrant les composants fondamentaux, les problèmes centraux, les ressources d’entraînement et les applications en aval, afin d’identifier les opportunités et orientations futures de ce domaine en évolution rapide. Nous espérons que cette revue favorisera les recherches futures sur le RL pour des modèles de raisonnement plus larges. GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
> In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

Lien vers l’article

https://arxiv.org/abs/2509.08827

Pour aller plus loin

https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

⚠️Publicité⚠️ : Cet article compilé par 🔥PyTorch Korea User Group🇰🇷 vous a été utile ? Inscrivez-vous comme membre et nous vous enverrons les principaux articles par e-mail💌 ! (Par défaut, c’est Weekly, mais vous pouvez aussi passer en Daily.)

[2025/09/22 ~ 28] Sélection d’articles AI/ML à suivre cette semaine