[2025/09/15 ~ 21] Sélection de publications AI/ML à surveiller cette semaine
(discuss.pytorch.kr)PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Intégration et optimisation des modèles multimodaux : des publications récentes proposent diverses approches pour améliorer les performances des Unified Multimodal Models (UMM). Par exemple, « Reconstruction Alignment » présente une méthode qui réaligne les capacités de compréhension et de génération du modèle en combinant image et texte, tandis que « AToken » développe un tokenizer unifié pour les images, la vidéo et les assets 3D afin de traiter différents types d’entrées visuelles. Ces travaux posent les bases des avancées futures des systèmes d’IA multimodaux.
2️⃣ Conception de systèmes de données centrés sur les agents : les articles « Supporting Our AI Overlords » et « Scaling Agents via Continual Pre-training » soutiennent que les agents fondés sur des grands modèles de langage (LLM) joueront un rôle majeur dans les systèmes de données. Ils soulignent que ces agents doivent apprendre via des interactions dans des environnements variés afin de développer les capacités nécessaires à la manipulation et à l’analyse des données. Cela ouvre de nouvelles perspectives de recherche pour la conception d’architectures de systèmes de données agent-first.
3️⃣ Apprentissage autonome et modèles évolutifs : l’article « R-Zero » met en avant la nécessité de modèles capables de générer leurs propres données et d’apprendre de manière autonome. Alors que les méthodes existantes dépendent de tâches et de labels affinés par des humains, R-Zero produit un curriculum d’apprentissage auto-évolutif grâce à deux modèles qui proposent et résolvent eux-mêmes des tâches. Cette approche devrait jouer un rôle important dans l’évolution de systèmes d’IA capables de dépasser l’intelligence humaine.
Reconstruction Alignment améliore les Unified Multimodal Models / Reconstruction Alignment Improves Unified Multimodal Models
Présentation de l’article
Les Unified Multimodal Models (UMM) constituent une approche innovante qui unifie les capacités de compréhension visuelle et de génération pour exécuter une grande variété de tâches. Cependant, les méthodes d’entraînement existantes reposent sur des paires image-texte, ce qui fait que les légendes ont tendance à manquer des informations visuelles détaillées et entraîne une baisse des performances. Pour dépasser cette limite, la méthode proposée est Reconstruction Alignment (RecA). RecA est une technique de post-training économe en ressources qui utilise les embeddings de l’encodeur de compréhension visuelle comme « text prompts » denses afin de fournir un signal de supervision riche sans recourir à des légendes.
Le cœur de RecA réside dans le fait d’optimiser l’UMM pour qu’il reconstruise l’image d’entrée en se conditionnant sur ses propres embeddings de compréhension visuelle. Dans ce processus, une perte de reconstruction auto-supervisée est utilisée pour aligner les capacités de compréhension et de génération du modèle, ce qui permet d’exploiter plus efficacement l’information visuelle. RecA peut être appliqué à diverses architectures, notamment les UMM autoregressive, masked-autoregressive et diffusion-based, et montre des améliorations constantes en matière de fidélité de génération et d’édition.
Les résultats expérimentaux montrent qu’après application de RecA, les performances de génération d’images sur GenEval passent de 0.73 à 0.90, et de 80.93 à 88.15 sur DPGBench. En outre, sur les benchmarks d’édition d’images, les scores augmentent respectivement de 3.38 à 3.75 sur ImgEdit et de 6.94 à 7.25 sur GEdit. Ces résultats montrent que RecA dépasse les performances de grands modèles open source existants et qu’il peut être largement appliqué à diverses architectures UMM.
RecA apparaît comme une méthode efficace pour aligner les capacités de compréhension et de génération des UMM, avec le potentiel de s’imposer comme une stratégie de post-training économe en ressources. Les recherches futures devront élargir son champ d’application et évaluer ses performances sur d’autres tâches multimodales. Ces travaux devraient contribuer aux progrès des modèles multimodaux.
Résumé de l’article (Abstract)
Les Unified Multimodal Models (UMM) unifient compréhension visuelle et génération au sein d’une architecture unique. Cependant, les approches d’entraînement classiques reposent généralement sur des paires image-texte (ou des séquences) dont les légendes sont souvent clairsemées et manquent de détails visuels fins, même lorsqu’elles utilisent des centaines de mots pour décrire une image simple. Nous présentons Reconstruction Alignment (RecA), une méthode de post-training économe en ressources qui exploite les embeddings de l’encodeur de compréhension visuelle comme « text prompts » denses, offrant une supervision riche sans légendes. Plus précisément, RecA conditionne un UMM sur ses propres embeddings de compréhension visuelle et l’optimise pour reconstruire l’image d’entrée au moyen d’une perte de reconstruction auto-supervisée, réalignant ainsi compréhension et génération. Malgré sa simplicité, RecA est largement applicable à différents UMM autoregressive, masked-autoregressive et diffusion-based, et améliore de manière constante la fidélité de génération et d’édition. Avec seulement 27 GPU-heures, le post-training avec RecA améliore fortement les performances de génération d’images sur GenEval (0.73$\rightarrow$0.90) ainsi que sur DPGBench (80.93$\rightarrow$88.15), tout en améliorant aussi les benchmarks d’édition (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Fait notable, RecA dépasse des modèles open source bien plus grands et s’applique largement à des architectures UMM variées, s’imposant comme une stratégie d’alignement de post-training à la fois efficace et générale pour les UMM.
Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs
Lien vers l’article
https://arxiv.org/abs/2509.07295
Soutenir nos seigneurs de l’IA : repenser les systèmes de données selon une approche agent-first / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First
Présentation de l’article
La manière dont les agents de grands modèles de langage (LLM) manipulent et analysent les données devrait entraîner un changement majeur dans l’avenir des systèmes de données. Ces agents exécutent leurs tâches via un processus de spéculation agentique (agentic speculation), dans lequel ils explorent rapidement et proposent des solutions en fonction des demandes des utilisateurs. Cependant, le volume massif et l’inefficacité de cette spéculation agentique peuvent constituer un défi pour les systèmes de données actuels. Les systèmes de données doivent donc évoluer pour prendre en charge nativement ces charges de travail agentiques.
Cette étude met en avant des opportunités de recherche autour d’une nouvelle architecture de système de données orientée agent, en exploitant les caractéristiques de la spéculation agentique : l’échelle, l’hétérogénéité, la redondance et la pilotabilité. Elle explore ainsi des approches innovantes, telles que de nouvelles interfaces de requête, de nouvelles techniques de traitement des requêtes et des magasins de mémoire agentique. En particulier, si les agents deviennent le principal mécanisme d’interaction avec les données, cela pourrait ouvrir la voie à des gains de productivité significatifs pour les systèmes de données.
À travers des études de cas, les auteurs analysent les caractéristiques des charges de travail agentiques et identifient des opportunités d’optimisation. La première étude exploite le jeu de données BIRD pour examiner comment les LLM améliorent leur précision en augmentant le nombre de requêtes, tandis que la seconde réalise une tâche complexe consistant à combiner des informations issues de deux bases de données. Ces résultats montrent que la spéculation agentique a le potentiel d’améliorer l’efficacité des systèmes de données.
Enfin, les auteurs proposent des magasins de mémoire agentique et un nouveau framework transactionnel afin d’explorer des moyens de résoudre la redondance et l’hétérogénéité qui apparaissent durant la phase d’exploration de la spéculation agentique. Cette approche souligne la nécessité de repenser les systèmes de données autour des agents et propose une nouvelle vision pour les recherches à venir.
Résumé de l’article (Abstract)
Les agents de grands modèles de langage (LLM), qui manipulent et analysent les données au nom des utilisateurs, sont susceptibles de devenir la charge de travail dominante des systèmes de données à l’avenir. Lorsqu’ils travaillent sur des données, les agents utilisent un processus à haut débit d’exploration et de formulation de solutions pour la tâche donnée, que nous appelons spéculation agentique (agentic speculation). Le volume considérable et les inefficacités de la spéculation agentique peuvent poser des défis aux systèmes de données actuels. Nous soutenons que les systèmes de données doivent s’adapter afin de prendre en charge plus nativement les charges de travail agentiques. Nous exploitons les caractéristiques de la spéculation agentique que nous identifions — à savoir l’échelle, l’hétérogénéité, la redondance et la pilotabilité — pour présenter plusieurs opportunités de recherche autour d’une nouvelle architecture de système de données orientée agent, allant de nouvelles interfaces de requête à de nouvelles techniques de traitement des requêtes, jusqu’à de nouveaux magasins de mémoire agentique.
Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.
Lien vers l’article
https://arxiv.org/abs/2509.00997
AToken : un tokenizer unifié pour la vision / AToken: A Unified Tokenizer for Vision
Présentation de l’article
AToken est le premier tokenizer visuel unifié capable d’atteindre simultanément une reconstruction haute fidélité et une compréhension sémantique sur des images, des vidéos et des assets 3D. Alors que les tokenizers existants sont spécialisés soit dans la reconstruction, soit dans la compréhension pour une seule modalité, AToken encode différents types d’entrées visuelles dans un espace latent 4D partagé, unifiant ainsi ces deux tâches et ces modalités au sein d’un seul framework. Le système introduit une architecture purement Transformer avec des embeddings positionnels rotatifs 4D afin de traiter des entrées visuelles de résolution et de durée temporelle arbitraires. Pour garantir un apprentissage stable, AToken propose un objectif d’apprentissage sans adversarial combinant perte perceptuelle et perte gram-matrix, ce qui lui permet d’atteindre une qualité de reconstruction de pointe. Grâce à un curriculum d’apprentissage progressif, AToken s’étend progressivement de l’image unique à la vidéo et à la 3D, tout en prenant en charge des tokens latents continus et discrets. AToken atteint 0,21 de rFID et 82,2 % de précision sur ImageNet pour les images, 3,01 de rFVD et 32,6 % de performance de recherche sur MSRVTT pour la vidéo, ainsi que 28,19 de PSNR et 90,9 % de précision de classification pour la 3D. Dans les applications downstream, AToken permet à la fois des tâches de génération visuelle, comme la génération d’images, la génération texte-vers-vidéo ou la synthèse image-vers-3D, et des tâches de compréhension, comme les grands modèles de langage multimodaux (LLM), avec des performances compétitives sur l’ensemble des benchmarks. Ces résultats montrent le potentiel des systèmes d’IA multimodaux de nouvelle génération fondés sur une tokenisation visuelle unifiée.
Résumé de l’article (Abstract)
Nous présentons AToken, le premier tokenizer visuel unifié qui parvient à la fois à une reconstruction haute fidélité et à une compréhension sémantique sur des images, des vidéos et des assets 3D. Contrairement aux tokenizers existants, spécialisés soit dans la reconstruction soit dans la compréhension pour une seule modalité, AToken encode ces diverses entrées visuelles dans un espace latent 4D partagé, unifiant les deux tâches et les différentes modalités dans un framework unique. Plus précisément, nous introduisons une architecture purement Transformer avec des embeddings positionnels rotatifs 4D pour traiter des entrées visuelles de résolution arbitraire et de durée temporelle variable. Afin d’assurer un apprentissage stable, nous introduisons un objectif d’apprentissage sans adversarial qui combine perte perceptuelle et perte de matrice de Gram, et permet d’atteindre une qualité de reconstruction de pointe. En s’appuyant sur un curriculum d’apprentissage progressif, AToken s’étend progressivement des images uniques à la vidéo et à la 3D, tout en prenant en charge à la fois des tokens latents continus et discrets. AToken obtient 0,21 de rFID et 82,2 % de précision sur ImageNet pour les images, 3,01 de rFVD et 32,6 % de taux de recherche sur MSRVTT pour les vidéos, ainsi que 28,19 de PSNR et 90,9 % de précision de classification pour la 3D. Dans les applications en aval, AToken rend possibles à la fois des tâches de génération visuelle (par ex. génération d’images avec des tokens continus et discrets, génération texte-vers-vidéo, synthèse image-vers-3D) et des tâches de compréhension (par ex. grands modèles de langage multimodaux), en obtenant des performances compétitives sur tous les benchmarks. Ces résultats apportent un éclairage sur les systèmes d’IA multimodaux de nouvelle génération construits sur une tokenisation visuelle unifiée.
Nous présentons AToken, le premier tokenizer visuel unifié qui atteint à la fois une reconstruction haute fidélité et une compréhension sémantique sur les images, les vidéos et les ressources 3D. Contrairement aux tokenizers existants, spécialisés soit dans la reconstruction soit dans la compréhension pour une seule modalité, AToken encode ces différentes entrées visuelles dans un espace latent 4D partagé, unifiant à la fois les tâches et les modalités dans un cadre unique. Plus précisément, nous introduisons une architecture purement basée sur des transformers avec des embeddings de position rotatifs 4D pour traiter des entrées visuelles de résolution et de durée temporelle arbitraires. Pour garantir un entraînement stable, nous introduisons un objectif d'entraînement sans adversarial qui combine des pertes perceptuelles et de matrice de Gram, atteignant une qualité de reconstruction de niveau state of the art. Grâce à un curriculum d'entraînement progressif, AToken s'étend graduellement des images seules aux vidéos et à la 3D, et prend en charge à la fois des tokens latents continus et discrets. AToken atteint un rFID de 0,21 avec 82,2 % d'accuracy sur ImageNet pour les images, un rFVD de 3,01 avec 32,6 % de retrieval sur MSRVTT pour les vidéos, et un PSNR de 28,19 avec 90,9 % d'accuracy de classification pour la 3D. Dans les applications downstream, AToken permet à la fois des tâches de génération visuelle (par ex. génération d'images avec des tokens continus et discrets, génération texte-vers-vidéo, synthèse image-vers-3D) et des tâches de compréhension (par ex. LLM multimodaux), avec des performances compétitives sur l'ensemble des benchmarks. Ces résultats éclairent la prochaine génération de systèmes d'IA multimodale construits sur une tokenisation visuelle unifiée.
Lien vers l'article
https://arxiv.org/abs/2509.14476
Vers une intelligence agentique générale grâce à l'extension de l'environnement / Towards General Agentic Intelligence via Environment Scaling
Présentation de l'article
L'intelligence agentique avancée s'impose comme un élément indispensable pour déployer efficacement les grands modèles de langage (LLM) dans des applications réelles. Les différentes API du monde réel exigent une intelligence d'appel de fonctions précise et robuste, ce qui implique que les agents développent ces capacités par l'interaction dans des environnements variés. Cette étude propose d'étendre les environnements comme étape vers l'amélioration de l'intelligence agentique générale, afin de relever deux défis majeurs. Le premier consiste à déterminer comment étendre les environnements de manière fondée en principe, et le second à apprendre efficacement les capacités des agents à travers l'interaction avec ces environnements.
Pour répondre à ces problèmes, les chercheurs ont conçu un framework scalable permettant de construire automatiquement des environnements hétérogènes. Ce framework met l'accent sur l'extension systématique d'environnements entièrement simulés afin d'élargir l'espace des scénarios d'appel de fonctions. En outre, il introduit une stratégie de fine-tuning des agents en deux étapes : dans la première, l'agent acquiert des capacités agentiques de base ; dans la seconde, il se spécialise en fonction du contexte propre à un domaine.
La méthodologie de construction et d'extension des environnements proposée dans cette étude comprend un pipeline systématique qui collecte plus de 30 000 API et dérive des partitions et distributions de domaines via une modélisation de graphes de dépendance entre outils. Cela permet à l'agent d'initialiser l'état de l'environnement et de générer des séquences valides en échantillonnant des séquences d'outils logiquement cohérentes à partir de graphes d'outils spécifiques à chaque domaine. Ce processus garantit la cohérence de l'état au niveau de la base de données ainsi qu'une correspondance exacte des séquences d'outils, améliorant fortement les capacités d'appel de fonctions de l'agent.
En conséquence, le modèle AgentScaler développé dans cette recherche améliore de façon marquée les capacités d'appel de fonctions des agents, et devrait contribuer de manière importante aux futurs progrès de l'intelligence agentique. Cette approche aide les agents à fonctionner efficacement dans des environnements variés et contribue à élargir encore les possibilités d'application concrète de l'intelligence agentique.
Résumé(Abstract)
L'intelligence agentique avancée est une condition préalable au déploiement de grands modèles de langage dans des applications réelles. Les diverses API du monde réel exigent une intelligence d'appel de fonctions précise et robuste, ce qui implique que les agents doivent développer ces capacités par l'interaction dans des environnements variés. L'étendue des capacités d'appel de fonctions est étroitement liée à la diversité des environnements dans lesquels les agents sont entraînés. Dans ce travail, nous étendons les environnements comme étape vers l'amélioration de l'intelligence agentique générale. Cela soulève deux défis clés : (i) comment étendre les environnements de manière fondée en principe, (ii) comment entraîner efficacement les capacités des agents à partir de l'expérience acquise par interaction avec ces environnements. Pour y répondre, nous concevons un framework scalable qui construit automatiquement des environnements hétérogènes et élargit systématiquement l'espace des scénarios d'appel de fonctions. Nous appliquons également une stratégie de fine-tuning des agents en deux étapes, qui dote d'abord l'agent de capacités agentiques de base avant de le spécialiser dans des contextes propres à chaque domaine. Grâce à des expériences approfondies sur les benchmarks pour agents tau-bench, tau2-Bench et ACEBench, nous montrons que notre modèle entraîné, AgentScaler, améliore significativement les capacités d'appel de fonctions du modèle.
Advanced agentic intelligence est un prérequis au déploiement des Large Language Models dans des applications pratiques du monde réel. Les API variées du monde réel exigent une intelligence d’appel de fonctions précise et robuste, ce qui suppose que les agents développent ces capacités au travers d’interactions dans des environnements variés. L’étendue de la compétence en function calling est étroitement liée à la diversité des environnements dans lesquels les agents sont entraînés. Dans ce travail, nous faisons passer les environnements à l’échelle comme étape vers l’avancement d’une intelligence agentique générale. Cela soulève deux défis centraux : (i) comment faire évoluer les environnements de manière fondée, et (ii) comment entraîner efficacement des capacités agentiques à partir d’expériences issues d’interactions avec ces environnements. Pour y répondre, nous concevons un framework scalable qui construit automatiquement des environnements hétérogènes entièrement simulés, élargissant systématiquement l’espace des scénarios de function calling. Nous adaptons en outre une stratégie de fine-tuning d’agents en deux phases : d’abord doter les agents de capacités agentiques fondamentales, puis les spécialiser pour des contextes spécifiques à un domaine. Des expériences approfondies sur des benchmarks agentiques, tau-bench, tau2-Bench et ACEBench, montrent que notre modèle entraîné, AgentScaler, améliore significativement la capacité de function calling des modèles.
Lien vers l’article
https://arxiv.org/abs/2509.13311
Pour aller plus loin
https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
L’apprentissage en contexte est-il un apprentissage ? / Is In-Context Learning Learning?
Présentation de l’article
L’In-Context Learning (ICL) montre que les modèles autorégressifs peuvent résoudre diverses tâches via la prédiction du prochain token, sans entraînement supplémentaire. Cette approche a conduit à l’idée que le modèle peut résoudre des tâches inédites à partir de seulement quelques exemples, mais le débat demeure quant au fait de savoir si l’ICL réalise réellement un apprentissage. Cette étude soutient que l’ICL constitue mathématiquement une forme d’apprentissage, tout en soulignant qu’une analyse empirique est nécessaire pour en comprendre pleinement les caractéristiques.
À travers une analyse à grande échelle, les auteurs évaluent les performances de l’ICL en tenant compte de la mémorisation, du préentraînement, des changements de distribution, ainsi que de la sensibilité au style et à la syntaxe des prompts. Les résultats montrent que l’ICL fonctionne comme un paradigme d’apprentissage efficace, mais qu’il présente des limites dans sa capacité à généraliser à des tâches inédites. En particulier, à mesure que le nombre d’exemples augmente, la précision devient moins sensible à la distribution des exemples, au modèle ou au style du prompt, et l’on observe plutôt une tendance à inférer des motifs à partir de la régularité du prompt. Cela a notamment entraîné une sensibilité distributionnelle dans certains styles de prompt comme le Chain-of-Thought.
Les écarts de précision entre des tâches formellement similaires indiquent que l’encodage ad hoc des modèles autorégressifs n’est pas un mécanisme d’apprentissage robuste et suggèrent une généralisation d’usage général limitée. Cette étude met en évidence que l’ICL fonctionne comme un mécanisme d’apprentissage, tout en révélant clairement ses limites et son comportement, et montre que les performances des LLM (grands modèles de langage) peuvent varier selon la distribution des données. Ces résultats constituent une contribution importante à l’exploration du potentiel de l’ICL et devraient aider les futurs travaux à mieux comprendre ses caractéristiques et ses limites.
Résumé de l’article (Abstract)
L’apprentissage en contexte (In-Context Learning, ICL) permet à certains modèles autorégressifs de résoudre des tâches via la prédiction du prochain token, sans nécessiter d’entraînement supplémentaire. Cela a conduit à des affirmations selon lesquelles ces modèles seraient capables de résoudre (d’apprendre) des tâches inédites avec seulement quelques shots (exemples) dans le prompt. Cependant, la déduction n’implique pas toujours l’apprentissage, car l’ICL n’encode pas explicitement une observation donnée. À la place, les modèles s’appuient sur leurs connaissances préalables et, le cas échéant, sur les exemples fournis. Nous soutenons que, d’un point de vue mathématique, l’ICL constitue bien une forme d’apprentissage, mais que sa caractérisation complète nécessite un travail empirique. Nous menons ensuite une analyse à grande échelle de l’ICL en isolant ou en prenant en compte la mémorisation, le préentraînement, les changements de distribution, ainsi que le style et la formulation des prompts. Nous constatons que l’ICL est un paradigme d’apprentissage efficace, mais limité dans sa capacité à apprendre et à généraliser à des tâches inédites. Nous observons que, lorsque le nombre d’exemples devient important, la précision devient insensible à la distribution des exemples, au modèle, au style du prompt et aux caractéristiques linguistiques de l’entrée. À la place, il infère des motifs à partir des régularités du prompt, ce qui entraîne une sensibilité distributionnelle, en particulier dans des styles de prompt comme le chain-of-thought. Compte tenu des variations de précision sur des tâches formellement similaires, nous concluons que l’encodage ad hoc de l’autorégression n’est pas un mécanisme robuste et suggère une généralisation polyvalente limitée.
In-context learning (ICL) allows some autoregressive models to solve tasks via next-token prediction and without needing further training. This has led to claims about these model's ability to solve (learn) unseen tasks with only a few shots (exemplars) in the prompt. However, deduction does not always imply learning, as ICL does not explicitly encode a given observation. Instead, the models rely on their prior knowledge and the exemplars given, if any. We argue that, mathematically, ICL does constitute learning, but its full characterisation requires empirical work. We then carry out a large-scale analysis of ICL ablating out or accounting for memorisation, pretraining, distributional shifts, and prompting style and phrasing. We find that ICL is an effective learning paradigm, but limited in its ability to learn and generalise to unseen tasks. We note that, in the limit where exemplars become more numerous, accuracy is insensitive to exemplar distribution, model, prompt style, and the input's linguistic features. Instead, it deduces patterns from regularities in the prompt, which leads to distributional sensitivity, especially in prompting styles such as chain-of-thought. Given the varied accuracies on formally similar tasks, we conclude that autoregression's ad-hoc encoding is not a robust mechanism, and suggests limited all-purpose generalisability.
Lien vers l’article
https://arxiv.org/abs/2509.10414
DeepDive : faire progresser les agents de recherche approfondie avec les graphes de connaissances et le RL multi-tour / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL
Présentation de l’article
DeepDive propose une approche innovante qui exploite les graphes de connaissances (Knowledge Graph, KG) et l’apprentissage par renforcement multi-tour (Multi-Turn Reinforcement Learning, RL) afin de faire évoluer les grands modèles de langage (LLM) en agents de recherche approfondie. Les LLM existants souffrent de performances limitées lorsqu’ils sont intégrés à des outils de navigation, en raison d’une capacité insuffisante de raisonnement à long terme et d’un manque de données de supervision suffisantes pour résoudre des questions complexes. Pour répondre à ces problèmes, DeepDive introduit deux techniques majeures.
Premièrement, la méthode développe un procédé de synthèse automatique de questions complexes et difficiles à trouver à l’aide de KG. Les KG représentent de manière structurée les entités et leurs relations, offrant ainsi un environnement dans lequel l’agent peut effectuer un raisonnement de long horizon. Dans ce processus, des marches aléatoires augmentent la complexité et l’ambiguïté des questions, tandis que des LLM sont utilisés pour générer des paires question-réponse difficiles. Cette synthèse automatisée de données fournit des données de haute qualité, nécessaires à l’entraînement des agents de recherche approfondie.
Deuxièmement, DeepDive applique un RL multi-tour de bout en bout afin d’améliorer la capacité de raisonnement à long terme des LLM. Cette méthode inclut une structure de récompense rigoureuse qui aide l’agent à apprendre étape par étape comment chercher, quoi chercher et quand arrêter la recherche. Le RL multi-tour permet à l’agent d’atteindre la réponse finale grâce à des raisonnements itératifs et des appels d’outils, ce qui contribue fortement à améliorer ses capacités de recherche approfondie.
Les résultats expérimentaux de DeepDive montrent l’obtention d’un nouveau résultat open source compétitif sur BrowseComp, avec des performances supérieures à plusieurs modèles existants. Cette étude apporte une contribution importante à l’amélioration des performances des agents de recherche approfondie, renforce la reproductibilité grâce à la publication du dataset et du code, et fournit une base pour les travaux futurs. DeepDive propose une nouvelle approche pour résoudre des problèmes complexes de recherche d’information et contribue à élargir encore davantage le champ d’application des LLM.
Résumé (Abstract)
L’ajout d’outils de navigation aux grands modèles de langage (LLM) améliore considérablement leur potentiel en tant qu’agents de recherche approfondie capables de résoudre des tâches complexes du monde réel. Cependant, les LLM ouverts restent peu performants dans de tels contextes en raison de capacités limitées de raisonnement de long horizon avec des outils de navigation et du manque de données supervisées suffisamment difficiles. Pour relever ces défis, nous présentons DeepDive afin de faire progresser les agents de recherche approfondie. Premièrement, nous proposons une stratégie permettant de synthétiser automatiquement, à partir de graphes de connaissances ouverts, des questions complexes, difficiles et ardues à trouver. Deuxièmement, nous appliquons un apprentissage par renforcement (RL) multi-tour de bout en bout afin de renforcer le raisonnement de long horizon des LLM dans la recherche approfondie. Les expériences montrent que DeepDive-32B atteint un nouveau résultat open source compétitif sur BrowseComp, surpassant WebSailor, DeepSeek-R1-Browse et Search-o1. Nous démontrons que l’entraînement en RL multi-tour améliore la capacité de recherche approfondie et contribue significativement aux gains de performance sur plusieurs benchmarks. Nous observons également que DeepDive permet une mise à l’échelle des appels d’outils au moment de l’inférence ainsi qu’un échantillonnage parallèle. Tous les datasets, modèles et le code sont publiquement disponibles sur https://github.com/THUDM/DeepDive.
> Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.
Lien vers l’article
https://arxiv.org/abs/2509.10446
Pour aller plus loin
https://github.com/THUDM/DeepDive
Étude sur l’ancrage temporel vidéo à l’aide de grands modèles de langage multimodaux / A Survey on Video Temporal Grounding with Multimodal Large Language Model
Présentation de l’article
Le domaine du Video Temporal Grounding (VTG) joue un rôle important dans l’identification et la compréhension d’événements temporels spécifiques au sein des vidéos, et ses performances se sont nettement améliorées récemment grâce aux progrès des grands modèles de langage multimodaux (Multimodal Large Language Models, MLLMs). S’appuyant sur leurs excellentes capacités de compréhension et de raisonnement multimodaux, les MLLMs obtiennent dans les approches VTG des résultats qui dépassent les méthodes traditionnelles de fine-tuning. Cette étude propose une revue complète des VTG-MLLMs afin d’analyser de manière systématique les tendances actuelles de la recherche dans ce domaine, en les décrivant selon trois dimensions : les rôles fonctionnels des MLLMs, les paradigmes d’apprentissage et les techniques de traitement des caractéristiques vidéo.
Dans le VTG, les MLLMs remplissent deux rôles principaux. D’une part, ils agissent comme facilitateurs en soutenant l’interaction entre la vidéo et le langage ; d’autre part, ils fonctionnent comme exécuteurs en réalisant effectivement les tâches de VTG. Grâce à ces rôles, divers modèles maximisent leurs performances sur les tâches de VTG. Les paradigmes d’apprentissage se divisent en préentraînement, fine-tuning et absence d’apprentissage, chacun ayant une influence importante sur les performances et la capacité de généralisation du modèle. En particulier, le paradigme sans apprentissage suggère la possibilité d’obtenir des performances efficaces avec peu de données.
Les techniques de traitement des caractéristiques vidéo ont elles aussi une influence majeure sur les performances des VTG-MLLMs. Les méthodologies permettant de traiter efficacement les caractéristiques visuelles et temporelles sont essentielles pour déterminer les représentations spatiales et temporelles de la vidéo. Par ailleurs, les jeux de données de benchmark et les protocoles d’évaluation jouent un rôle important pour mesurer les performances des VTG-MLLMs et vérifier la capacité de généralisation des modèles.
Enfin, cette étude identifie les limites actuelles des VTG-MLLMs et propose des pistes pour les recherches futures. Le manque de diversité des datasets, la complexité des modèles et les difficultés du traitement en temps réel figurent parmi les principaux défis restant à résoudre. Les recherches visant à dépasser ces limites devront se concentrer sur le développement de nouveaux datasets et sur l’optimisation des modèles. Cet article fournit une revue complète des VTG-MLLMs et apporte des informations utiles aux chercheurs de ce domaine.
Résumé (Abstract)
Les avancées récentes du video temporal grounding (VTG) ont considérablement amélioré la compréhension fine des vidéos, principalement sous l’impulsion des multimodal large language models (MLLMs). Grâce à leurs capacités supérieures de compréhension et de raisonnement multimodaux, les approches de VTG fondées sur les MLLMs (VTG-MLLMs) dépassent progressivement les méthodes traditionnelles reposant sur le fine-tuning. Elles obtiennent non seulement des performances compétitives, mais excellent aussi en généralisation dans des contextes zero-shot, multi-task et multi-domain. Malgré l’existence de nombreux surveys sur la compréhension générale vidéo-langage, les revues complètes portant spécifiquement sur les VTG-MLLMs restent rares. Pour combler cette lacune, ce survey examine de manière systématique les recherches actuelles sur les VTG-MLLMs à travers une taxonomie en trois dimensions : 1) les rôles fonctionnels des MLLMs, qui mettent en évidence leur importance architecturale ; 2) les paradigmes d’entraînement, qui analysent les stratégies de raisonnement temporel et d’adaptation aux tâches ; et 3) les techniques de traitement des caractéristiques vidéo, qui déterminent l’efficacité des représentations spatio-temporelles. Nous abordons également les jeux de données de benchmark, les protocoles d’évaluation, et résumons les résultats empiriques. Enfin, nous identifions les limites actuelles et proposons des pistes de recherche prometteuses. Pour des ressources supplémentaires et davantage de détails, les lecteurs sont encouragés à consulter https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.
> The recent advancement in video temporal grounding (VTG) has significantly enhanced fine-grained video understanding, primarily driven by multimodal large language models (MLLMs). With superior multimodal comprehension and reasoning abilities, VTG approaches based on MLLMs (VTG-MLLMs) are gradually surpassing traditional fine-tuned methods. They not only achieve competitive performance but also excel in generalization across zero-shot, multi-task, and multi-domain settings. Despite extensive surveys on general video-language understanding, comprehensive reviews specifically addressing VTG-MLLMs remain scarce. To fill this gap, this survey systematically examines current research on VTG-MLLMs through a three-dimensional taxonomy: 1) the functional roles of MLLMs, highlighting their architectural significance; 2) training paradigms, analyzing strategies for temporal reasoning and task adaptation; and 3) video feature processing techniques, which determine spatiotemporal representation effectiveness. We further discuss benchmark datasets, evaluation protocols, and summarize empirical findings. Finally, we identify existing limitations and propose promising research directions. For additional resources and details, readers are encouraged to visit our repository at https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.
Lien vers l’article
https://arxiv.org/abs/2508.10922
Pour aller plus loin
https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding
Mise à l’échelle des agents via le pré-entraînement continu / Scaling Agents via Continual Pre-training
Présentation de l’article
Les large language models (LLM) ont évolué en systèmes d’agents capables d’utiliser des outils de manière autonome et d’effectuer un raisonnement multi-étapes pour résoudre des problèmes complexes. Cependant, les approches de post-training fondées sur des modèles de base généralistes affichent des performances constamment faibles sur les tâches agentiques. La cause profonde de ce problème est l’absence d’un modèle de base agentique robuste, ce qui crée une tension d’optimisation durant le post-training, le modèle devant à la fois apprendre des comportements agentiques variés et s’aligner sur des démonstrations d’experts. Pour résoudre ce problème, nous proposons pour la première fois d’intégrer l’Agentic Continual Pre-training (Agentic CPT) dans le pipeline d’entraînement d’agents de recherche approfondie. Sur cette base, nous avons développé un modèle d’agent de recherche approfondie nommé AgentFounder. AgentFounder-30B a été évalué sur 10 benchmarks et a atteint des performances de pointe, en montrant notamment de solides capacités d’utilisation d’outils avec des scores Pass@1 de 39,9 % sur BrowseComp-en, 43,3 % sur BrowseComp-zh et 31,5 % sur HLE.
Résumé (Abstract)
Les large language models (LLM) ont évolué en systèmes d’agents capables d’un usage autonome d’outils et d’un raisonnement multi-étapes pour résoudre des problèmes complexes. Cependant, les approches de post-training basées sur des modèles de base généralistes affichent des performances constamment faibles sur les tâches agentiques, en particulier dans les implémentations open source. Nous en avons identifié la cause profonde : en l’absence d’un modèle de base agentique robuste, le modèle fait face à une tension d’optimisation fondamentale durant le post-training, car il doit apprendre simultanément des comportements agentiques variés tout en les alignant sur des démonstrations d’experts. Pour résoudre ce problème, nous proposons pour la première fois d’intégrer l’Agentic Continual Pre-training (Agentic CPT) dans le pipeline d’entraînement d’agents de recherche approfondie afin de construire un modèle de base agentique solide. Sur cette approche, nous avons développé un modèle d’agent de recherche approfondie nommé AgentFounder. Nous avons évalué AgentFounder-30B sur 10 benchmarks, où il a atteint des performances de pointe tout en conservant de fortes capacités d’utilisation d’outils, enregistrant notamment 39,9 % sur BrowseComp-en, 43,3 % sur BrowseComp-zh et un Pass@1 de 31,5 % sur HLE.
Large language models (LLM) ont évolué vers des systèmes agentiques capables d’utiliser des outils de façon autonome et d’effectuer un raisonnement en plusieurs étapes pour résoudre des problèmes complexes. Cependant, les approches de post-entraînement construites sur des modèles de fondation généralistes affichent systématiquement des performances inférieures sur les tâches agentiques, en particulier dans les implémentations open source. Nous identifions la cause racine : l’absence de modèles de fondation agentiques robustes oblige les modèles, lors du post-entraînement, à apprendre simultanément des comportements agentiques variés tout en s’alignant sur des démonstrations d’experts, ce qui crée des tensions fondamentales d’optimisation. Dans ce but, nous sommes les premiers à proposer l’intégration de l’Agentic Continual Pre-training (Agentic CPT) dans la pipeline d’entraînement des agents de deep research afin de construire de puissants modèles de fondation agentiques. Sur cette base, nous développons un modèle d’agent de deep research nommé AgentFounder. Nous évaluons notre AgentFounder-30B sur 10 benchmarks et obtenons des performances de pointe tout en conservant de solides capacités d’utilisation d’outils, avec notamment 39,9 % sur BrowseComp-en, 43,3 % sur BrowseComp-zh et 31,5 % de Pass@1 sur HLE.
Lien vers l’article
https://arxiv.org/abs/2509.13310
Pour aller plus loin
https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Lois de scaling pour les modèles de langage à confidentialité différentielle / Scaling Laws for Differentially Private Language Models
Présentation de l’article
La recherche sur les lois de scaling de l’entraînement de grands modèles de langage (Large Language Model, LLM) avec confidentialité différentielle (Differential Privacy, DP) représente une avancée importante dans le domaine moderne de l’intelligence artificielle (IA). L’objectif principal de cette étude est d’établir des lois de scaling qui modélisent avec précision la complexité de l’entraînement des DP LLM, afin de clarifier les compromis entre calcul, confidentialité et utilité, et de proposer des configurations d’entraînement optimales. Dans l’entraînement classique des LLM, les lois de scaling jouent un rôle essentiel pour prédire les gains de performance et guider le choix des hyperparamètres, mais la dynamique de l’entraînement DP étant quelque peu différente, ces lois restent encore insuffisamment comprises.
Dans cette étude, les auteurs ont établi des lois de scaling pour l’entraînement des DP LLM en ajustant une fonction d’estimation de la perte (L(M,T,\\bar{\\sigma})). Ici, (M) représente le nombre de paramètres du modèle, (T) le nombre d’itérations d’entraînement et (\\bar{\\sigma}) le rapport de batch bruité, cette fonction étant ajustée par interpolation linéaire. Implémentée à l’aide de scipy.interpolate.RegularGridInterpolator en Python, cette fonction est définie en tenant compte de paramètres évoluant naturellement dans l’espace logarithmique. Cette approche contribue à mieux comprendre la dynamique complexe de l’entraînement des DP LLM et permet d’obtenir des résultats bien définis dans le cadre des configurations expérimentales considérées.
En outre, l’étude présente, à travers la formule de la fonction ajustée et les détails de son implémentation, une méthode permettant de faire correspondre avec précision des données lisses aux points d’évaluation tout en approximant les valeurs intermédiaires. Elle fournit ainsi une base importante pour comprendre les lois de scaling de l’entraînement des DP LLM. Les travaux futurs devront mener des expériences sur diverses architectures de DP LLM à partir des lois de scaling proposées et approfondir davantage le modèle théorique.
En définitive, en établissant des lois de scaling pour l’entraînement de grands modèles de langage avec confidentialité différentielle, cette étude aidera à comprendre la complexité de l’entraînement des DP LLM et fournira des lignes directrices importantes pour l’entraînement et l’optimisation futurs des LLM. Ces résultats devraient contribuer à renforcer le caractère pratique des DP LLM.
Résumé de l’article (Abstract)
Les lois de scaling se sont imposées comme des éléments importants de l’entraînement des grands modèles de langage (LLM), car elles permettent de prédire les gains de performance liés au changement d’échelle et d’orienter des choix d’hyperparamètres importants qui seraient autrement coûteux. Les LLM s’appuient également sur de grands jeux de données d’entraînement de haute qualité, par exemple issus de données utilisateur, parfois sensibles. L’entraînement de modèles sur ces données sensibles nécessite des protections rigoureuses de la vie privée, comme la confidentialité différentielle (Differential Privacy, DP). Cependant, la dynamique de l’entraînement DP est sensiblement différente, et par conséquent ses lois de scaling ne sont pas encore entièrement comprises. Dans ce travail, nous établissons des lois de scaling qui modélisent avec précision les subtilités de l’entraînement des DP LLM, en offrant une vue complète des compromis entre calcul, confidentialité et utilité, ainsi que des configurations d’entraînement optimales dans de nombreux contextes.
Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.
Lien vers l’article
https://arxiv.org/abs/2501.18914
Pour aller plus loin
https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf
https://huggingface.co/google/vaultgemma-1b
https://research.google/blog/…
https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…
https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…
R-Zero : un LLM de raisonnement auto-évolutif à partir de données nulles / R-Zero: Self-Evolving Reasoning LLM from Zero Data
Présentation de l’article
Les grands modèles de langage (LLM) auto-évolutifs offrent une voie scalable vers la superintelligence en générant et en apprenant de façon autonome à partir de leurs propres expériences. Les méthodes d’entraînement existantes dépendent de vastes ensembles de tâches et de labels curés par des humains, ce qui limite les progrès des systèmes d’IA. Pour dépasser cette limite, les auteurs proposent R-Zero, un framework entièrement autonome qui part d’un LLM de base et initialise deux modèles indépendants, Challenger et Solver. Ces modèles sont optimisés via leurs interactions, et R-Zero génère un curriculum d’auto-amélioration orienté objectif sans tâches ni labels préexistants, améliorant fortement les capacités de raisonnement de divers LLM.
Résumé de l’article (Abstract)
Les grands modèles de langage (LLM) auto-évolutifs offrent une voie scalable vers la superintelligence en générant, affinant et apprenant de façon autonome à partir de leurs propres expériences. Cependant, les méthodes existantes pour entraîner de tels modèles reposent encore fortement sur de vastes ensembles de tâches et de labels curés par des humains, généralement via le fine-tuning ou le reinforcement learning, ce qui constitue un goulot d’étranglement fondamental pour faire progresser les systèmes d’IA vers des capacités dépassant l’intelligence humaine. Pour surmonter cette limitation, nous présentons R-Zero, un framework entièrement autonome qui génère ses propres données d’entraînement à partir de zéro. À partir d’un unique LLM de base, R-Zero initialise deux modèles indépendants aux rôles distincts, un Challenger et un Solver. Ces modèles sont optimisés séparément et co-évoluent par interaction : le Challenger est récompensé lorsqu’il propose des tâches proches de la limite des capacités du Solver, et le Solver est récompensé lorsqu’il résout les tâches de plus en plus difficiles proposées par le Challenger. Ce processus produit un curriculum ciblé et auto-amélioré sans aucune tâche ni aucun label préexistant. Empiriquement, R-Zero améliore substantiellement les capacités de raisonnement sur différents LLM backbone ; par exemple, il apporte à Qwen3-4B-Base un gain de +6.49 sur des benchmarks de raisonnement mathématique et de +7.54 sur des benchmarks de raisonnement en domaine général.
> Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.
Lien vers l’article
https://arxiv.org/abs/2508.05004
Cet article compilé par 🔥PyTorch Korea User Group🇰🇷 vous a été utile ? Inscrivez-vous comme membre pour recevoir par e-mail💌 les principaux articles ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer à Daily.)
🎁 Si vous cliquez sur J’aime❤️ ci-dessous↘️, cela aide la publication de cette newsletter~ 🤗
Cet article est basé sur un texte synthétisé avec un modèle GPT, et certains éléments peuvent donc avoir été résumés d’une manière différente du contenu ou de l’intention du texte original. Si le sujet vous intéresse, n’hésitez pas à consulter également la source originale ! Si vous remarquez des passages maladroits ou erronés pendant votre lecture, merci de nous le signaler en commentaire. 🤗
⚠️Publicité⚠️ : Cet article compilé par 🔥PyTorch Korea User Group🇰🇷 vous a été utile ? Inscrivez-vous comme membre pour recevoir par e-mail💌 les principaux articles ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer à Daily.)
Aucun commentaire pour le moment.