ML à surveiller cette semaine

(discuss.pytorch.kr)

1 points par ninebow 2025-10-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp

[2025/09/29 ~ 10/05] Sélection d’articles AI/ML à surveiller cette semaine

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Amélioration de la véracité et de la fiabilité de l’information : plusieurs articles proposent différentes approches pour améliorer l’exactitude et la fiabilité de l’information. Par exemple, « Incentive-Aligned Multi-Source LLM Summaries » garantit la véracité de l’information via le framework Truthful Text Summarization (TTS), tandis que « AgentMaster » s’appuie sur un système multi-agents pour prendre en charge une recherche et une analyse d’informations fiables.

2️⃣ Progrès des systèmes multi-agents : l’usage des systèmes multi-agents (MAS, Multi-Agent System) augmente dans de nombreuses recherches, et cela aide considérablement à résoudre des tâches complexes. Les articles « TUMIX » et « AgentMaster » montrent comment améliorer les performances grâce à la collaboration et aux interactions entre agents utilisant divers outils.

3️⃣ Injection de connaissances et apprentissage continu : les articles « How to inject knowledge efficiently? » et « Continual Learning for VLMs » étudient des méthodes pour injecter efficacement des connaissances métier et apprendre en continu à partir de données anormales. Ces travaux mettent l’accent sur l’amélioration des performances des modèles tout en évitant la perte des connaissances existantes.

ARE : mise à l’échelle des environnements et des évaluations d’agents / ARE: Scaling Up Agent Environments and Evaluations

Présentation de l’article

Meta Superintelligence Lab a dévoilé Meta Agents Research Environments (ARE), une plateforme de recherche innovante qui améliore la capacité de mise à l’échelle des environnements d’agents, prend en charge l’intégration d’applications synthétiques ou réelles, et permet d’exécuter l’orchestration des agents. ARE fournit des abstractions simples pour construire des environnements complexes et variés, permettant à chaque environnement de disposer de ses propres règles, outils, contenus et validateurs, contribuant ainsi à combler l’écart entre le développement des modèles et leur déploiement dans le monde réel.

L’une des principales innovations d’ARE est l’introduction d’un benchmark appelé Gaia2. Gaia2 a été conçu pour mesurer les capacités générales des agents et inclut, au-delà de la simple recherche et exécution, des exigences complexes : l’agent doit gérer l’ambiguïté et le bruit, s’adapter à des environnements dynamiques, collaborer avec d’autres agents et accomplir des tâches sous contraintes temporelles. En particulier, Gaia2 s’exécute de manière asynchrone, ce qui révèle de nouveaux modes d’échec qui n’apparaissent pas dans des environnements statiques et permet une évaluation plus fine des performances des agents.

Les résultats expérimentaux montrent qu’aucun système ne domine l’ensemble du spectre de l’intelligence, et que de fortes capacités de raisonnement se paient souvent en efficacité. Le plafonnement des courbes de mise à l’échelle du budget souligne la nécessité de nouvelles architectures et de stratégies de calcul adaptatif. Ces constats indiquent une direction pour la recherche en IA et mettent en évidence l’importance d’ARE et de Gaia2.

Les abstractions d’ARE permettent d’étendre en continu Gaia2 à d’autres environnements, afin que la communauté de recherche puisse rapidement créer de nouveaux benchmarks adaptés à ses propres domaines. Les progrès de l’IA dépendront de plus en plus de la définition de tâches pertinentes et d’évaluations robustes, ce que les fonctionnalités d’ARE rendent possible. Dans ce contexte, ARE fournira les outils nécessaires au développement et à l’évaluation des agents, et jouera un rôle important à la frontière de la recherche en IA.

Résumé de l’article (Abstract)

Nous présentons Meta Agents Research Environments (ARE), une plateforme de recherche pour la création scalable d’environnements, l’intégration d’applications synthétiques ou réelles, et l’exécution d’orchestrations agentiques. ARE fournit des abstractions simples pour construire des environnements complexes et variés, chacun doté de ses propres règles, outils, contenus et validateurs, contribuant à combler l’écart entre le développement des modèles et leur déploiement dans le monde réel. Nous proposons également Gaia2, un benchmark construit dans ARE et conçu pour mesurer les capacités générales des agents. Au-delà de la recherche et de l’exécution, Gaia2 exige des agents qu’ils gèrent les ambiguïtés et le bruit, s’adaptent à des environnements dynamiques, collaborent avec d’autres agents et opèrent sous contraintes temporelles. Contrairement aux benchmarks précédents, Gaia2 s’exécute de manière asynchrone, révélant de nouveaux modes d’échec invisibles dans des contextes statiques. Nos expériences montrent qu’aucun système ne domine l’ensemble du spectre de l’intelligence : un raisonnement plus puissant se paie souvent en efficacité, et les courbes de scaling du budget plafonnent, soulignant la nécessité de nouvelles architectures et de stratégies de calcul adaptatif. Plus important encore, les abstractions d’ARE permettent d’étendre continuellement Gaia2 à d’autres environnements, donnant à la communauté les moyens de créer rapidement de nouveaux benchmarks adaptés à leurs domaines. Dans la seconde moitié de l’IA, les progrès dépendront de plus en plus de la définition de tâches pertinentes et d’évaluations robustes pour faire avancer les capacités de pointe.
> We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.

Lien vers l’article

https://arxiv.org/abs/2509.17158

Résumés multi-sources LLM alignés sur les incitations / Incentive-Aligned Multi-Source LLM Summaries

Présentation de l’article

Les grands modèles de langage (LLM) sont largement utilisés dans les systèmes modernes de recherche d’information et de réponse pour intégrer des textes issus de plusieurs sources et produire une réponse unique. Cependant, les systèmes existants ont du mal à garantir l’exactitude des sources et restent vulnérables aux contenus adversariaux. Proposé pour répondre à ces problèmes, le framework Truthful Text Summarization (TTS) offre une approche innovante capable d’améliorer la robustesse factuelle tout en fonctionnant sans labels de vérité terrain. TTS décompose un résumé préliminaire en affirmations atomiques, évalue les affirmations de chaque source, puis attribue un score aux sources via un mécanisme adapté de prédiction par les pairs multi-tâche qui récompense la cohérence de l’information. Après avoir filtré les sources non fiables, le système effectue une nouvelle synthèse ; ce processus aligne les incitations des sources sur l’honnêteté informationnelle, de sorte que rapporter la vérité devient la stratégie maximisant l’utilité.

La méthodologie de TTS propose une nouvelle approche pour garantir la véracité de l’information et souligne sa différence avec les travaux existants sur la synthèse d’information et les LLM. Les résultats expérimentaux montrent que TTS améliore l’exactitude factuelle et la robustesse tout en conservant la fluidité, ce qui contribue à freiner la manipulation grâce à la vérification et à l’alignement des informations. Ces travaux ouvrent la voie à une amélioration significative de la fiabilité des systèmes de synthèse d’information et posent une base importante pour explorer des applications futures dans divers domaines. TTS montre ainsi qu’il est possible d’accroître la véracité de l’information tout en alignant les incitations des sources, avec à la clé une nette amélioration potentielle de la fiabilité des systèmes de synthèse d’information.

Résumé de l’article (Abstract)

Les grands modèles de langage (LLM) sont de plus en plus utilisés dans les systèmes modernes de recherche et de réponse pour synthétiser plusieurs textes, parfois contradictoires, en une seule réponse, mais les pipelines actuels offrent peu d’incitations à l’exactitude des sources et sont vulnérables aux contenus adversariaux. Nous présentons Truthful Text Summarization (TTS), un framework d’alignement des incitations qui améliore la robustesse factuelle sans labels de vérité terrain. TTS (i) décompose une synthèse préliminaire en affirmations atomiques, (ii) détermine la position de chaque source sur chaque affirmation, (iii) attribue un score aux sources à l’aide d’un mécanisme adapté de prédiction par les pairs multi-tâche qui récompense les accords informatifs, et (iv) filtre les sources non fiables avant de re-synthétiser. Nous établissons des garanties formelles alignant les incitations d’une source avec une honnêteté informative, de sorte que rapporter la vérité devienne la stratégie maximisant l’utilité. Les expériences montrent que TTS améliore l’exactitude factuelle et la robustesse tout en préservant la fluidité, en alignant l’exposition sur une corroboration informative et en décourageant la manipulation.
> Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.

Lien vers l’article

https://arxiv.org/abs/2509.25184

TUMIX : passage à l’échelle au moment de l’inférence multi-agents via un mélange d’usage d’outils / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

Présentation de l’article

Tool-Use Mixture (TUMIX) est un framework d’ensemble qui exécute plusieurs agents en parallèle, chacun adoptant des stratégies différentes d’usage d’outils et de cheminement vers la réponse. Cette méthodologie met l’accent sur l’intégration du raisonnement fondé sur le texte, du code et de la recherche afin d’apporter des solutions efficaces à des questions variées. Les agents de TUMIX partagent et affinent de façon itérative leurs réponses à partir de la question et des réponses précédentes, ce qui permet une intégration plus poussée et l’exploration de trajectoires de raisonnement variées.

TUMIX a obtenu un gain moyen de précision de 3,55 % par rapport aux méthodes existantes de renforcement par les outils et de test-time scaling, et a affiché d’excellentes performances sur des benchmarks majeurs de raisonnement avec les modèles Gemini-2.5-Pro et Gemini-2.5-Flash. Ces résultats montrent que la diversité et la qualité des agents sont des facteurs clés, et les auteurs proposent une méthode pour optimiser automatiquement le design des agents à l’aide des LLM (grands modèles de langage). Cela a permis à TUMIX d’obtenir un gain supplémentaire moyen de précision de 1,2 %.

TUMIX propose une approche innovante capable d’arrêter l’affinage une fois un niveau de confiance suffisant atteint, réduisant ainsi le coût d’inférence à 49 % tout en maintenant les performances. Un passage à l’échelle supplémentaire permet d’atteindre de meilleures performances, mais l’augmentation des coûts dans ce cas constitue un point important à considérer pour les recherches futures.

Cette étude présente une manière de maximiser les capacités d’usage d’outils et de raisonnement des LLM, contribuant à fournir des solutions efficaces à une grande variété de questions. Grâce à une approche différenciée des méthodologies existantes, TUMIX montre un potentiel de généralisation plus large vers des applications réelles.

Résumé de l’article (Abstract)

L’intégration de divers outils comme Code Interpreter et Search a considérablement amélioré le raisonnement des grands modèles de langage (LLM) dans des modèles comme ChatGPT Agent et Gemini-Pro, mais il manque encore des recommandations pratiques sur l’usage optimal de ces outils. Le principal défi consiste à combiner efficacement le raisonnement textuel, le code et la recherche pour répondre à des questions variées. Cet article propose Tool-Use Mixture (TUMIX), un framework d’ensemble qui exécute en parallèle plusieurs agents, chacun utilisant des stratégies d’usage des outils et des chemins de réponse distincts. Les agents de TUMIX partagent et affinent leurs réponses de manière itérative à partir de la question et des réponses précédentes. Les expériences montrent que TUMIX obtient des gains significatifs par rapport aux méthodes de pointe d’augmentation par outils et de test-time scaling, avec une amélioration moyenne de précision de 3,55 % par rapport à la meilleure référence sur les principaux benchmarks de raisonnement de Gemini-2.5-Pro et Gemini-2.5-Flash, tout en conservant un coût d’inférence presque identique. Nous avons constaté que la diversité et la qualité des agents sont cruciales, et qu’elles peuvent être améliorées en utilisant des LLM pour optimiser automatiquement la conception des agents. En outre, TUMIX peut arrêter l’affinage lorsqu’un niveau de confiance suffisant est atteint, ce qui permet de préserver les performances avec seulement 49 % du coût d’inférence. Une montée en échelle supplémentaire peut permettre d’obtenir de meilleures performances, mais au prix d’un coût plus élevé.
> Bien que l’intégration d’outils comme Code Interpreter et Search ait considérablement amélioré le raisonnement des grands modèles de langage (LLM) dans des modèles comme ChatGPT Agent et Gemini-Pro, les recommandations pratiques sur l’usage optimal de ces outils restent limitées. Le principal défi consiste à combiner efficacement le raisonnement textuel, le code et la recherche pour des questions variées. Dans cet article, nous proposons Tool-Use Mixture (TUMIX), un framework d’ensemble qui exécute en parallèle plusieurs agents, chacun employant des stratégies d’usage des outils et des trajectoires de réponse distinctes. Les agents de TUMIX partagent et affinent itérativement leurs réponses en fonction de la question et des réponses précédentes. Dans nos expériences, TUMIX obtient des gains significatifs par rapport aux méthodes de pointe d’augmentation par outils et de test-time scaling, avec une amélioration moyenne de précision pouvant atteindre 3,55 % par rapport à la meilleure baseline sur Gemini-2.5-Pro et Gemini-2.5-Flash à travers des benchmarks clés de raisonnement, pour des coûts d’inférence quasi équivalents. Nous constatons que la diversité et la qualité des agents sont essentielles et peuvent être renforcées en utilisant des LLM pour auto-optimiser la conception des agents. En outre, TUMIX peut interrompre l’affinage lorsqu’un niveau de confiance suffisant est atteint, en préservant les performances avec seulement 49 % du coût d’inférence. Une montée en échelle supplémentaire peut permettre d’atteindre de meilleures performances, au prix toutefois d’un coût plus élevé.

Lien vers l’article

https://arxiv.org/abs/2510.01279

Dans leur propre langage : des traces de raisonnement adaptées aux petits modèles en font de meilleurs raisonneurs / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners

Présentation de l’article

Le transfert des capacités de raisonnement depuis les grands modèles de langage vers des modèles plus petits s’accompagne souvent, contre toute attente, d’une baisse de performance. Ce phénomène provient d’un décalage distributionnel (Distributional Misalignment) qui apparaît durant le Supervised Fine-Tuning (SFT), car les traces de raisonnement des grands modèles contiennent des tokens de faible probabilité qui ne correspondent pas à la distribution de probabilité des petits modèles. En conséquence, les petits modèles ne parviennent pas à apprendre efficacement les schémas de raisonnement avancés des grands modèles et se heurtent au contraire à une barrière d’apprentissage.

Pour résoudre ce problème, la méthode proposée, Reverse Speculative Decoding (RSD), fonctionne de la manière suivante : le modèle enseignant propose des tokens candidats, et le modèle étudiant décide de les accepter ou non en s’appuyant sur sa propre distribution de probabilité. Dans ce processus, les tokens de faible probabilité sont filtrés, ce qui permet de conserver des étapes de raisonnement utiles dans une plage que les petits modèles peuvent traiter. RSD a été appliqué au modèle Qwen3-0.6B : alors que des données de traces de raisonnement générées par une distillation directe faisaient chuter les performances moyennes de 20,5 %, l’apprentissage à partir de traces produites par RSD a montré un gain de performance significatif de 4,9 %.

L’efficacité de RSD s’est manifestée de manière cohérente sur divers benchmarks de raisonnement, soulignant que les tokens de faible probabilité constituent un goulet d’étranglement majeur pour un transfert de raisonnement efficace. En outre, RSD doit être optimisé pour chaque modèle, ce qui suggère qu’un alignement distributionnel adapté aux représentations internes propres à chaque modèle étudiant est nécessaire. Ces résultats sont considérés comme une méthodologie importante susceptible de contribuer à l’amélioration des performances des petits modèles et ouvrent des perspectives d’application pour de futures recherches.

En conclusion, RSD constitue une approche innovante pour transférer efficacement les capacités de raisonnement des grands modèles vers des modèles plus petits, en améliorant les capacités de raisonnement de ces derniers grâce au filtrage des tokens de faible probabilité. Ces travaux proposent une nouvelle orientation pour améliorer les performances des petits modèles et constituent une base importante pour élargir les possibilités d’application futures dans les domaines de l’IA et du machine learning.

Résumé (Abstract)

Le transfert des capacités de raisonnement de grands modèles de langage vers des modèles plus petits via le fine-tuning supervisé échoue souvent de manière contre-intuitive, avec une dégradation des performances malgré l’accès à des démonstrations de haute qualité fournies par l’enseignant. Nous identifions que cet échec provient d’un décalage de distribution : les traces de raisonnement des grands modèles contiennent des tokens de faible probabilité selon la distribution de l’étudiant, dépassant la capacité de représentation interne des architectures plus petites et créant des obstacles à l’apprentissage plutôt qu’un guidage utile. Nous proposons Reverse Speculative Decoding (RSD), un mécanisme de génération de traces de raisonnement adaptées à l’étudiant dans lequel le modèle enseignant propose des tokens candidats, mais le modèle étudiant décide de leur acceptation en fonction de ses propres distributions de probabilité, filtrant ainsi les tokens de faible probabilité. Appliquée à Qwen3-0.6B, la distillation directe des données de traces de raisonnement s1K-1.1 dégrade de 20.5% les performances moyennes sur les principaux benchmarks de raisonnement, tandis que le même modèle entraîné sur des traces de raisonnement générées par RSD obtient une amélioration significative de 4.9%. Notre analyse montre que les tokens de faible probabilité constituent le principal goulot d’étranglement du transfert des capacités de raisonnement. Cependant, des expériences croisées entre modèles démontrent que les traces RSD sont spécifiques à chaque modèle plutôt qu’universellement applicables, ce qui indique que l’alignement distributionnel doit être adapté à la représentation interne propre à chaque architecture étudiante.
> Transferring reasoning capabilities from larger language models to smaller ones through supervised fine-tuning often fails counterintuitively, with performance degrading despite access to high-quality teacher demonstrations. We identify that this failure stems from distributional misalignment: reasoning traces from larger models contain tokens that are low probability under the student's distribution, exceeding the internal representation capacity of smaller architectures and creating learning barriers rather than helpful guidance. We propose Reverse Speculative Decoding (RSD), a mechanism for generating student-friendly reasoning traces in which the teacher model proposes candidate tokens but the student model determines acceptance based on its own probability distributions, filtering low probability tokens. When applied to Qwen3-0.6B, direct distillation of s1K-1.1 reasoning trace data degrades average performance across major reasoning benchmarks by 20.5%, while the same model trained on RSD-generated reasoning traces achieves meaningful improvements of 4.9%. Our analysis reveals that low probability tokens constitute the critical bottleneck in reasoning ability transfer. However, cross-model experiments demonstrate that RSD traces are model-specific rather than universally applicable, indicating that distributional alignment must be tailored for each student architecture's unique internal representation.

Lien vers l’article

https://arxiv.org/abs/2509.22230

AgentMaster : un framework conversationnel multi-agents utilisant les protocoles A2A et MCP pour la recherche et l’analyse d’informations multimodales / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis

Présentation de l’article

Dans le domaine de l’intelligence artificielle (IA), les avancées des Multi-Agent Systems (MAS) jouent un rôle important dans la résolution collaborative de problèmes complexes par plusieurs agents intelligents. Cependant, les MAS actuels font face à plusieurs défis en matière de communication fluide entre agents, de coordination et d’interaction avec divers outils et ressources. Pour répondre à ces problèmes, cette étude propose un nouveau framework MAS modulaire appelé AgentMaster. Ce framework intègre le protocole de communication Agent-to-Agent (A2A) et le Model Context Protocol (MCP) afin de permettre une coordination dynamique et une communication flexible.

AgentMaster fournit une interface conversationnelle intégrée conçue pour permettre aux utilisateurs d’interagir avec le système en langage naturel, sans expertise technique. Il prend ainsi en charge des réponses à diverses requêtes multimodales, notamment la recherche d’informations, les questions-réponses et l’analyse d’images. La principale contribution de cette étude est de permettre une coordination efficace entre agents et une communication fluide entre agents de recherche spécialisés grâce à l’utilisation d’A2A et de MCP. En outre, AgentMaster décompose les requêtes des utilisateurs en workflows spécialisés, ce qui permet une décomposition automatisée des requêtes, l’attribution des tâches et un routage dynamique.

Les résultats expérimentaux montrent qu’AgentMaster a atteint des performances élevées, avec 96.3% en BERTScore F1 et 87.1% en LLM-as-a-Judge G-Eval. Ces résultats démontrent une coordination automatisée robuste entre agents et des réponses pertinentes spécifiques au domaine, contribuant ainsi à élargir le potentiel des MAS. Cette étude met en évidence le caractère innovant d’un framework MAS intégrant A2A et MCP, et devrait apporter une contribution importante au développement d’une IA conversationnelle collaborative et évolutive.

Résumé (Abstract)

L’essor des systèmes multi-agents (MAS), notamment lorsqu’ils sont intégrés aux grands modèles de langage (LLM), a considérablement facilité la résolution de tâches complexes. Cependant, les systèmes actuels se heurtent encore à des difficultés en matière de communication inter-agents, de coordination et d’interaction avec des outils et ressources hétérogènes. Récemment, le Model Context Protocol (MCP) d’Anthropic et le protocole de communication Agent-to-Agent (A2A) de Google ont été introduits, et à notre connaissance, les cas où les deux protocoles sont utilisés simultanément au sein d’un même framework MAS restent très rares. Nous présentons une étude pilote d’AgentMaster, un nouveau framework MAS modulaire et multiprotocole doté d’implémentations maison d’A2A et de MCP, permettant une coordination dynamique, une communication flexible et une itération rapide. Grâce à une interface conversationnelle unifiée, le système prend en charge les interactions en langage naturel sans expertise technique préalable et répond à des requêtes multimodales pour des tâches telles que la recherche d’informations, les questions-réponses et l’analyse d’images. Les expériences ont été validées à la fois par une évaluation humaine et par des métriques quantitatives, notamment BERTScore F1 (96,3 %) et LLM-as-a-Judge G-Eval (87,1 %). Ces résultats démontrent une coordination inter-agents automatisée robuste, la décomposition des requêtes, l’attribution des tâches, le routage dynamique et des réponses pertinentes selon le domaine. Dans l’ensemble, le framework que nous proposons contribue aux capacités potentielles d’une IA conversationnelle spécialisée, coopérative et scalable, propulsée par les MAS.
> The rise of Multi-Agent Systems (MAS) in Artificial Intelligence (AI), especially integrated with Large Language Models (LLMs), has greatly facilitated the resolution of complex tasks. However, current systems are still facing challenges of inter-agent communication, coordination, and interaction with heterogeneous tools and resources. Most recently, the Model Context Protocol (MCP) by Anthropic and Agent-to-Agent (A2A) communication protocol by Google have been introduced, and to the best of our knowledge, very few applications exist where both protocols are employed within a single MAS framework. We present a pilot study of AgentMaster, a novel modular multi-protocol MAS framework with self-implemented A2A and MCP, enabling dynamic coordination, flexible communication, and rapid development with faster iteration. Through a unified conversational interface, the system supports natural language interaction without prior technical expertise and responds to multimodal queries for tasks including information retrieval, question answering, and image analysis. The experiments are validated through both human evaluation and quantitative metrics, including BERTScore F1 (96.3%) and LLM-as-a-Judge G-Eval (87.1%). These results demonstrate robust automated inter-agent coordination, query decomposition, task allocation, dynamic routing, and domain-specific relevant responses. Overall, our proposed framework contributes to the potential capabilities of domain-specific, cooperative, and scalable conversational AI powered by MAS.

Lien vers l’article

https://arxiv.org/abs/2507.21105

Méthode efficace d’injection de connaissances : loi d’échelle de l’injection de connaissances pour le pré-entraînement des grands modèles de langage / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models

Présentation de l’article

Les grands modèles de langage (LLMs) affichent d’excellentes performances sur une grande variété de tâches, mais en l’absence d’une optimisation spécialisée par domaine, ils peuvent obtenir de faibles résultats sur des benchmarks de connaissances expertes et produire des hallucinations. Cette étude propose une méthodologie visant à injecter stratégiquement des connaissances de domaine au cours du pré-entraînement, en mettant l’accent sur le phénomène de memory collapse observé durant ce processus. Le memory collapse survient en raison d’une injection excessive de connaissances, ce qui dégrade brutalement la capacité du modèle à les retenir. L’équipe de recherche a tiré deux observations majeures. Premièrement, chaque modèle présente un point critique à partir duquel sa capacité de rétention des connaissances chute fortement ; deuxièmement, ce point d’effondrement suit une loi d’échelle cohérente avec la taille du modèle.

À partir de ces constats, l’étude propose une knowledge infusion scaling law. Cette loi aide à prédire la quantité optimale de connaissances de domaine à injecter dans de grands LLMs, et son efficacité ainsi que sa généralité ont été validées au moyen d’expériences sur différentes tailles de modèles et différents budgets de tokens. En particulier, l’étude montre que le phénomène de memory collapse est provoqué par une injection excessive de connaissances, ce qui suggère qu’une injection de connaissances parcimonieuse au niveau du token peut suffire, même sur de grands jeux de données.

Les chercheurs ont également évalué les performances de rétention en fonction de diverses tailles de jeux de données d’entraînement et de différentes fréquences d’injection, et ont constaté que les grands modèles peuvent atteindre la saturation avec une quantité relativement faible de connaissances. Ces résultats apportent des éclairages importants sur la spécialisation par domaine et l’optimisation des LLMs, et devraient contribuer à la conception de futures stratégies d’injection de connaissances. Cette étude se concentre également sur l’évaluation de l’effet de l’injection de connaissances dans les grands modèles de langage, sur la proposition d’une méthodologie pour évaluer la capacité de rétention et prédire le point d’effondrement, ainsi que sur l’analyse de l’impact de différents templates.

Résumé (Abstract)

Les grands modèles de langage (LLM) suscitent une attention considérable en raison de leurs impressionnantes capacités générales sur une grande variété de tâches en aval. Cependant, sans optimisation spécifique à un domaine, ils affichent souvent des performances insuffisantes sur les benchmarks de connaissances spécialisées et peuvent même produire des hallucinations. Des recherches récentes montrent qu’injecter stratégiquement des connaissances de domaine pendant le préentraînement peut améliorer de façon substantielle les performances sur les tâches en aval. Un défi majeur consiste à équilibrer cette injection : une quantité trop faible de données spécifiques au domaine ne permet pas une spécialisation suffisante, tandis qu’une injection excessive provoque un oubli catastrophique des connaissances acquises précédemment. Dans ce travail, nous nous concentrons sur le phénomène d’effondrement de la mémoire induit par une sur-injection. À travers des expériences systématiques, nous formulons deux observations clés. Premièrement, le point d’effondrement critique : chaque modèle présente un seuil au-delà duquel ses capacités de rétention des connaissances se dégradent brutalement. Deuxièmement, la corrélation avec l’échelle : ces points d’effondrement évoluent de manière cohérente avec la taille du modèle. Sur la base de ces constats, nous proposons une loi d’échelle de l’injection de connaissances qui prédit la quantité optimale de connaissances de domaine à injecter dans de grands LLM en analysant leurs homologues plus petits. De nombreuses expériences menées sur différentes tailles de modèles et budgets de tokens associés valident à la fois l’efficacité et la généralisabilité de notre loi d’échelle.
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.

Lien vers l’article

https://arxiv.org/abs/2509.19371

Bifrost-1 : relier les LLM multimodaux et les modèles de diffusion avec des variables latentes CLIP au niveau patch / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

Présentation de l’article

Bifrost-1 propose un framework innovant qui relie un grand modèle de langage multimodal (MLLM) préentraîné et un modèle de diffusion à l’aide d’embeddings d’image CLIP (Contrastive Language-Image Pretraining) au niveau patch. Les approches existantes souffraient de coûts d’apprentissage élevés et de problèmes d’efficacité, car le LLM n’avait pas été exposé à des représentations d’images pendant le préentraînement. Pour résoudre ce problème, Bifrost-1 exploite des embeddings d’image au niveau patch naturellement alignés avec l’encodeur visuel CLIP du MLLM, puis les intègre au modèle de diffusion. Dans ce processus, une adaptation allégée de ControlNet permet de préserver les capacités initiales de raisonnement multimodal du MLLM tout en ajoutant une branche de génération visuelle chargée de prédire les embeddings d’image au niveau patch.

L’innovation principale de Bifrost-1 réside dans l’utilisation de variables latentes CLIP au niveau patch pour permettre une connexion efficace entre MLLM et modèle de diffusion. Cela rend possible une génération d’images contrôlable à haute fidélité tout en améliorant fortement l’efficacité de l’entraînement. Les résultats expérimentaux montrent que Bifrost-1 atteint des performances équivalentes ou supérieures aux méthodes précédentes en matière de fidélité visuelle et de compréhension multimodale, tout en réduisant nettement le coût de calcul pendant l’entraînement.

En outre, une étude d’ablation approfondie a démontré l’efficacité des choix de conception de Bifrost-1. Ces travaux soulignent l’importance du traitement de l’information multimodale et contribueront à la construction de systèmes d’IA plus avancés grâce à l’intégration entre LLM et modèles de diffusion. Bifrost-1 établit un nouveau standard pour la génération et la compréhension multimodales et devrait constituer un jalon important pour les recherches à venir.

Résumé(Abstract)

L’intérêt pour l’intégration de capacités de synthèse visuelle haute fidélité dans les grands modèles de langage (LLM) est en hausse, sans pour autant compromettre leurs solides capacités de raisonnement. Les approches existantes, qui entraînent directement les LLM ou tentent de relier LLM et modèles de diffusion, se heurtent généralement à un entraînement coûteux, car les LLM de base n’ont pas été exposés à des représentations d’images durant le préentraînement. Nous proposons Bifrost-1, un framework unifié qui relie des LLM multimodaux préentraînés (MLLM) et des modèles de diffusion en utilisant des embeddings d’images CLIP au niveau des patchs comme variables latentes. Ces embeddings d’images au niveau des patchs sont intrinsèquement alignés avec l’encodeur visuel CLIP du MLLM. Ils sont intégrés au modèle de diffusion via une adaptation légère de son ControlNet. Afin de préserver les capacités initiales de raisonnement multimodal du MLLM, nous lui ajoutons une branche de génération visuelle initialisée à partir des paramètres d’origine du MLLM lors de la prédiction des embeddings d’images au niveau des patchs. En intégrant de manière fluide des MLLM préentraînés et des modèles de diffusion avec des latents CLIP au niveau des patchs, notre framework permet une génération d’images contrôlable et de haute fidélité, tout en améliorant fortement l’efficacité de l’entraînement. Les résultats expérimentaux montrent que Bifrost-1 atteint des performances comparables, voire supérieures, aux méthodes précédentes en fidélité visuelle et en compréhension multimodale, tout en réduisant considérablement le coût de calcul pendant l’entraînement. Nous fournissons également des études d’ablation complètes qui démontrent l’efficacité de nos choix de conception.
> There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.

Lien vers l’article

https://arxiv.org/abs/2508.05954

Pour aller plus loin

https://bifrost-1.github.io

Apprentissage continu pour les VLM : enquête et taxonomie au-delà de l’oubli / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting

Présentation de l’article

Les modèles vision-langage (Vision-Language Models, VLM) affichent d’excellentes performances sur diverses tâches multimodales grâce au préentraînement à grande échelle, mais l’apprentissage continu à partir de données non stationnaires pose plusieurs défis. Ce problème est d’autant plus marqué que l’alignement cross-modal et les capacités de généralisation sont vulnérables à l’oubli catastrophique. L’apprentissage continu des VLM (VLM-CL) présente des difficultés spécifiques, différentes de celles de l’apprentissage continu unimodal traditionnel, et cet article identifie trois principaux modes d’échec du VLM-CL tout en proposant une taxonomie fondée sur les défis à relever pour y répondre.

La taxonomie proposée se compose de : (1) stratégies de replay multimodal, (2) régularisation cross-modal, (3) adaptation efficace en paramètres. Les stratégies de replay multimodal contribuent à atténuer la dérive des caractéristiques cross-modales en rejouant les informations des tâches passées, tandis que la régularisation cross-modale met l’accent sur le maintien de l’alignement entre modalités durant les mises à jour. L’adaptation efficace en paramètres est une méthodologie qui consiste à geler le principal modèle préentraîné et à ne mettre à jour qu’un petit nombre de nouveaux paramètres afin de résoudre les problèmes d’interférence entre modules partagés.

Cet article propose une revue complète du VLM-CL et analyse les protocoles d’évaluation, jeux de données et métriques actuels, en soulignant la nécessité de meilleurs benchmarks capables de capturer l’oubli propre aux VLM et la généralisation compositionnelle. Il présente également plusieurs pistes de recherche futures, notamment le préentraînement continu et l’apprentissage zero-shot compositionnel, afin de servir de référence utile aux chercheurs développant des systèmes vision-langage tout au long de la vie. Cette approche systématique et diagnostique contribuera à stimuler l’innovation dans le domaine de l’apprentissage continu pour les VLM et à jeter les bases de véritables systèmes d’IA multimodale en apprentissage tout au long de la vie.

Résumé de l’article (Abstract)

Les modèles vision-langage (VLM) ont atteint des performances impressionnantes sur une grande variété de tâches multimodales grâce au pré-entraînement à grande échelle. Cependant, leur permettre d’apprendre en continu à partir de données non stationnaires reste un défi majeur, car leurs capacités d’alignement intermodal et de généralisation sont particulièrement vulnérables à l’oubli catastrophique. Contrairement à l’apprentissage continu (CL) unimodal traditionnel, les VLM sont confrontés à des défis spécifiques tels que la dérive des caractéristiques intermodales, l’interférence entre paramètres due aux architectures partagées et l’érosion des capacités zero-shot. Cet article de synthèse propose la première revue ciblée et systématique de l’apprentissage continu pour les VLM (VLM-CL). Nous commençons par identifier les trois principaux modes d’échec qui dégradent les performances en VLM-CL. Sur cette base, nous proposons une taxonomie fondée sur les défis à relever : (1) les \textit{stratégies de rejeu multimodal} traitent la dérive intermodale au moyen de mécanismes de mémoire explicites ou implicites ; (2) la \textit{régularisation intermodale} préserve l’alignement des modalités pendant les mises à jour ; et (3) l’\textit{adaptation efficace en paramètres} atténue l’interférence entre paramètres via des mises à jour modulaires ou de bas rang. Nous analysons également les protocoles d’évaluation, jeux de données et métriques actuels, en soulignant la nécessité de meilleurs benchmarks capables de capturer l’oubli propre aux VLM et la généralisation compositionnelle. Enfin, nous présentons les problèmes ouverts et les pistes futures, notamment le pré-entraînement continu et l’apprentissage zero-shot compositionnel. Cet article de synthèse vise à servir de référence complète et diagnostique pour les chercheurs qui développent des systèmes vision-langage tout au long de la vie. Toutes les ressources sont disponibles ici : https://github.com/YuyangSunshine/….
> Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to shared architectures, and zero-shot capability erosion. This survey offers the first focused and systematic review of continual learning for VLMs (VLM-CL). We begin by identifying the three core failure modes that degrade performance in VLM-CL. Based on these, we propose a challenge-driven taxonomy that maps solutions to their target problems: (1) \textit{Multi-Modal Replay Strategies} address cross-modal drift through explicit or implicit memory mechanisms; (2) \textit{Cross-Modal Regularization} preserves modality alignment during updates; and (3) \textit{Parameter-Efficient Adaptation} mitigates parameter interference with modular or low-rank updates. We further analyze current evaluation protocols, datasets, and metrics, highlighting the need for better benchmarks that capture VLM-specific forgetting and compositional generalization. Finally, we outline open problems and future directions, including continual pre-training and compositional zero-shot learning. This survey aims to serve as a comprehensive and diagnostic reference for researchers developing lifelong vision-language systems. All resources are available at: https://github.com/YuyangSunshine/….

Lien vers l’article

https://arxiv.org/abs/2508.04227

Pour aller plus loin

https://github.com/YuyangSunshine/…

Fédération d’agents : une infrastructure de communication sensible à la sémantique pour une IA agentique à grande échelle / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI

Présentation de l’article

Federation of Agents (FoA) est un framework innovant d’orchestration distribuée qui transforme la coordination statique multi-agents en une collaboration dynamique centrée sur les capacités. Ce système introduit des vecteurs de capacités versionnés (Versioned Capability Vectors, VCVs), qui convertissent les capacités des agents en profils lisibles par machine, permettant ainsi aux agents d’annoncer efficacement leurs compétences, leurs coûts et leurs limites. L’architecture de FoA comprend trois innovations majeures. Premièrement, le routage sémantique permet d’associer les tâches aux agents en s’appuyant sur un index HNSW partitionné, tout en réalisant une optimisation orientée coût qui respecte les contraintes opérationnelles. Deuxièmement, une technique de décomposition dynamique des tâches permet à des agents compatibles de décomposer des tâches complexes en sous-tâches sous forme de DAG (Directed Acyclic Graph), puis de collaborer à leur exécution via une fusion fondée sur le consensus. Troisièmement, une technique de smart clustering regroupe dans des canaux de collaboration les agents exécutant des sous-tâches similaires, puis affine davantage le travail grâce à un raffinement en k tours.

FoA s’appuie sur la sémantique publish-subscribe de MQTT pour prendre en charge une transmission de messages scalable, et atteint une complexité sous-linéaire grâce à l’appariement hiérarchique des capacités et à une gestion efficace des index. Les résultats de l’évaluation sur HealthBench montrent que FoA offre des performances 13 fois supérieures à celles d’un baseline à modèle unique, démontrant en particulier que la collaboration renforcée par clustering est efficace pour les tâches de raisonnement complexes nécessitant plusieurs points de vue. En conservant des performances cohérentes tout en étant extensible horizontalement, ce système montre que l’orchestration sémantique peut exploiter efficacement l’intelligence collective de fédérations hétérogènes d’agents IA au moyen d’une collaboration structurée. Cette recherche devrait contribuer aux avancées du domaine de l’IA en proposant une méthodologie permettant de maximiser l’efficacité des systèmes multi-agents et de traiter plus efficacement les tâches complexes.

Résumé(Abstract)

Voici le résumé d’un article du domaine AI/ML. Nous présentons Federation of Agents (FoA), un framework d’orchestration distribué qui transforme une coordination multi-agents statique en une collaboration dynamique pilotée par les capacités. FoA introduit les Versioned Capability Vectors (VCVs), des profils lisibles par machine qui rendent les capacités des agents interrogeables via des embeddings sémantiques, permettant aux agents d’annoncer leurs capacités, leur coût et leurs limites. Notre architecture combine trois innovations clés : (1) un routage sémantique qui associe les tâches aux agents via des index HNSW fragmentés tout en appliquant des contraintes opérationnelles grâce à une optimisation orientée coût, (2) une décomposition dynamique des tâches dans laquelle des agents compatibles décomposent conjointement des tâches complexes en DAG de sous-tâches via une fusion fondée sur le consensus, et (3) un clustering intelligent qui regroupe dans des canaux collaboratifs les agents travaillant sur des sous-tâches similaires afin d’effectuer un raffinement en k tours avant la synthèse. Construit sur la sémantique publish-subscribe de MQTT, FoA atteint une complexité sous-linéaire grâce à un appariement hiérarchique des capacités et à une maintenance efficace des index. L’évaluation sur HealthBench montre des performances 13 fois supérieures aux baselines à modèle unique, et démontre que la collaboration renforcée par clustering est particulièrement efficace pour les tâches de raisonnement complexes nécessitant plusieurs points de vue. Le système passe à l’échelle horizontalement tout en conservant des performances stables, montrant qu’une orchestration sémantique avec collaboration structurée peut libérer l’intelligence collective de fédérations hétérogènes d’agents IA.
> We present Federation of Agents (FoA), a distributed orchestration framework that transforms static multi-agent coordination into dynamic, capability-driven collaboration. FoA introduces Versioned Capability Vectors (VCVs): machine-readable profiles that make agent capabilities searchable through semantic embeddings, enabling agents to advertise their capabilities, cost, and limitations. Our aarchitecturecombines three key innovations: (1) semantic routing that matches tasks to agents over sharded HNSW indices while enforcing operational constraints through cost-biased optimization, (2) dynamic task decomposition where compatible agents collaboratively break down complex tasks into DAGs of subtasks through consensus-based merging, and (3) smart clustering that groups agents working on similar subtasks into collaborative channels for k-round refinement before synthesis. Built on top of MQTT,s publish-subscribe semantics for scalable message passing, FoA achieves sub-linear complexity through hierarchical capability matching and efficient index maintenance. Evaluation on HealthBench shows 13x improvements over single-model baselines, with clustering-enhanced laboration particularly effective for complex reasoning tasks requiring multiple perspectives. The system scales horizontally while maintaining consistent performance, demonstrating that semantic orchestration with structured collaboration can unlock the collective intelligence of heterogeneous federations of AI agents.

Lien vers l’article

https://arxiv.org/abs/2509.20175

Enquête sur les mécanismes d’attention efficaces pour les grands modèles de langage / Efficient Attention Mechanisms for Large Language Models: A Survey

Présentation de l’article

Les architectures basées sur les Transformers sont au cœur des grands modèles de langage, mais la complexité quadratique en temps et en mémoire du self-attention constitue une contrainte majeure pour le traitement de contextes longs. Pour y remédier, les recherches récentes ont proposé deux grandes familles de techniques d’attention efficace : d’une part, la linear attention s’appuyant sur des approximations par noyaux, des structures récurrentes et la dynamique des fast weights ; d’autre part, la sparse attention fondée sur des motifs fixes, du routage par blocs et du clustering. Cet article de synthèse organise systématiquement ces méthodes en intégrant à la fois les innovations algorithmiques et la perspective matérielle, et analyse les différentes approches de conception des grands modèles de langage préentraînés qui appliquent une attention efficace. Il fournit ainsi une base de référence reliant théorie et stratégies pratiques pour la conception de modèles de langage extensibles et efficaces.

Résumé (Abstract)

Les architectures fondées sur les Transformers sont devenues l’ossature dominante des grands modèles de langage. Cependant, la complexité quadratique en temps et en mémoire du self-attention reste un obstacle fondamental à une modélisation efficace des contextes longs. Pour surmonter cette limite, les travaux récents ont proposé deux grandes catégories de mécanismes d’attention efficaces. Les méthodes de linear attention atteignent une complexité linéaire grâce à des approximations de noyau, des formulations récurrentes ou des fastweight dynamics, ce qui permet une inférence scalable tout en réduisant le coût de calcul. À l’inverse, les techniques de sparse attention limitent le calcul de l’attention à des sous-ensembles sélectionnés de tokens, sur la base de motifs fixes, d’un routage par blocs ou de stratégies de clustering, améliorant ainsi l’efficacité tout en préservant la couverture contextuelle. Cet article de synthèse offre une vue d’ensemble systématique et complète de ces avancées, en intégrant à la fois les innovations algorithmiques et les considérations au niveau matériel. En outre, il analyse l’intégration de l’attention efficace dans les grands modèles de langage préentraînés, y compris les architectures entièrement construites sur une attention efficace et les conceptions hybrides combinant des composants locaux et globaux. En articulant les fondements théoriques avec les stratégies de déploiement pratiques, ce travail vise à servir de référence fondamentale pour faire progresser la conception de modèles de langage scalables et efficaces.
> Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.

Lien vers l’article

https://arxiv.org/abs/2507.19595

⚠️Publicité⚠️ : Cet article compilé par le 🔥groupe d’utilisateurs PyTorch Corée🇰🇷 vous a été utile ? Si vous devenez membre, nous vous enverrons les principaux articles par e-mail💌 ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer à Daily.)

[2025/09/29 ~ 10/05] Sélection d’articles AI/ML à surveiller cette semaine