5 points par ninebow 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

PyTorchKR🔥🇰🇷 🤔💭

En parcourant les 10 articles retenus cette semaine, on distingue clairement trois grandes tendances montrant que la recherche en IA cherche désormais à dépasser la simple amélioration des performances des modèles pour repousser les limites de l’autonomie, de la fiabilité et de l’efficacité.

1️⃣ Évolution de l’auto-amélioration autonome et des systèmes multi-agents : les articles de cette semaine mettent en avant une dynamique où les agents évoluent au-delà d’instructions humaines explicites ou de trajectoires figées pour devenir des systèmes autonomes capables de s’organiser et de corriger leurs propres faiblesses. Economy of Minds et AutoScientists proposent des systèmes coopératifs distribués dans lesquels les agents, sans contrôle central, se répartissent spontanément les rôles via des interactions économiques (enchères, accumulation de capital) ou des forums partagés, tout en poursuivant une exploration de long terme. De son côté, Self-Harness présente un framework où l’agent analyse ses schémas d’échec passés afin de modifier de façon itérative son prompt système et sa politique opérationnelle (Harness), améliorant ainsi ses performances par lui-même. Cela suggère que l’IA ne se limite plus à être un outil passif chargé d’exécuter une tâche unique, mais devient un acteur évolutif capable de planification et de collaboration à long terme.

2️⃣ Validation rigoureuse des capacités de l’IA et usages complémentaires (hybrides) : une autre tendance majeure est l’émergence de travaux plus réflexifs qui cherchent à identifier les limites réelles derrière les performances de façade de l’IA, puis à les dépasser en la combinant avec l’humain ou avec des algorithmes classiques. LiveBrowseComp souligne le point aveugle des agents de recherche, qui se contentent souvent de vérifier des connaissances déjà présentes dans le modèle plutôt que de découvrir de nouvelles informations. L’étude sur les reviewers IA montre quant à elle que l’IA excelle dans la détection d’erreurs fines, mais reste fragile dès qu’il s’agit de comprendre un contexte de long terme, ce qui en fait un « complément » plutôt qu’un remplaçant total des évaluateurs humains. Plus loin, l’étude sur l’optimisation des hyperparamètres (HPO) confirme que les capacités de suivi d’état des LLM restent inférieures à celles des algorithmes classiques, et obtient les meilleures performances via une approche hybride où l’état interne d’une méthode classique (CMA-ES) est partagé avec le LLM. C’est une démarche réaliste qui se méfie des benchmarks trompeurs et cherche à concevoir les structures de collaboration les plus efficaces en identifiant clairement les faiblesses de l’IA.

3️⃣ Optimisation intelligente des données, de l’environnement et des ressources de calcul : au lieu d’augmenter simplement l’échelle des modèles, de nombreux travaux adoptent une approche plus infrastructurelle visant à maximiser l’efficacité de l’environnement d’apprentissage, des données et du calcul matériel afin d’améliorer la densité performance/coût. AutoForge résout les problèmes de passage à l’échelle de l’apprentissage en synthétisant automatiquement des environnements de simulation complexes pour le reinforcement learning d’agents avancés. APEX montre quant à lui une efficacité maximale sur les données en classant dynamiquement leur difficulté afin de concentrer l’optimisation des prompts uniquement sur les exemples les plus informatifs. En parallèle, FP8 is All You Need dépasse les limites du calcul haute performance (HPC) centré sur le coûteux double précision (FP64) en exploitant des opérations sur tenseurs en basse précision 8 bits, tandis que DySIB démontre une efficacité mathématique en extrayant uniquement l’information dynamique essentielle à partir de données d’observation de grande dimension. Ces travaux illustrent l’effort intense pour utiliser au mieux des ressources limitées et élargir les possibilités d’application industrielles et scientifiques des systèmes d’IA.

Résumé des points clés par article

  • Economy of Minds propose un système distribué dans lequel, sans contrôle centralisé, les agents acquièrent des droits d’action via des enchères et accumulent de la richesse grâce aux récompenses de l’environnement, sur la base de règles d’interaction économique qui leur permettent d’évoluer spontanément et de former une intelligence collective de haut niveau, notamment en raisonnement multi-étapes.

  • AutoForge présente un pipeline intégré au niveau de l’environnement qui synthétise automatiquement à grande échelle des environnements de simulation difficiles et vérifiables pour un reinforcement learning efficace des agents de langage à grande échelle, tout en améliorant la stabilité de l’apprentissage face à l’instabilité des utilisateurs et à l’hétérogénéité entre environnements.

  • APEX a conçu une méthode visant à corriger l’inefficacité des approches existantes, qui gaspillent l’ensemble du jeu de données d’évaluation lors de l’optimisation des prompts des grands modèles de langage, en sélectionnant dynamiquement les zones mixtes où coexistent bonnes et mauvaises réponses afin de maximiser l’efficacité des données sous un budget de calcul limité.

  • Self-Harness présente un framework dans lequel l’agent, sans intervention d’experts humains ni aide de modèles externes plus puissants, analyse lui-même les schémas d’échec détectés dans ses traces d’exécution passées et modifie de façon autonome, après tests de régression, la politique opérationnelle qui médiatise son interaction avec l’environnement.

  • L’étude autoresearch montre que les grands modèles de langage ne parviennent pas à surpasser complètement les algorithmes classiques dans les environnements d’optimisation d’hyperparamètres en raison de leurs difficultés à assurer un suivi d’état explicite, et propose une approche hybride partageant l’état interne de la stratégie d’évolution par adaptation de matrice de covariance avec le modèle de langage, ce qui permet d’atteindre les meilleures performances.

  • FP8 is All You Need remet en cause l’idée selon laquelle le matériel natif en virgule flottante double précision serait indispensable en calcul haute performance, et démontre qu’en combinant le théorème chinois des restes avec des opérations sur tenseurs en basse précision 8 bits, il est possible de maximiser le débit tensoriel et de restaurer les performances d’exécution sans perte de précision.

  • L’étude sur les reviewers IA analyse de manière multicouche les résultats d’une annotation et d’une validation à grande échelle menées par 45 experts de domaine sur des articles de la famille Nature, montrant que l’intelligence artificielle peut jouer un excellent rôle de complément en signalant des problèmes originaux que les humains n’avaient pas repérés, tout en présentant aussi des limites structurelles comme la gestion de longs contextes ou le manque de connaissances tacites propres à certains domaines.

  • LiveBrowseComp diagnostique le fait que les agents de recherche existants s’appuient davantage sur la reconfirmation de connaissances déjà internalisées que sur l’exploration de faits nouveaux sur le web externe, et introduit un nouveau benchmark pour évaluer rigoureusement la véritable capacité de deep search sur des faits récents situés au-delà des frontières de connaissance du modèle.

  • DySIB propose une méthodologie qui, à partir de données d’observation temporelles de grande dimension, apprend de façon précise et interprétable les coordonnées géométriques d’un espace de phases de faible dimension gouvernant la dynamique du système, en maximisant l’information mutuelle prédictive entre fenêtres d’observation passées et futures, sans avoir à reconstruire directement les images brutes.

  • AutoScientists a construit un système de recherche autonome dans lequel une équipe distribuée d’agents discute, s’organise et prend en charge elle-même le cycle itératif de formulation d’hypothèses, d’exécution d’expériences, d’analyse des résultats et de révision, requis dans les expériences scientifiques computationnelles de long terme, afin de conserver les connaissances issues des explorations infructueuses et de coopérer vers des directions prometteuses.


L’économie des esprits : intelligence multi-agent émergente via des interactions économiques / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Présentation de l’article

Cette étude, qui s’intéresse à la manière dont de nombreux agents peuvent évoluer spontanément vers une intelligence collective plus forte sans contrôle centralisé, mérite l’attention en ce qu’elle transpose à l’intelligence artificielle multi-agent la théorie de coordination décentralisée des marchés de Friedrich Hayek. Pour cela, les auteurs proposent un cadre d’« économie d’agents » (agent economy), dans lequel chaque agent ne se contente pas de coopérer, mais acquiert des droits d’action par enchères (auction), effectue des paiements aux autres agents et accumule de la richesse à partir des récompenses obtenues dans l’environnement. Ces signaux économiques permettent une attribution distribuée de la contribution (decentralized credit assignment) entre agents, sans orchestration globale distincte ni protocole explicite de communication, et font émerger naturellement la valeur de chaque action. En conséquence, la planification n’est pas imposée de l’extérieur : elle se forme de l’intérieur au fil du comportement de chaque agent poursuivant ses propres incitations économiques. Autrement dit, plutôt que de concevoir finement des mécanismes de collaboration complexes, cette approche cherche à faire croître une pensée collective en réglant correctement les règles mêmes de l’interaction.

Un autre point clé de l’article est que le système ne reste pas figé dans une structure fixe, mais évolue continuellement par sélection économique (economic selection). Les agents efficaces accumulent davantage de richesse et obtiennent des opportunités d’amélioration orientées exploitation (exploitation), tandis que les agents moins performants perdent leurs ressources et sont remplacés par de nouveaux agents, ouvrant ainsi des voies d’exploration (exploration). En faisant de la richesse (wealth) une variable d’état, cette conception va au-delà d’une simple optimisation de paramètres pour former un mécanisme d’évolution distribué dans lequel les incitations locales (local incentives) des agents individuels se connectent à la performance collective globale de long terme (long-term global performance). Il est particulièrement important de noter que, même en partant d’agents initialement faibles, cette dynamique économique permet l’accumulation et la combinaison progressives de stratégies comportementales plus sophistiquées. Les auteurs montrent notamment que des comportements de haut niveau comme le raisonnement multi-étapes (multi-step reasoning) peuvent émerger spontanément dans ce processus, et soutiennent que les agents évoluent au-delà de simples politiques réactives vers des stratégies intégrant planification et vérification.

Sur le plan expérimental, l’efficacité de ce système économique est validée sur cinq tâches agentiques : le raisonnement mathématique, la recherche financière, la recherche scientifique, la conception d’accélérateurs (accelerator design) et l’optimisation de systèmes distribués (distributed-system optimization). Les résultats indiquent que la méthode proposée surpasse un modèle monolithique de référence plus puissant, ce qui suggère que l’extension de l’intelligence multi-agents n’a pas nécessairement besoin de dépendre d’une coordination centralisée. Le message central de cette étude est que, plutôt que de concevoir directement la coordination, il faut concevoir une structure d’incitations dans laquelle la coordination émerge naturellement. Elle soutient que des mécanismes économiques simples tels que les enchères, les paiements, la richesse, la faillite et le remplacement peuvent organiser simultanément la concurrence et la coopération, et faire émerger, ce faisant, de meilleures stratégies de raisonnement et de résolution de problèmes. Les auteurs apportent en outre des éclairages théoriques sur la manière dont les dynamiques économiques façonnent le comportement des agents, montrant que ces phénomènes ne relèvent pas d’un résultat empirique accidentel, mais d’un espace de conception fondé sur des principes. En définitive, cet article explique comment des structures d’incitation distribuées peuvent favoriser la croissance de l’intelligence collective et propose un nouveau paradigme pour la conception future de l’intelligence artificielle multi-agents.

Résumé (Abstract)

Comment une population d’agents peut-elle s’auto-organiser et s’auto-adapter en une intelligence collective plus puissante sans contrôle centralisé ? Inspirés par la théorie économique de la coordination décentralisée sur les marchés de Friedrich Hayek, nous étudions cette question au travers d’une économie d’agents dans laquelle les agents se disputent, par enchères, le droit d’agir, échangent des paiements et accumulent de la richesse à partir des récompenses de l’environnement. Ces signaux économiques simples induisent une attribution de crédit décentralisée, qui guide la planification sans orchestration globale ni protocoles de communication explicites. La population évolue par sélection économique : les agents efficaces accumulent de la richesse et sont mutés par exploitation, tandis que les agents inefficaces font faillite et sont remplacés par exploration. Nous montrons que, même initialisée avec des agents faibles, cette économie produit des stratégies émergentes de raisonnement en plusieurs étapes et surpasse des références monolithiques plus puissantes sur cinq tâches agentiques, dont le raisonnement mathématique, la recherche financière, la recherche scientifique, la conception d’accélérateurs et l’optimisation de systèmes distribués. Nous fournissons également des éclairages théoriques sur la manière dont les dynamiques économiques façonnent les comportements des agents, en reliant les incitations locales aux performances globales de long terme. Nos résultats suggèrent une nouvelle voie vers l’intelligence multi-agents : plutôt que d’ingénier directement la coordination, nous pouvons concevoir des structures d’incitation décentralisées dans lesquelles elle émerge automatiquement.

How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.

Lien vers l’article

https://arxiv.org/abs/2606.02859

Pour aller plus loin

https://zhentingqi.github.io/internal/projects/EoM/

https://github.com/zhentingqi/EoM


AutoForge : synthèse automatisée d’environnements pour l’apprentissage par renforcement agentique / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

Présentation de l’article

Pour entraîner des agents à grande échelle fondés sur des modèles de langage dans des conditions proches du réel, il faut à la fois une méthode capable de produire de manière fiable et massive des environnements de simulation peu coûteux mais suffisamment complexes, ainsi qu’une procédure d’apprentissage capable de résister au bruit d’interaction généré dans ces environnements. Pour répondre à ce problème, AutoForge propose un pipeline unifié qui synthétise automatiquement des environnements de simulation liés à des tâches difficiles mais facilement vérifiables (high-difficulty but easily verifiable tasks), ainsi qu’un algorithme d’apprentissage par renforcement au niveau de l’environnement (reinforcement learning, RL) conçu pour les caractéristiques de ces environnements. L’idée centrale consiste à considérer l’environnement non comme un simple ensemble de prompts, mais comme un système exécutable composé d’une structure d’état et d’un ensemble de fonctions opérationnelles, puis à générer ces environnements à grande échelle à partir de documents décrivant les outils. En particulier, lors de la génération de la structure d’état, les noms d’attributs sont séparés des valeurs réelles ; et, lors de la génération de l’ensemble de fonctions, du code Python dépendant de la structure d’état est synthétisé automatiquement, afin de permettre l’intégration cohérente de tâches variées sur un schéma d’environnement réutilisable.

Ensuite, à l’étape de génération de séquences d’outils, il ne s’agit pas d’une simple énumération d’outils, mais de la construction d’un graphe orienté acyclique (directed acyclic graph, DAG) mêlant appels d’outils et raisonnement de haut niveau, au moyen d’une random walk fondée sur un graphe, de la fusion de séquences, de l’insertion de nœuds de raisonnement et de l’insertion d’arêtes de raisonnement. Cette procédure vise à produire des tâches exigeant des dépendances bien plus complexes qu’un simple exercice de consultation ponctuelle, et offre un niveau de difficulté plus proche du processus réel dans lequel un agent appelle des outils, interprète les résultats, puis décide de l’action suivante. Le graphe généré est ensuite transmis à l’étape de génération des tâches, où il est à nouveau raffiné en échantillons d’apprentissage vérifiables comportant à la fois un état initial et un état final ; la validité de la réponse est jugée non pas par la correspondance avec un chemin d’outils particulier, mais par la concordance de l’état final. Ce point reflète la nature des environnements agentiques, dans lesquels un même objectif peut être atteint par plusieurs chemins, et l’intérêt de l’approche réside dans l’alignement de la génération des données et des critères d’évaluation sur l’état plutôt que sur la trajectoire.

L’algorithme d’apprentissage ERPO étend le GRPO existant afin de traiter simultanément l’instabilité des utilisateurs simulés (simulated user) et l’hétérogénéité entre environnements. L’agent effectue ses rollouts en alternant appels d’outils et demandes d’information à l’utilisateur, et, dans ce processus, poursuit sa planification et sa replanification à long terme via l’interleaved thinking, tout en conservant le contenu de ses raisonnements précédents. Il applique également une stratégie de masking erroneous user behaviors (MEU), qui identifie à l’avance les comportements utilisateurs erronés et les exclut du signal d’apprentissage, afin de réduire le problème de contamination de l’estimation des récompenses et des mises à jour de politique par les erreurs des utilisateurs synthétiques. La contribution la plus importante réside dans l’environment-level advantage estimation : au lieu de calculer l’advantage en normalisant les récompenses sur un même lot de questions, la méthode le calcule en normalisant les récompenses à l’intérieur d’un même environnement, ce qui la rend moins sensible aux écarts de difficulté et aux valeurs aberrantes entre environnements, tout en améliorant la stabilité de l’apprentissage.

Au final, cette conception peut être vue comme une tentative d’unifier dans un cadre cohérent les trois niveaux que sont la génération d’environnements, la procédure d’interaction et l’estimation des récompenses, afin d’assurer simultanément l’échelle, la stabilité et la capacité de généralisation exigées par l’apprentissage par renforcement agentique. Les validations sur tau-bench, tau2-Bench et VitaBench, ainsi que l’analyse de la généralisation hors domaine, suggèrent qu’AutoForge peut aller au-delà d’une simple technique de génération de données synthétiques et servir d’infrastructure de base pour l’apprentissage d’agents réels.

Résumé (Abstract)

La conduite de l’apprentissage par renforcement (RL) dans des environnements simulés offre un moyen économique et hautement scalable d’améliorer les agents basés sur le langage. Cependant, les travaux antérieurs se sont limités à une synthèse d’environnements semi-automatisée ou à des tâches insuffisamment difficiles, avec peu d’ampleur comme de profondeur. En outre, l’instabilité des utilisateurs simulés intégrés à ces environnements, ainsi que l’hétérogénéité entre environnements simulés, posent des défis supplémentaires pour le RL agentique. Dans ce travail, nous proposons : (1) un pipeline unifié pour la synthèse automatisée et scalable d’environnements simulés associés à des tâches de haute difficulté mais facilement vérifiables ; et (2) un algorithme de RL au niveau de l’environnement qui non seulement atténue efficacement l’instabilité des utilisateurs, mais effectue également une estimation de l’advantage au niveau de l’environnement, améliorant ainsi l’efficacité et la stabilité de l’entraînement. Des évaluations complètes sur des benchmarks agentiques, notamment tau-bench, tau2-Bench et VitaBench, valident l’efficacité de notre méthode. Des analyses approfondies supplémentaires soulignent sa capacité de généralisation hors domaine.

Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.

Lien vers l’article

https://arxiv.org/abs/2512.22857


APEX : expert en ingénierie automatique de prompts avec sélection dynamique des données / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

Présentation de l’article

Les grands modèles de langage (Large Language Models, LLMs) étant très sensibles à la manière dont les prompts sont formulés, l’optimisation automatique des prompts (automatic prompt optimization) devient un enjeu central pour exploiter pleinement leur potentiel. Les approches existantes fondées sur des algorithmes évolutionnaires (evolutionary algorithms) se sont montrées efficaces pour transformer progressivement les prompts, mais elles ont révélé une limite : en réutilisant de façon répétée le jeu de données de développement comme une ressource d’évaluation fixe, elles consomment le budget de calcul de manière inefficace. APEX (Automatic Prompt Engineering eXpert) propose un nouveau cadre pour lever ce goulot d’étranglement en optimisant simultanément l’exploration des prompts et l’utilisation des données. Au cœur de cette méthode se trouve une stratégie qui recompose dynamiquement le jeu de données en trois strates — Easy, Hard et Mixed — en suivant la lignée d’optimisation (optimization lineage), en considérant tout particulièrement la strate Mixed, où coexistent réponses correctes et incorrectes du modèle, comme la zone la plus riche en information. Cette perspective montre clairement qu’au-delà du simple fait de voir beaucoup d’exemples, l’essentiel est d’identifier quels exemples apportent réellement un signal utile à l’amélioration des prompts.

APEX extrait deux frontiers de grande valeur à partir de la strate Mixed. L’une est l’addressable frontier, favorable à la génération de variations informatives ; l’autre est la rank-sensitive frontier, sensible à la distinction entre prompts candidats. La première fournit une direction pour la modification des prompts, tandis que la seconde permet de déterminer quelles transformations conduisent réellement à de meilleures performances ; ces deux frontiers jouent donc des rôles complémentaires entre exploration et évaluation. En particulier, cette structure améliore fortement l’efficacité des données, car, contrairement aux approches existantes qui traitent l’ensemble du dataset de façon uniforme, elle concentre le calcul sur les échantillons les plus significatifs à l’étape d’optimisation en cours. Autrement dit, au lieu de modifier massivement les prompts à l’aveugle, APEX cible stratégiquement les points où le comportement du modèle est le plus instable et donc le plus informatif. Cette conception redéfinit l’optimisation de prompts non comme un simple problème de génération, mais comme un problème d’exploration adaptative combinant sélection de données et comparaison de candidats.

Sur le plan expérimental, APEX a été évalué sur trois benchmarks de nature différente — IFBench, SimpleQA Verified et FACTS Grounding — et a montré des améliorations stables même sous une contrainte de budget fixe de 5 000 appels d’évaluation. Il en résulte un gain moyen de performance de 11,2 % sur Gemini 2.5 Flash et de 6,8 % sur Gemma 3 27B par rapport au prompt initial, démontrant à quel point une approche centrée sur les données est importante pour une optimisation de prompts à la fois efficace et puissante. Ces résultats sont significatifs en ce qu’ils montrent empiriquement qu’APEX ne se contente pas d’améliorer un algorithme d’exploration, mais met en évidence que le succès de l’ingénierie de prompts dépend de quelles données sont choisies, à quel moment et de quelle manière. En définitive, cette recherche déplace le cœur de l’optimisation automatique des prompts de « davantage d’évaluations » vers « une utilisation plus intelligente des données », et propose une méthodologie à la fois pratique et généralisable pour atteindre de meilleures performances avec des ressources de calcul limitées.

Résumé (Abstract)

Les grands modèles de langage (LLM) sont extrêmement sensibles à la formulation des prompts, ce qui rend nécessaire une optimisation automatique des prompts pour exploiter pleinement leur potentiel. Si les algorithmes évolutionnaires se sont imposés comme le paradigme dominant, ils se heurtent à un goulot d’étranglement critique : l’efficacité des données. Les méthodes actuelles traitent le jeu de données de développement comme un benchmark statique, gaspillant une part importante du budget de calcul sur des données peu informatives. Cette étude présente APEX (Automatic Prompt Engineering eXpert), un nouveau framework qui optimise l’utilisation des données en parallèle de la recherche de prompts. APEX stratifie dynamiquement le jeu de données en niveaux Easy, Hard et Mixed en fonction de la lignée d’optimisation. En priorisant le niveau Mixed, qui identifie les données sur lesquelles le LLM affiche des performances contrastées, nous mettons en évidence deux sous-ensembles à fort impact. Le premier est l’addressable frontier, destinée à générer des mutations informatives, et le second la rank-sensitive frontier, utilisée pour distinguer la qualité des candidats. Nous évaluons APEX sur trois benchmarks variés : IFBench, SimpleQA Verified et FACTS Grounding. Avec un budget fixe de 5 000 appels d’évaluation, APEX surpasse le prompt initial de 11,2 % en moyenne sur Gemini 2.5 Flash et de 6,8 % sur Gemma 3 27B grâce à sa grande efficacité en matière de données, montrant qu’une approche centrée sur les données est essentielle à une optimisation des prompts à la fois efficace et performante.

Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.

Lien vers l’article

https://arxiv.org/abs/2606.11459


Self-Harness : des harnesses qui s’améliorent eux-mêmes / Self-Harness: Harnesses That Improve Themselves

Présentation de l’article

Les performances des agents fondés sur les grands modèles de langage (Large Language Model, LLM) ne dépendent pas uniquement des capacités de raisonnement du modèle sous-jacent, mais aussi fortement de la conception du harness, qui sert d’interface avec l’environnement. Le harness constitue une couche opérationnelle englobant le prompt système, la manière d’utiliser les outils, les procédures de vérification et jusqu’aux politiques de récupération après échec ; ainsi, un même modèle peut adopter des comportements totalement différents selon le harness appliqué. Les auteurs se concentrent précisément sur ce point et avancent que le harness ne doit plus être un actif figé conçu manuellement par des experts humains, mais qu’il doit pouvoir s’améliorer de lui-même à partir des schémas d’échec réels du modèle. Dans cette perspective, Self-Harness illustre un nouveau paradigme dans lequel un agent basé sur un LLM améliore de façon itérative son propre harness opérationnel, sans dépendre d’un agent externe plus puissant ni d’un ingénieur humain.

La méthodologie centrale de Self-Harness repose sur une boucle itérative composée de Weakness Mining, Harness Proposal et Proposal Validation. D’abord, le système identifie dans les execution traces les schémas d’échec propres à chaque modèle, afin de diagnostiquer de manière structurée quels comportements dégradent les performances de façon répétée. Ensuite, il génère diverses propositions minimales de modification du harness directement liées à ces faiblesses, en privilégiant non pas des changements trop vastes, mais des éditions locales visant à affiner les politiques opérationnelles réelles. Enfin, ces modifications candidates ne sont adoptées qu’après validation par regression testing, pour vérifier qu’elles ne détériorent pas les performances existantes, constituant ainsi non pas un simple prompt tuning, mais un mécanisme d’amélioration sûr et cumulatif. Cette conception met en œuvre techniquement l’idée que le harness guide le comportement du modèle tout en pouvant, en retour, apprendre à partir de ses échecs.

L’article valide ce framework dans l’environnement Terminal-Bench-2.0, en partant d’un harness initial très simple appliqué à trois modèles de base de familles différentes : MiniMax M2.5, Qwen3.5-35B-A3B et GLM-5. Les résultats montrent que le taux de réussite holdout passe respectivement de 40,5 % à 61,9 %, de 23,8 % à 38,1 % et de 42,9 % à 57,1 %, indiquant que Self-Harness peut produire des gains cohérents quel que soit le type de modèle. L’analyse qualitative montre en particulier que l’amélioration ne consiste pas simplement à ajouter des consignes générales, mais à transformer les faiblesses propres à chaque modèle en modifications de harness concrètes et applicables. Cela suggère fortement que le principal goulot d’étranglement de l’amélioration des performances des agents ne se situe pas uniquement dans les paramètres du modèle, et qu’un affinage intelligent des politiques opérationnelles peut à lui seul générer des progrès substantiels. En définitive, Self-Harness ouvre une nouvelle direction de recherche : les agents basés sur des LLM ne sont pas seulement façonnés par leur harness, ils peuvent aussi le refaçonner.

Résumé (Abstract)

Les performances des agents basés sur des LLM sont façonnées conjointement par leur modèle de base et par le harness qui médie leur interaction avec l’environnement. Comme les différents modèles présentent des comportements distincts, la conception d’un harness efficace est par nature spécifique à chaque modèle. Pourtant, les harness d’agents sont encore majoritairement conçus par des experts humains, un paradigme qui passe mal à l’échelle à mesure que les LLM modernes deviennent de plus en plus diversifiés et évoluent rapidement. Dans cet article, les auteurs présentent Self-Harness, un nouveau paradigme dans lequel un agent basé sur un LLM améliore lui-même son propre harness opérationnel, sans dépendre d’ingénieurs humains ni d’agents externes plus puissants. Self-Harness est mis en œuvre sous la forme d’une boucle itérative en trois étapes. Weakness Mining identifie, à partir des traces d’exécution, des schémas d’échec propres au modèle ; Harness Proposal génère des modifications du harness à la fois diverses et minimales, liées à ces échecs ; et Proposal Validation n’accepte les modifications candidates qu’après réussite des tests de régression. Les auteurs ont appliqué Self-Harness à Terminal-Bench-2.0 avec un harness initial minimal et trois modèles de base issus de familles différentes : MiniMax M2.5, Qwen3.5-35B-A3B et GLM-5. Sur les trois modèles, Self-Harness améliore systématiquement les performances, avec des taux de réussite sur l’ensemble de validation passant respectivement de 40,5 % à 61,9 %, de 23,8 % à 38,1 % et de 42,9 % à 57,1 %. Une analyse qualitative montre également que Self-Harness ne se contente pas d’ajouter des instructions génériques, mais transforme efficacement des faiblesses spécifiques à chaque modèle en changements de harness concrets et exécutables. Ces résultats suggèrent une voie vers des agents basés sur des LLM qui ne sont pas seulement façonnés par leur harness, mais peuvent aussi participer à sa reconfiguration.

The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.

Lien vers l’article

https://arxiv.org/abs/2606.09498


Les grands modèles de langage (LLM) peuvent-ils battre les algorithmes classiques d’optimisation d’hyperparamètres ? Une étude sur autoresearch / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Présentation de l’article

Cette étude, qui examine si des agents basés sur des grands modèles de langage (LLM) peuvent dépasser des algorithmes classiques dans un véritable environnement d’optimisation d’hyperparamètres (HPO), utilise le dépôt autoresearch comme terrain d’expérimentation pour explorer frontalement le potentiel et les limites de l’optimisation par édition de code. Ici, l’agent ne se contente pas de choisir des hyperparamètres numériques : il doit améliorer les performances d’un petit modèle de langage en modifiant directement le code d’entraînement lui-même, avec pour objectif de minimiser le validation bits-per-byte (val_bpb) dans un budget de calcul fixe. En particulier, comme ce problème couvre un vaste espace de code incluant l’architecture, l’optimiseur, la boucle d’apprentissage et même la taille du modèle, il est bien plus difficile qu’une optimisation classique en boîte noire, car il exige à la fois une capacité de compréhension du langage et un suivi de l’état de l’optimisation. Les auteurs comparent directement, dans cet environnement, des méthodes classiques comme le Covariance Matrix Adaptation Evolution Strategy (CMA-ES) et le Tree-structured Parzen Estimator (TPE) à des approches fondées sur les LLM, et analysent systématiquement ce qui détermine réellement les performances. Le résultat montre que, dans un espace de recherche fixe, les méthodes classiques étaient systématiquement supérieures et que, surtout, la stabilité réduisant les échecs d’exécution comptait davantage que la diversité des candidats générés.

Un point intéressant est que le fait d’autoriser les LLM à modifier directement le code source réduit quelque peu l’écart, mais qu’ils n’ont pas pour autant complètement rattrapé les méthodes classiques, même avec des modèles de pointe de l’époque comme Claude Opus 4.6 et Gemini 3.1 Pro Preview. Cela conduit à l’observation que, même si les LLM peuvent proposer des modifications utiles dans des essais individuels, ils restent encore faibles pour maintenir de manière cohérente l’état de l’optimisation sur l’ensemble d’une série d’expériences itératives. À l’inverse, les algorithmes classiques disposent d’un avantage important : même s’ils manquent de connaissances métier, ils peuvent mettre à jour de façon stable un état explicite tel qu’un vecteur moyen, une taille de pas ou une matrice de covariance. Sur la base de cette complémentarité, les auteurs proposent une méthode hybride appelée Centaur, conçue pour partager avec le LLM l’état interne interprétable de CMA-ES afin que le modèle de langage reflète mieux le contexte de l’exploration. Centaur a obtenu les meilleures performances dans l’ensemble des expériences et, fait remarquable, un petit LLM de seulement 0.8B a suffi pour surpasser à la fois les méthodes purement classiques et les méthodes purement fondées sur les LLM. En revanche, l’édition de code sans contrainte nécessitait des modèles plus grands, ce qui suggère que l’interface d’optimisation et la représentation de l’état influencent davantage les performances que la simple taille du modèle. Les auteurs analysent aussi finement la diversité de l’exploration, le scaling des modèles et la proportion de trials proposés par le LLM dans Centaur, ce qui met en lumière avec précision dans quels cas les LLM constituent un atout et dans quels cas ils deviennent une faiblesse. Dans l’ensemble, cette étude montre de manière convaincante que les LLM sont plus efficaces non pas comme remplaçants des optimiseurs classiques, mais comme composants coopératifs venant compléter un état d’exploration explicite.

Résumé (Abstract)

Le dépôt autoresearch permet à un agent LLM d’optimiser des hyperparamètres en modifiant directement le code d’entraînement. Nous l’avons utilisé comme banc d’essai pour comparer des algorithmes HPO classiques à des méthodes fondées sur des LLM dans le cadre du réglage des hyperparamètres d’un petit modèle de langage sous un budget de calcul fixe. Lorsqu’on définit un espace de recherche fixe dans autoresearch, des méthodes classiques comme CMA-ES et TPE surpassent systématiquement les agents basés sur des LLM, l’évitement des échecs par manque de mémoire (OOM) comptant alors davantage que la diversité de recherche. Autoriser le LLM à modifier directement le code source réduit l’écart avec les méthodes classiques, sans toutefois le combler complètement, même avec des modèles de pointe disponibles au moment de la rédaction comme Claude Opus 4.6 et Gemini 3.1 Pro Preview. Nous avons observé que les LLM peinent à suivre l’état de l’optimisation d’un essai à l’autre. À l’inverse, les méthodes classiques ne disposent pas des connaissances métier des LLM. Pour combiner les points forts des deux approches, nous proposons Centaur, une méthode hybride qui partage avec un LLM l’état interne interprétable de CMA-ES, notamment le vecteur moyen, la taille de pas et la matrice de covariance. Centaur a obtenu les meilleurs résultats dans nos expériences, et un LLM de 0.8B suffit déjà à dépasser toutes les méthodes classiques ainsi que les approches purement LLM. L’édition de code sans contrainte nécessite des modèles plus grands pour rivaliser avec les méthodes classiques. Nous analysons également plus en détail la diversité de recherche, le changement d’échelle des modèles de 0.8B vers des modèles de pointe, ainsi que des expériences d’ablation sur la proportion d’essais proposés par le LLM dans Centaur. Dans l’ensemble, nos résultats suggèrent que les LLM sont plus efficaces pour compléter les optimiseurs classiques que pour les remplacer. Le code est disponible sur https://github.com/ferreirafabio/autoresearch-automl, et une démo interactive sur https://ferreirafabio.github.io/autoresearch-automl.

The autoresearch repository enables an LLM agent to optimize hyperparameters by editing training code directly. We use it as a testbed to compare classical HPO algorithms against LLM-based methods on tuning the hyperparameters of a small language model under a fixed compute budget. When defining a fixed search space over autoresearch, classical methods such as CMA-ES and TPE consistently outperform LLM-based agents, where avoiding out-of-memory failures matters more than search diversity. Allowing the LLM to directly edit source code narrows the gap to the classical methods but does not close it, even with frontier models available at the time of writing such as Claude Opus 4.6 and Gemini 3.1 Pro Preview. We observe that LLMs struggle to track optimization state across trials. In contrast, classical methods lack the domain knowledge of LLMs. To combine the strengths of both, we introduce Centaur, a hybrid that shares CMA-ES's interpretable internal state, including mean vector, step-size, and covariance matrix, with an LLM. Centaur achieves the best result in our experiments, and a 0.8B LLM already suffices to outperform all classical and pure LLM methods. Unconstrained code editing requires larger models to be competitive with classical methods. We further analyze search diversity, model scaling from 0.8B to frontier models, and ablate the fraction of LLM-proposed trials in Centaur. All in all, our results suggest that LLMs are most effective as a complement to classical optimizers, not as a replacement. Code is available at https://github.com/ferreirafabio/autoresearch-automl & interactive demo at https://ferreirafabio.github.io/autoresearch-automl.

Lien vers l’article

https://arxiv.org/abs/2603.24647

Pour aller plus loin

https://github.com/ferreirafabio/autoresearch-automl

https://ferreirafabio.github.io/autoresearch-automl


FP8 suffit-il ? (Partie 1) : Réfutation du FP64 matériel considéré comme le Graal du HPC / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

Présentation de l’article

Dans le domaine du calcul haute performance (HPC, high-performance computing), les opérations en virgule flottante double précision (FP64, double-precision floating point) fournies directement par le matériel sont depuis longtemps considérées comme une condition indispensable au calcul scientifique, mais cet article soutient que cette hypothèse pourrait ne plus tenir avec les dernières générations de GPU optimisés pour l’IA. En prenant notamment comme point de départ la forte baisse du débit FP64 natif sur le NVIDIA Blackwell Ultra (B300), les auteurs montrent qu’il peut au contraire être plus pratique d’exploiter l’abondant débit tensoriel en FP8 (8-bit floating point) pour restaurer une précision de niveau FP64. Pour cela, ils combinent le théorème chinois des restes (CRT, Chinese Remainder Theorem) avec le schéma d’Ozaki II afin de décomposer les valeurs dans plusieurs canaux de résidus modulaires avant de les reconstruire exactement. L’ensemble est conçu pour conserver une précision numérique de niveau FP64 tout en tirant parti du haut débit des opérations tensorielles en basse précision. La méthodologie centrale ne consiste pas en une simple accélération approximative, mais à déplacer le chemin de calcul lui-même vers des tensor cores basse précision tout en ramenant rigoureusement le résultat par reconstruction à base d’entiers, ce qui la distingue nettement des approches centrées sur la double précision.

Une autre contribution majeure de cet article est le modèle Tensor-Memory Equilibrium (TME), qui étend le modèle Roofline traditionnel. Le TME ne se contente pas d’examiner l’équilibre entre performance de calcul et bande passante mémoire : il intègre aussi les multiplicateurs de calcul, les multiplicateurs de bande passante et la latence de reconstruction induits par la conversion d’une émulation FP8 en charge de travail FP64, afin d’interpréter les performances réelles d’exécution. Les auteurs expliquent, dans ce cadre, que la fusion au niveau des registres (register-level fusion) permet d’éviter d’écrire trop souvent les résultats intermédiaires en mémoire, ce qui ramène de fait le bandwidth multiplier vers 1. Ils présentent ainsi une structure où le surcoût de reconstruction se cache derrière le mur mémoire. Autrement dit, même si des étapes supplémentaires de conversion et de reconstruction existent, les performances globales peuvent être conservées presque sans perte dans les zones où les transferts mémoire dominent.

Le noyau Ozaki Scheme II présenté du point de vue de l’implémentation montre clairement comment cette idée fonctionne en pratique. L’architecture qui consiste à décomposer la matrice d’entrée et le vecteur en plusieurs canaux de résidus, à accumuler dans chaque canal via des opérations tensorielles basées sur wmma, puis à reconstruire à la fin une unique valeur double grâce à la reconstruction de Garner, révèle une philosophie de conception qui sépare précision et vitesse pour attribuer à chacune le chemin matériel le plus adapté. Le fait que des noyaux HPC représentatifs comme SpMV (sparse matrix-vector multiplication), GEMV (general matrix-vector multiplication) et les stencil puissent tous être traités selon la même logique montre aussi que cette approche n’est pas une optimisation limitée à une tâche particulière. Les résultats de performance viennent également étayer cette affirmation : les auteurs expliquent que, alors que le FP64 natif du B300 est fortement dégradé, la voie Ozaki II peut atteindre la limite mémoire avec un débit effectif bien plus élevé, et ils montrent qu’elle offre des performances équivalentes ou supérieures à celles du H100.

En fin de compte, le message central de cette recherche est que l’idée reçue selon laquelle il faut impérativement s’appuyer sur du matériel FP64 natif pour conserver une précision en double précision n’est plus absolue. En combinant le débit tensoriel FP8, la reconstruction basée sur le CRT et la fusion au niveau des registres, il devient possible d’obtenir à la fois une précision FP64 et une bonne efficacité de bande passante mémoire dans des environnements HPC de production, avec même un potentiel de performance supérieur aux conceptions plus anciennes centrées sur le FP64. Cette thèse pousse à reconsidérer les priorités de conception matérielle et suggère fortement que le calcul scientifique du futur n’aura plus nécessairement besoin de dépendre d’unités de calcul en simple précision dédiées.

Résumé (Abstract)

Le dogme traditionnel du HPC considère le silicium FP64 matériel natif comme le fondement irréductible du calcul scientifique, autrement dit le « Saint Graal » des simulations en double précision. Cet article soutient pourtant que ce dogme est erroné. Sur les GPU optimisés pour l’IA de génération B300 et au-delà, la combinaison d’un débit tensoriel FP8 abondant et de l’Ozaki Scheme II fondé sur le théorème des restes chinois (Chinese Remainder Theorem) permet de retrouver une exécution au niveau du plafond mémoire avec une précision FP64 complète sur l’ensemble des noyaux HPC canoniques. Le Blackwell Ultra (B300) de NVIDIA abaisse le FP64 natif à environ 1,3 TFLOPS, soit une régression d’un facteur 31 par rapport au B200, au point de transformer même des noyaux limités par la mémoire (SpMV, GEMV, stencil) en charges limitées par le calcul. Nous présentons quatre contributions. Premièrement, un modèle analytique unifié, le modèle Tensor-Memory Equilibrium (TME), qui étend le Roofline avec un multiplicateur de calcul α, un multiplicateur de bande passante β et une latence de reconstruction γ. Deuxièmement, nous montrons que la fusion au niveau des registres est le mécanisme qui pousse β → 1, rendant l’émulation pratiquement gratuite derrière le mur mémoire. Troisièmement, nous projetons qu’Ozaki II fait passer le FP64 émulé d’un plancher natif d’environ 1 TFLOPS à environ 500 TFLOPS sur B300 et 400 TFLOPS sur Rubin R200, dépassant de plus d’un ordre de grandeur le plafond FP64 natif du B200 dans le régime limité par le calcul, tout en atteignant le plafond mémoire dans le régime limité par la bande passante. Quatrièmement, en prenant le H100 comme référence, Ozaki II égale ou dépasse le H100 sur toutes les charges étudiées, alors que le FP64 natif du B300 entraîne une régression pouvant atteindre 50×. Combiné à l’analyse FFT du papier compagnon (reconstruction en virgule fixe de Kulisch sur le pipeline INT32 restant) et aux réductions FP32+Kahan rapportées dans le papier compagnon Part(2), chaque classe de noyaux étudiée sur B300 atteint le plafond mémoire en FP64 complet. Les éléments présentés étayent l’affirmation du titre : le FP8, avec les voies de secours Ozaki II et Kulisch, suffit à lui seul pour le HPC de production ; le silicium FP64 natif n’est plus le Saint Graal qu’il était réputé être.

Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.

Lien vers l’article

https://arxiv.org/abs/2606.06510


Limites et opportunités des reviewers IA : étude des reviews d’articles de la famille Nature par 45 scientifiques experts / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Présentation de l’article

À mesure que les reviewers IA sont progressivement introduits dans le processus d’évaluation des articles scientifiques, les limites d’une approche qui juge leurs performances uniquement à l’aune de l’accord avec la décision finale deviennent évidentes. En pratique, la qualité d’une évaluation varie fortement selon la précision de chaque critique formulée par le reviewer, l’importance réelle du problème soulevé et la solidité des preuves avancées à l’appui. Les auteurs ont donc cherché, à ce niveau microscopique, à mettre en lumière avec précision les capacités réelles et les limites des reviewers IA. Pour cela, ils ont conçu une vaste étude d’annotation réunissant 45 scientifiques experts en physique, biologie et sciences de la santé, chargés d’évaluer 2 960 critiques individuelles rédigées par des humains et par des IA à propos de 82 articles de la famille Nature. Chaque critique a été évaluée selon trois axes — correctness (exactitude), significance (importance) et sufficiency of evidence (suffisance des preuves) — et 469 heures d’examen ont permis d’analyser de manière multicouche ce que les reviewers IA font réellement bien et les points où ils échouent. Cette méthodologie est importante car elle dépasse la simple question de savoir si « l’IA aboutit à des conclusions similaires à celles des humains » pour montrer concrètement quels types de problèmes elle détecte mieux, et dans quels contextes elle produit au contraire des jugements excessifs ou imprécis. Les résultats quantitatifs suggèrent que les reviewers IA actuels sont loin de n’être que des outils d’appoint superficiels. Par exemple, un agent de review basé sur GPT-5.2 a obtenu, sur un critère intégrant les trois axes d’évaluation, un score supérieur à celui du reviewer humain le mieux noté pour chaque article, tandis que d’autres reviewers IA, dont Gemini 3.0 Pro et Claude Opus 4.5, dépassaient eux aussi le reviewer humain le moins bien noté sur l’ensemble des axes. Plus encore, les critiques exactes formulées par les reviewers IA ont plus souvent été jugées importantes et suffisamment étayées, et ils ont permis d’identifier 26 % de problèmes supplémentaires que les humains n’avaient pas relevés, ce qui confirme une extension de leur champ de détection. En parallèle, les reviewers IA avaient aussi une forte tendance à répéter des critiques très similaires entre eux, avec un taux de redondance bien plus élevé que chez les humains, et ont révélé des faiblesses récurrentes comme un manque de savoir tacite dans certains sous-domaines, des limites dans la gestion d’un contexte long, ou encore une propension à se montrer excessivement critiques sur des points mineurs. Les exemples qualitatifs de l’annexe montrent que ces faiblesses ne se réduisent pas à de simples erreurs, mais relèvent de problèmes structurels comme une mauvaise lecture des pratiques propres à une discipline, des erreurs de contexte temporel, des exigences excessives qui ne tiennent pas compte de la possibilité de révision, ou l’ignorance d’incohérences entre le code et le texte principal. En définitive, cette étude montre de manière convaincante que les reviewers IA apparaissent moins comme des remplaçants des évaluateurs humains que comme des compléments prometteurs, capables de détecter rapidement un éventail plus large de problèmes et d’effectuer des vérifications détaillées, tout en fournissant des bases importantes pour redéfinir à l’avenir la répartition des rôles entre humains et IA dans l’évaluation scientifique.

Résumé(Abstract)

Avec l’amélioration des performances de l’IA, les reviewers IA commencent à être déployés dans l’évaluation scientifique par les pairs, mais leurs capacités et leur fiabilité restent sujettes à caution. De nombreux scientifiques les considèrent simplement comme des systèmes probabilistes dépourvus de l’expertise nécessaire pour évaluer la recherche, tandis que d’autres chercheurs se montrent plus optimistes quant à leur degré de préparation sans disposer de preuves concrètes. Il est essentiel de comprendre ce que les reviewers IA font bien, où ils échouent et quels défis restent à relever. Cependant, les évaluations existantes des reviewers IA se sont principalement concentrées sur la question de savoir si leurs verdicts correspondent à ceux des humains — par exemple l’alignement des scores ou la prédiction d’acceptation — ce qui ne suffit pas à caractériser leurs capacités et leurs limites. Cet article entend combler cette lacune par une vaste étude d’annotation menée par des experts. Quarante-cinq scientifiques de domaine issus des sciences physiques, des sciences de la vie et des sciences de la santé ont consacré 469 heures à évaluer 2 960 critiques individuelles — chacune visant un aspect précis d’un article — extraites de reviews rédigées par des humains ou générées par IA sur 82 articles de la famille Nature, selon trois critères : l’exactitude, l’importance et la suffisance des preuves. Sur un indicateur composite combinant ces trois dimensions, un agent de review propulsé par GPT-5.2 surpasse le reviewer humain le mieux noté pour chaque article (60,0 % contre 48,2 %, p = 0.009), tandis que l’ensemble des reviewers IA, y compris Gemini 3.0 Pro et Claude Opus 4.5, obtiennent de meilleurs résultats que le reviewer humain le moins bien noté sur toutes les dimensions. En outre, les critiques exactes des reviewers IA ont plus souvent été jugées importantes et suffisamment étayées, et ont permis de faire émerger 26 % de problèmes distincts qu’aucun humain n’avait soulevés. Cependant, le chevauchement entre reviewers IA était bien plus élevé que chez les humains (21 % contre 3 % pour les paires inter-reviewers), et ils présentaient aussi 16 faiblesses récurrentes que les humains ne partagent pas, comme une connaissance limitée de certains sous-domaines, l’incapacité à gérer un contexte long réparti sur plusieurs fichiers, ou une attitude excessivement critique sur des problèmes mineurs. Dans l’ensemble, nos résultats montrent que les reviewers IA actuels doivent être considérés comme des compléments aux reviewers humains, et non comme leurs substituts.

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.

Lien vers l’article

https://arxiv.org/abs/2605.20668

Pour aller plus loin

https://prometheus-eval.github.io/cmu-paper-reviewer/

https://github.com/prometheus-eval/cmu-paper-reviewer

https://huggingface.co/datasets/prometheus-eval/peerreview-bench


LiveBrowseComp : les agents de recherche cherchent-ils vraiment, ou ne font-ils que vérifier ce qu’ils savent déjà ? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

Présentation de l’article

Les agents de recherche basés sur les grands modèles de langage (Large Language Model, LLM) attirent l’attention pour leur capacité à explorer le web externe afin de trouver des faits récents. Mais cette étude part d’un constat critique : dans bien des cas, au lieu de découvrir réellement de nouvelles informations, ils se contentent de confirmer sur le web des connaissances déjà intégrées au modèle (intrinsic knowledge). Les auteurs définissent ce phénomène comme une dépendance aux connaissances intrinsèques (Intrinsic Knowledge Dependence, IKD) et conçoivent une analyse selon trois angles pour diagnostiquer avec précision dans quelle mesure les outils de recherche étendent réellement le raisonnement de l’agent. Premièrement, ils mesurent ce que le modèle peut répondre dans une configuration closed-book, sans aucun outil, afin de vérifier à quel point les benchmarks existants sont déjà absorbés par les connaissances internes du modèle. Deuxièmement, ils autorisent la recherche mais retirent les documents de preuve qui soutiennent la bonne réponse, afin d’observer si l’agent exploite vraiment des preuves externes ou s’il se contente de confirmer une hypothèse déjà formulée. Troisièmement, ils suivent les trajectoires de recherche et classent les requêtes selon qu’elles partent d’une hypothèse générée en interne par le modèle ou d’un indice obtenu dans les résultats de recherche, dans le but de distinguer si la recherche relève d’un processus de découverte ou de vérification. Cette méthodologie va au-delà d’une simple comparaison des taux de bonnes réponses et se distingue par sa capacité à disséquer le fonctionnement réel des agents de recherche.

Les résultats montrent clairement que les benchmarks de recherche existants peuvent confondre capacité de recherche et revalidation fondée sur la mémoire. Certains modèles répondent à jusqu’à 44,5 % des questions de BrowseComp sans aucun outil, plus de la moitié des requêtes de recherche commencent à partir d’hypothèses générées par le modèle plutôt qu’à partir des résultats de recherche, et lorsque les preuves soutenant la bonne réponse sont supprimées, les performances tombent même en dessous du niveau closed-book. Cela suggère que les agents de recherche ont une forte tendance à utiliser la recherche non pas pour découvrir de nouveaux faits sur le web, mais pour vérifier ce qu’ils savent déjà. Pour remédier à ce problème, les auteurs proposent un nouveau benchmark de deep-search appelé LiveBrowseComp. LiveBrowseComp se compose de 335 questions rédigées par des humains, dont les réponses dépendent de faits publiés dans les 90 jours précédant la construction du benchmark. Il s’appuie sur six sources continuellement mises à jour — GDELT, TMDB, RAWG, CVE/NVD, SportsDB et USGS — et a été conçu pour ne pas pouvoir être résolu facilement à partir des connaissances préalables des modèles existants. En outre, les événements largement connus à l’échelle mondiale ont été exclus afin de réduire la probabilité qu’un simple rappel ou une supposition de bon sens mène à la bonne réponse. En conséquence, tous les agents évalués restent sous les 2 % de précision en closed-book, les scores avec recherche chutent de 25 à 40 points par rapport à BrowseComp, et le classement des modèles existants ne permet plus de prédire de manière stable les performances. En définitive, cette étude montre de façon convaincante que, pour évaluer les performances des agents de recherche, il faut regarder non pas « dans quelle mesure ils confirment bien ce qu’ils savent déjà », mais « dans quelle mesure ils parviennent réellement à trouver des faits inconnus au-delà des frontières actuelles de leur connaissance ».

Résumé (Abstract)

Les agents de recherche basés sur les grands modèles de langage (LLM) effectuent-ils réellement une recherche, ou utilisent-ils le web pour vérifier ce qu’ils savent déjà ? Nous étudions cette question sur BrowseComp à l’aide de trois indicateurs diagnostiques. Notre analyse met en évidence la dépendance aux connaissances intrinsèques (Intrinsic Knowledge Dependence, IKD) : même avec accès à des outils, les agents s’appuient souvent sur des connaissances intrinsèques — c’est-à-dire des informations encodées dans le modèle avant la récupération — plutôt que sur des preuves externes obtenues par la recherche. Les agents répondent à jusqu’à 44,5 % des questions de BrowseComp sans outils, génèrent plus de la moitié de leurs requêtes de recherche à partir d’hypothèses produites en interne plutôt qu’à partir d’indices récupérés, et obtiennent des performances inférieures à la baseline closed-book lorsque les preuves soutenant la réponse sont retirées. Ces résultats suggèrent que les benchmarks de recherche statiques peuvent récompenser une vérification fondée sur la mémoire plutôt qu’une découverte guidée par les preuves, et brouiller la distinction entre ce que les agents savent déjà et ce qu’ils peuvent réellement trouver.

Nous introduisons ensuite LiveBrowseComp, un benchmark de deep-search conçu pour évaluer les agents au-delà de leur couverture intrinsèque. Ce benchmark se compose de 335 questions rédigées par des humains, dont les réponses dépendent de faits publiés dans les 90 jours précédant la construction du benchmark. Les questions ont été extraites de six sources mises à jour, et les événements largement connus dans le monde entier ont été exclus par filtrage. Sur LiveBrowseComp, tous les agents évalués restent sous les 2 % de précision closed-book, les scores augmentés par la recherche baissent de 25 à 40 points par rapport à BrowseComp, et les classements antérieurs des modèles ne permettent plus de prédire fiablement les performances. LiveBrowseComp est disponible à l’adresse https://huggingface.co/datasets/Forival/LiveBrowseComp.

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.

Lien vers l’article

https://arxiv.org/abs/2605.28721

Pour aller plus loin

https://huggingface.co/datasets/Forival/LiveBrowseComp


Goulot d’étranglement de l’information pour apprendre l’espace des phases de dynamiques à partir de données expérimentales de haute dimension / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

Présentation de l’article

Le problème consistant à identifier, à partir d’observations vidéo haute dimension ou de séries temporelles, les variables d’état qui gouvernent réellement la dynamique d’un système est depuis longtemps considéré comme une question majeure en physique, en biologie et plus largement dans l’étude des systèmes complexes. Les observations elles-mêmes contiennent beaucoup de bruit et d’informations redondantes, mais elles masquent souvent une structure d’espace des phases (phase space) de dimension relativement faible. L’enjeu n’est donc pas de reconstruire fidèlement les observations, mais de trouver des coordonnées latentes qui expliquent au mieux cette dynamique. Sur cette base, les auteurs proposent DySIB (Dynamical Symmetric Information Bottleneck), qui apprend une représentation basse dimension en maximisant l’information mutuelle prédictive (predictive mutual information) entre des fenêtres d’observation passées et futures, tout en limitant la complexité de la représentation latente. Une caractéristique importante de cette approche est que, contrairement à un autoencoder qui minimise directement l’erreur de reconstruction, l’apprentissage se fait uniquement dans l’espace latent sans reconstruire les images d’entrée, ce qui permet d’éliminer sans hésitation les variations de détail non pertinentes pour la prédiction de la dynamique.

La méthodologie de DySIB étend le principe de l’Information Bottleneck au problème de l’apprentissage de dynamiques, en concevant la représentation latente non pas comme un simple vecteur compressé, mais comme une statistique suffisante (sufficient statistic) apte à bien prédire le futur. Pour cela, elle adopte une structure traitant de manière symétrique le passé et le futur, estime l’information prédictive à l’aide de la borne inférieure InfoNCE, et contrôle la complexité de la représentation via une distribution a priori gaussienne. Elle utilise également un plongement à retard temporel (time-delay embedding) et un encodeur partagé (shared encoder) afin de projeter les fenêtres passées et futures selon le même référentiel géométrique, ce qui améliore la comparabilité et l’interprétabilité dans l’espace latent. Cette conception se distingue ainsi des modèles prédictifs classiques en ce qu’elle ne vise pas simplement à générer l’image suivante, mais à apprendre un système de coordonnées capturant la structure essentielle de la dynamique.

La validation expérimentale a été menée sur des données vidéo expérimentales d’un pendule physique (physical pendulum), un système idéal pour l’évaluation rigoureuse puisque son espace d’état réel est déjà connu. Au final, DySIB a sélectionné de manière auto-cohérente la dimension latente et la longueur de la fenêtre temporelle adaptées aux données, puis a restauré une représentation bidimensionnelle conforme aux véritables degrés de liberté du pendule, les coordonnées apprises correspondant de façon lisse à l’angle et à la vitesse angulaire. Au-delà de cela, cette représentation a également reproduit le point d’équilibre stable, la selle instable, la séparatrice (separatrix) ainsi que la structure topologique annulaire distinguant rotation et oscillation, montrant qu’elle capture conjointement la dimensionnalité, la topologie et la structure géométrique, et pas seulement une simple similarité visuelle. Le fait qu’une telle reconstruction soit possible même à partir de vidéos de faible résolution renforce l’idée que DySIB est efficace pour écarter les détails d’observation superflus et extraire uniquement les informations dynamiquement importantes.

L’intérêt de cette étude tient au fait qu’elle montre qu’il est possible de découvrir directement des coordonnées dynamiques interprétables à partir d’observations haute dimension. En particulier, en reconstruisant de manière fondée sur les données des concepts de longue date en physique tels que les variables d’état, les variables effectives et les paramètres d’ordre, DySIB peut être vu comme un pont méthodologique entre la physique théorique traditionnelle et l’apprentissage moderne de représentations. En même temps, l’étude met aussi clairement en évidence certaines limites, comme la non-unicité des représentations latentes, la liberté de jauge (gauge freedom) ou la possibilité d’extension à des systèmes non linéaires plus complexes, laissant entrevoir des prolongements futurs vers des cas de fort bruit, de systèmes chaotiques ou de systèmes multi-échelles. Malgré cela, l’article démontre expérimentalement qu’il est possible, à partir de la seule information prédictive, de reconstruire les coordonnées du véritable espace des phases, ouvrant ainsi une nouvelle voie de recherche reliant les observations brutes à des équations du mouvement interprétables.

Résumé(Abstract)

Identifier les variables d’état dynamiques d’un système à partir d’observations haute dimension est un problème central dans l’ensemble des sciences physiques. La difficulté vient du fait que ces variables d’état ne sont pas directement observables et doivent être inférées sans supervision à partir de données brutes de grande dimension. Nous présentons ici DySIB (Dynamical Symmetric Information Bottleneck), une méthode permettant d’apprendre des représentations de faible dimension de données de séries temporelles en maximisant l’information mutuelle prédictive entre des fenêtres d’observation passées et futures tout en pénalisant la complexité de la représentation. Cet objectif fonctionne entièrement dans l’espace latent et ne nécessite pas de reconstruction des observations. Nous appliquons DySIB à un jeu de données vidéo expérimental d’un pendule physique, dont l’espace d’état réel est connu. Avec des hyperparamètres de l’architecture d’apprentissage définis de manière auto-cohérente par les données, la méthode retrouve une représentation bidimensionnelle conforme à la dimensionnalité, à la topologie et à la géométrie de l’espace des phases du pendule, les coordonnées apprises s’alignant de manière lisse sur l’angle canonique et la vitesse angulaire. Ces résultats montrent que, sur un système expérimental bien caractérisé, l’information prédictive dans l’espace latent peut être utilisée pour reconstruire directement, à partir de données de grande dimension, des coordonnées dynamiques interprétables.

Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.

Lien vers l’article

https://arxiv.org/abs/2604.24662


AutoScientists : équipes d’agents auto-organisées pour des expérimentations scientifiques de longue durée / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

[IMG] AutoScientists : équipes d’agents auto-organisées pour des expérimentations scientifiques de longue durée / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
|1028x488

Présentation de l’article

Dans les expériences scientifiques de long terme, un cycle se répète : formuler une hypothèse, concevoir une expérience, l’exécuter, puis réorienter le travail en fonction des résultats. AutoScientists formalise ce processus comme un problème d’exploration itérative et propose un système d’agents distribué pour l’exécuter. Alors que les agents d’IA existants suivent le plus souvent une trajectoire de recherche unique ou n’accomplissent que des objectifs figés définis par un planificateur central, cette méthode est conçue pour que plusieurs agents lisent et écrivent conjointement dans un état partagé (shared state) et s’auto-organisent en équipes qui se forment et se reconfigurent d’elles-mêmes. L’idée centrale est que, plutôt que de recevoir des consignes centralisées, les agents se regroupent de manière autonome autour des hypothèses prometteuses au rythme où les preuves s’accumulent, examinent de façon critique les propositions des autres avant de consommer des ressources expérimentales, et partagent aussi bien les succès que les échecs afin de réduire l’exploration redondante. À cette fin, l’article définit un problème d’optimisation consistant à trouver, dans l’espace de recherche, le programme qui maximise les performances d’évaluation à partir d’une description de tâche, d’un programme initial, d’un jeu de données d’entraînement et de métriques d’évaluation. Il clarifie également les critères d’évaluation des expériences de long terme en distinguant les données d’apprentissage et de validation, ainsi que, si nécessaire, la validation croisée (cross-validation, CV). Cette formulation est importante en ce qu’elle conduit à considérer la découverte scientifique non comme une simple prédiction ponctuelle, mais comme un processus de recherche où les modifications et validations au niveau du programme s’accumulent continuellement.

Le fonctionnement d’AutoScientists repose principalement sur l’alternance entre une phase de discussion et une phase d’exécution. Pendant la phase de discussion, les agents débattent, à partir du modèle champion actuellement le meilleur, de l’historique des expériences passées et du contenu du forum partagé, des hypothèses les plus prometteuses. Au départ, ils proposent largement différentes directions d’exploration, puis critiquent mutuellement leurs idées afin d’identifier les angles morts de l’espace de recherche. Ensuite, lors de la phase d’exécution, les équipes ainsi constituées mènent des expériences en parallèle et consignent les résultats de chaque expérience dans les journaux d’expérimentation et sur le forum partagé, afin que les autres équipes puissent s’y référer immédiatement. En particulier, le système sépare les fonctions : des agents analystes identifient et proposent des pistes encore inexplorées, tandis que des agents expérimentateurs réalisent concrètement les modifications de code et l’entraînement, ce qui réduit les goulets d’étranglement fréquents dans les longues campagnes expérimentales. Le système conserve aussi les expériences échouées dans une liste distincte pour éviter de répéter la même direction, et prévoit une procédure selon laquelle, lorsqu’un gain de performance peut n’être qu’un bruit statistique, celui-ci n’est promu qu’après revalidation avec des seeds supplémentaires, afin d’éviter de prendre une amélioration fortuite pour un véritable progrès.

La principale force de cette approche ne réside pas simplement dans la génération d’un plus grand nombre d’idées, mais dans la mise en place systématique d’une structure où les connaissances expérimentales s’accumulent. Les agents conservent leur état interne et leur mémoire, apprennent sur de longues périodes, analysent les mécanismes des modifications réussies pour les relier à des hypothèses ultérieures, et préservent même les pistes ayant échoué comme actifs d’apprentissage pour l’ensemble du système. En conséquence, AutoScientists produit comme résultats de recherche non seulement le programme le plus performant, mais aussi une model card et un rapport de résultats, garantissant à la fois la reproductibilité et l’interprétabilité. Cette conception se distingue nettement des approches existantes à base d’agents en ce qu’elle réunit dans un même système l’adaptabilité, le parallélisme et l’apprentissage à partir des échecs, trois éléments essentiels aux expériences scientifiques de longue durée. En pratique, la méthode a obtenu de meilleurs résultats que les agents existants en apprentissage automatique biomédical, en optimisation de l’entraînement des modèles de langage et en prédiction de fitness des protéines. Sur BioML-Bench, elle a atteint un percentile moyen de leaderboard de 74,4 % sur 24 tâches, avec une amélioration de 8,33 % par rapport à l’agent unique le plus performant. Dans l’optimisation de l’entraînement GPT, elle a atteint le bits-per-byte de validation visé 1,9 fois plus rapidement qu’Autoresearch. Sur ProteinGym, elle a également montré des améliorations dépassant l’état de l’art précédent, à la fois sur le problème de liaison ACE2-Spike et sur l’ensemble des 217 assays, démontrant ainsi que des agents distribués auto-organisés peuvent produire un effet réel sur l’exploration scientifique de long terme.

Résumé (Abstract)

La recherche scientifique progresse par cycles itératifs de génération d’hypothèses, de conception d’expériences, d’exécution et de révision. Les agents d’IA peuvent automatiser une partie de ce processus, mais les approches existantes suivent généralement une seule trajectoire de recherche ou sont coordonnées par un planificateur central aux objectifs fixes. En conséquence, elles peinent à maintenir une exploration parallèle, à s’adapter lorsque les preuves expérimentales évoluent, ou à préserver la connaissance des pistes infructueuses dans des expériences de longue durée. Nous présentons AutoScientists, une équipe décentralisée d’agents d’IA conçue pour les expérimentations scientifiques computationnelles de longue durée. Les agents interprètent un état expérimental partagé, s’auto-organisent en équipes autour d’hypothèses prometteuses, critiquent les propositions avant d’utiliser les ressources de calcul expérimentales, et partagent réussites comme échecs afin de réduire l’exploration redondante. À budget expérimental équivalent, AutoScientists surpasse les agents d’IA précédents en machine learning biomédical, en optimisation de l’entraînement de modèles de langage et en prédiction de fitness protéique. Sur BioML-Bench, qui couvre l’imagerie biomédicale, l’ingénierie des protéines, les omiques unicellulaires et la découverte de médicaments, AutoScientists atteint un percentile moyen de 74,4 % sur le leaderboard à travers 24 tâches, soit une amélioration de +8,33 % par rapport à l’agent d’IA le plus performant. Pour l’optimisation de l’entraînement de GPT, AutoScientists atteint une cible de validation en bits-per-byte 1,9 fois plus vite qu’Autoresearch et continue de découvrir des améliorations à partir d’un état champion initial où l’approche à agent unique n’en trouve aucune (7 améliorations acceptées contre 0). En prédiction de fitness sur ProteinGym, AutoScientists découvre une méthode pour la liaison ACE2-Spike qui améliore de +12,5 % la corrélation de Spearman par rapport au modèle actuel de référence. Appliquée sans modification à l’ensemble des 217 essais de ProteinGym, cette même méthode améliore la corrélation de Spearman de +6,5 % par rapport à l’état de l’art précédent.

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).

Lien vers l’article

https://arxiv.org/abs/2605.28655

Pour aller plus loin

https://autoscientists.openscientist.ai/

https://github.com/mims-harvard/AutoScientists


⚠️Publicité⚠️ : 🔥Vous avez trouvé cet article, compilé par la communauté coréenne des utilisateurs de PyTorch 🇰🇷, utile ? En devenant membre, vous recevrez les principaux articles par e-mail 💌 ! Vous pouvez aussi recevoir les notifications de nouveaux articles via Telegram ou Slack/Discord/Teams/Dooray/GoogleChat, etc.. :D

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.