[2025/09/08 ~ 14] Sélection d’articles de recherche IA/ML à suivre cette semaine
(discuss.pytorch.kr)[2025/09/08 ~ 14] Sélection d’articles de recherche IA/ML à suivre cette semaine
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Hallucinations des modèles de langage : des recherches récentes soulignent que les grands modèles de langage, lorsqu’ils sont incertains, ont tendance à produire des affirmations plausibles mais inexactes en « devinant », ce qui provoque le phénomène d’« hallucination ». Cela viendrait du fait que les procédures d’entraînement et d’évaluation tendent à récompenser la supposition plutôt que la reconnaissance de l’incertitude, et les auteurs soutiennent qu’il faut modifier le système de notation des benchmarks existants pour traiter ce problème.
2️⃣ Comprendre la structure sémantique : de plus en plus d’études analysent la manière dont les relations sémantiques sont structurées dans les matrices d’embedding des grands modèles de langage. Ces travaux mettent en avant la découverte de structures de faible dimension proches des évaluations sémantiques humaines, ainsi qu’une forte corrélation entre les évaluations humaines et les projections selon les directions sémantiques des mots. Cela suggère que les modèles de langage traitent l’information sémantique d’une manière proche du langage humain.
3️⃣ Améliorer les capacités de raisonnement avancé via l’apprentissage par renforcement : de nombreuses recherches visent à améliorer les capacités de raisonnement complexe des grands modèles de langage à l’aide de l’apprentissage par renforcement (RL). En particulier, des méthodes ont été proposées pour ajuster la profondeur et la largeur afin d’accroître l’efficacité des algorithmes de RL, ce qui jouerait un rôle important dans la capacité des modèles à explorer et maîtriser des plans stratégiques avancés. Cette approche s’inscrit dans de nouveaux paradigmes comme le RLVR (apprentissage par renforcement à récompense vérifiable).
Pourquoi les modèles de langage hallucinent / Why Language Models Hallucinate (feat. OpenAI)
Présentation de l’article
Les grands modèles de langage ont tendance à deviner la bonne réponse dans les situations d’incertitude, ce qui entraîne un phénomène d’« hallucination » où ils génèrent des informations plausibles mais erronées. Ces hallucinations restent un problème même dans les modèles les plus récents et constituent l’une des principales causes de perte de fiabilité. Cette étude attribue les raisons de ces hallucinations au fait que les procédures d’entraînement et d’évaluation récompensent davantage la supposition que la reconnaissance de l’incertitude. En particulier, les hallucinations proviennent d’erreurs de classification binaire et apparaissent sous l’effet de pressions statistiques naturelles lorsque les affirmations incorrectes ne peuvent pas être distinguées des faits.
Lors de la phase de pré-entraînement, les modèles de langage apprennent la distribution du langage à partir de vastes corpus textuels, et des erreurs peuvent apparaître au cours de ce processus. Ces erreurs sont ensuite continuellement renforcées par des méthodes d’évaluation qui pénalisent les réponses incertaines. Les chercheurs soulignent que les modèles de langage ont tendance à éviter d’exprimer leur incertitude et à deviner pour obtenir de bons résultats aux tests, et soutiennent que cette tendance contribue à la persistance des hallucinations.
Cet article publié par OpenAI identifie les causes statistiques des hallucinations, en analyse les origines dans le pré-entraînement ainsi que leur persistance dans le post-entraînement. Il propose également que la modification des méthodes d’évaluation existantes puisse constituer un moyen efficace d’atténuer le phénomène d’hallucination. Cette approche ouvre la voie à une meilleure fiabilité des modèles de langage et, au-delà, à des systèmes d’IA plus dignes de confiance. Les résultats de l’étude peuvent servir de base importante pour mieux comprendre et améliorer le phénomène d’hallucination des modèles de langage.
Résumé de l’article (Abstract)
Comme des étudiants confrontés à des questions d’examen difficiles, les grands modèles de langage devinent parfois lorsqu’ils sont incertains, produisant des affirmations plausibles mais incorrectes au lieu de reconnaître leur incertitude. Ces « hallucinations » persistent même dans les systèmes les plus avancés et sapent la confiance. Nous soutenons que les modèles de langage hallucinent parce que les procédures d’entraînement et d’évaluation récompensent la supposition plutôt que la reconnaissance de l’incertitude, et nous analysons les causes statistiques des hallucinations dans la pipeline d’entraînement moderne. Les hallucinations n’ont rien de mystérieux. Elles proviennent simplement d’erreurs de classification binaire. Si les affirmations incorrectes ne peuvent pas être distinguées des faits, alors les hallucinations dans les modèles de langage pré-entraînés émergeront sous l’effet de pressions statistiques naturelles. Nous soutenons également que les hallucinations persistent en raison de la manière dont la plupart des évaluations sont notées. Les modèles de langage sont optimisés pour être de bons candidats aux examens, et deviner lorsqu’ils sont incertains améliore les performances aux tests. Cette « épidémie » de pénalisation des réponses incertaines ne peut être traitée que par une atténuation socio-technique : modifier la notation des benchmarks existants, mal alignés mais dominants dans les classements, plutôt que d’introduire de nouvelles évaluations des hallucinations. Un tel changement pourrait orienter le domaine vers des systèmes d’IA plus fiables.
Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.
Lien vers l’article
https://arxiv.org/abs/2509.04664
Structure sémantique dans les embeddings des grands modèles de langage / Semantic Structure in Large Language Model Embeddings
Présentation de l’article
La structure des embeddings des grands modèles de langage (LLMs) est particulièrement remarquable en ce qu’elle représente l’information sémantique d’une manière proche de la cognition linguistique humaine. Cette étude s’appuie sur des découvertes en psychologie pour analyser les relations sémantiques entre les mots dans la matrice d’embedding des LLM, et examine la corrélation entre les évaluations humaines des mots et les représentations internes des LLM. Les résultats montrent que, dans les embeddings des LLM, les projections des mots peuvent être réduites à trois dimensions principales : l’évaluation (bon vs. mauvais), l’intensité (fort vs. faible) et l’activité (actif vs. passif).
Cette recherche compare des données recueillies via une enquête portant sur 360 mots avec les embeddings des LLM afin d’analyser quantitativement la corrélation entre les évaluations sémantiques humaines et les embeddings des LLM. En particulier, elle met en avant le fait que les propriétés des LLM sont imbriquées entre elles, en extrayant les directions des caractéristiques sémantiques des mots et en mesurant, à partir de celles-ci, les effets hors cible par intervention. Ces résultats suggèrent que les embeddings des LLM reflètent la complexité du langage humain et que l’information sémantique est relativement de faible dimension.
En outre, l’étude souligne qu’il est important de mesurer les relations entre caractéristiques individuelles pour comprendre le fonctionnement interne des LLM, ce qui pourrait avoir un effet positif sur la sécurité de l’IA et l’ajustement fonctionnel. Une telle approche peut aussi contribuer à éviter des conséquences non intentionnelles lors du feature steering des LLM. Cette recherche apporte une contribution importante à la compréhension de la structure sémantique des LLM et, par là même, à une compréhension plus claire du comportement des modèles.
Résumé de l’article (Abstract)
Les recherches en psychologie montrent de manière constante que les évaluations humaines des mots sur diverses échelles sémantiques peuvent être réduites à une forme de faible dimension avec relativement peu de perte d’information. Nous avons constaté que les associations sémantiques encodées dans les matrices d’embedding des grands modèles de langage (LLM) présentent une structure similaire. Nous montrons que les projections des mots sur des directions sémantiques définies par des paires d’antonymes (par ex. gentil - cruel) sont fortement corrélées aux évaluations humaines, et nous constatons en outre que ces projections se réduisent efficacement à un sous-espace tridimensionnel au sein des embeddings des LLM. Cela ressemble étroitement aux motifs dérivés des réponses à des enquêtes humaines. Nous avons également observé que déplacer des tokens le long d’une direction sémantique provoque des effets hors cible sur des caractéristiques géométriquement alignées, proportionnels à leur similarité cosinus. Ces résultats suggèrent que les caractéristiques sémantiques sont imbriquées dans les LLM de manière similaire à la façon dont elles sont interconnectées dans le langage humain, et qu’une grande quantité d’information sémantique, malgré sa complexité apparente, est étonnamment de faible dimension. En outre, prendre en compte cette structure sémantique peut s’avérer essentiel pour éviter des conséquences inattendues lors du pilotage de caractéristiques.
> Les recherches en psychologie montrent de manière constante que les évaluations humaines des mots sur diverses échelles sémantiques peuvent être réduites à une forme de faible dimension avec relativement peu de perte d’information. Nous avons constaté que les associations sémantiques encodées dans les matrices d’embedding des grands modèles de langage (LLM) présentent une structure similaire. Nous montrons que les projections des mots sur des directions sémantiques définies par des paires d’antonymes (par ex. kind - cruel) sont fortement corrélées aux évaluations humaines, et nous constatons en outre que ces projections se réduisent efficacement à un sous-espace tridimensionnel au sein des embeddings des LLM, ressemblant étroitement aux motifs dérivés des réponses à des enquêtes humaines. De plus, nous constatons que déplacer des tokens le long d’une direction sémantique entraîne des effets hors cible sur des caractéristiques géométriquement alignées, proportionnels à leur similarité cosinus. Ces résultats suggèrent que les caractéristiques sémantiques sont imbriquées au sein des LLM de manière similaire à la façon dont elles sont interconnectées dans le langage humain, et qu’une grande quantité d’information sémantique, malgré sa complexité apparente, est étonnamment de faible dimension. En outre, prendre en compte cette structure sémantique pourrait s’avérer essentiel pour éviter des conséquences inattendues lors du pilotage de caractéristiques.
Lien vers l’article
https://arxiv.org/abs/2508.10003
rStar2-Agent : rapport technique sur le raisonnement agentique / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)
Présentation de l’article
rStar2-Agent est un modèle de raisonnement mathématique de 14 milliards de paramètres, conçu pour atteindre des performances de pointe grâce au reinforcement learning agentique. Ce modèle va au-delà des approches classiques de Long Chain-of-Thought (Long-CoT) et manifeste des comportements cognitifs avancés dans les processus de résolution de problèmes complexes. En particulier, lorsqu’il utilise un outil de codage Python, il réfléchit avec prudence, intègre les retours d’exécution du code et explore puis vérifie de manière autonome les étapes intermédiaires.
Cette innovation repose sur trois éléments majeurs.
Premièrement, rStar2-Agent met en place un environnement de code Python fiable via une infrastructure RL efficace, afin de prendre en charge une exécution à haut débit. Cette infrastructure est conçue pour permettre un entraînement efficace même avec des ressources GPU limitées, ce qui atténue le coût élevé des rollouts. Deuxièmement, l’algorithme de RL agentique GRPO-RoC exploite une stratégie de rollout Resample-on-Correct pour gérer le bruit environnemental des outils de codage et permettre au modèle de raisonner plus efficacement dans l’environnement de code. Troisièmement, une recette d’entraînement agentique efficace, qui démarre avec un SFT (Supervised Fine-Tuning) non raisonneur puis progresse via un RL en plusieurs étapes, permet d’obtenir des capacités cognitives avancées avec un coût de calcul minimal.
Grâce à cette méthodologie, rStar2-Agent propulse en seulement 510 étapes de RL un modèle préentraîné de 14 milliards de paramètres au niveau de l’état de l’art, en atteignant des scores pass@1 moyens de 80,6 % sur AIME24 et 69,8 % sur AIME25. Il surpasse ainsi DeepSeek-R1 (671B), tout en réduisant fortement le temps de réponse. En outre, rStar2-Agent démontre une solide capacité de généralisation au-delà de la résolution de problèmes mathématiques, notamment sur des tâches d’alignement, de raisonnement scientifique et d’usage agentique d’outils. Ces résultats montrent que l’approche de RL agentique contribue de manière significative au renforcement des comportements cognitifs dans la résolution de problèmes complexes.
Résumé(Abstract)
Nous présentons rStar2-Agent, un modèle de raisonnement mathématique 14B entraîné avec un apprentissage par renforcement agentique pour atteindre des performances de niveau frontier. Au-delà des longues chaînes de pensée (CoT) actuelles, ce modèle montre des comportements cognitifs avancés : il réfléchit soigneusement avant d’utiliser des outils de programmation Python et intègre les retours d’exécution du code afin d’explorer, vérifier et affiner de manière autonome les étapes intermédiaires dans des processus complexes de résolution de problèmes. Cette capacité repose sur trois innovations majeures qui rendent l’agentic RL efficace à grande échelle : (i) une infrastructure RL efficace, dotée d’un environnement de code Python fiable, qui prend en charge une exécution à haut débit et atténue les coûts élevés des rollouts, permettant l’entraînement avec des ressources GPU limitées (64 GPU MI300X) ; (ii) GRPO-RoC, un algorithme d’agentic RL avec une stratégie de rollout Resample-on-Correct, qui traite le bruit environnemental inhérent aux outils de codage et permet au modèle de raisonner plus efficacement dans un environnement de code ; (iii) une recette d’entraînement d’agent efficace, qui démarre avec un SFT non centré sur le raisonnement puis progresse à travers plusieurs étapes de RL, pour produire des capacités cognitives avancées avec un coût de calcul minimal. À cette fin, rStar2-Agent hisse un modèle 14B préentraîné à l’état de l’art en seulement 510 étapes de RL, avec un entraînement réalisé en une semaine, obtenant un score moyen pass@1 de 80,6 % sur AIME24 et de 69,8 % sur AIME25, dépassant DeepSeek-R1 (671B) avec des réponses nettement plus courtes. Au-delà des mathématiques, rStar2-Agent-14B montre également une forte capacité de généralisation sur des tâches d’alignement, de raisonnement scientifique et d’usage agentique d’outils. Le code et la recette d’entraînement sont disponibles sur https://github.com/microsoft/rStar.
> We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.
Lien vers l’article
https://arxiv.org/abs/2508.20722
Pour aller plus loin
https://github.com/microsoft/rStar
uGMM-NN : réseau de neurones à modèle de mélange gaussien univarié / uGMM-NN: Univariate Gaussian Mixture Model Neural Network
Présentation de l’article
Le réseau de neurones à modèle de mélange gaussien univarié (Univariate Gaussian Mixture Model Neural Network, uGMM-NN) est une architecture innovante qui intègre directement l’inférence probabiliste dans les unités de calcul des réseaux de neurones profonds, en adoptant une approche où chaque neurone paramètre sa propre activation comme un mélange gaussien univarié. Cette approche dépasse les limites des neurones traditionnels fondés sur une somme pondérée et une non-linéarité fixe, et permet de capturer efficacement la multimodalité et l’incertitude au niveau de chaque neurone grâce à des moyennes, variances et coefficients de mélange apprenables. Cette conception donne au modèle la flexibilité nécessaire pour apprendre des distributions de données complexes, tout en conservant la scalabilité des réseaux feedforward standard.
Par rapport aux perceptrons multicouches (Multilayer Perceptron, MLP) existants, uGMM-NN peut atteindre des performances discriminantes compétitives tout en rendant possible une interprétation probabiliste des activations. Le modèle acquiert ainsi la capacité d’aller au-delà de simples frontières de décision pour comprendre et représenter la structure complexe des données. Le framework proposé pose les bases de l’intégration de composants sensibles à l’incertitude dans les architectures neuronales modernes, ouvrant ainsi de nouvelles pistes de recherche pour la modélisation discriminante comme générative.
La structure de uGMM-NN est conçue de sorte que chaque neurone représente son activation au moyen de coefficients de mélange, de moyennes et de variances, ces éléments étant optimisés au cours de l’apprentissage. La méthode d’entraînement met à jour les paramètres à l’aide de l’algorithme de rétropropagation, tandis que la fonction de perte est conçue pour minimiser l’écart entre l’activation de chaque neurone et les labels réels. Dans ce processus, des techniques d’optimisation fondées sur le gradient sont appliquées afin de maximiser les performances du modèle.
Les résultats expérimentaux montrent que uGMM-NN obtient une précision supérieure à celle des MLP classiques sur divers jeux de données de référence, démontrant sa capacité à traiter efficacement l’incertitude. Ces résultats prouvent la supériorité de uGMM-NN et constituent une base importante pour orienter les futurs travaux sur la modélisation sensible à l’incertitude. Cette recherche explore son potentiel d’utilisation dans divers domaines d’application et débouche sur une discussion autour de la scalabilité de uGMM-NN et de ses possibilités d’intégration avec d’autres modèles.
Résumé de l’article (Abstract)
Cet article présente le Univariate Gaussian Mixture Model Neural Network (uGMM-NN), une nouvelle architecture neuronale qui intègre directement le raisonnement probabiliste dans les unités de calcul des réseaux profonds. Contrairement aux neurones traditionnels, qui appliquent des sommes pondérées suivies de non-linéarités fixes, chaque nœud uGMM-NN paramètre ses activations comme un mélange gaussien univarié, avec des moyennes, variances et coefficients de mélange apprenables. Cette conception permet des représentations plus riches en capturant la multimodalité et l’incertitude au niveau de chaque neurone, tout en conservant la capacité de passage à l’échelle des réseaux feedforward standard. Nous montrons que uGMM-NN peut atteindre des performances discriminatives compétitives par rapport aux perceptrons multicouches classiques, tout en offrant en plus une interprétation probabiliste des activations. Le cadre proposé fournit une base pour intégrer des composants sensibles à l’incertitude dans les architectures neuronales modernes, ouvrant de nouvelles directions pour la modélisation à la fois discriminative et générative.
> This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling.
Lien vers l’article
https://arxiv.org/abs/2509.07569
Raisonnement hiérarchique émergent dans les grands modèles de langage via l’apprentissage par renforcement / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
Présentation de l’article
Les recherches visant à améliorer les capacités de raisonnement complexes des grands modèles de langage (LLMs) se sont récemment imposées comme un sujet majeur dans le domaine de l’IA. Cette étude explore comment l’apprentissage par renforcement (Reinforcement Learning, RL) améliore ces capacités des LLM, et montre que plusieurs phénomènes observés au cours de ce processus sont interconnectés. En particulier, des expériences comme le « moment aha » sont étroitement liées à une pensée stratégique de haut niveau, ce qui peut être interprété comme la caractéristique d’une hiérarchie de raisonnement émergente, comparable à la séparation entre planification de haut niveau et exécution de bas niveau dans les processus cognitifs humains.
L’étude présente une dynamique en deux phases. Dans la phase initiale, le modèle est limité par la précision procédurale et doit améliorer ses compétences de bas niveau. Ensuite, le goulot d’étranglement de l’apprentissage se déplace, et les gains de performance sont alors portés par l’exploration et la maîtrise de la planification stratégique de haut niveau. Ces observations mettent en lumière l’inefficacité des algorithmes de RL existants, en particulier GRPO (Generalized Reinforcement Policy Optimization), en soulignant que cet algorithme applique une pression d’optimisation de manière indiscriminée, ce qui dilue le signal d’apprentissage.
Pour résoudre ce problème, les auteurs proposent un nouvel algorithme appelé HIerarchy-Aware Credit Assignment (HICRA). HICRA se concentre sur la résolution des goulets d’étranglement stratégiques en concentrant l’effort d’optimisation sur les tokens de planification à fort impact. Cet algorithme affiche de meilleures performances que des baselines solides, montrant qu’il peut servir de clé pour débloquer un raisonnement avancé. En outre, les auteurs proposent l’entropie sémantique comme meilleur indicateur de l’exploration stratégique, avec de meilleures performances que des métriques potentiellement trompeuses comme l’entropie au niveau des tokens.
Cette étude propose une nouvelle approche pour améliorer l’efficacité des processus d’apprentissage et de raisonnement des LLM, et souligne la nécessité d’une optimisation ciblée sur la planification stratégique via l’algorithme HICRA. Ces contributions devraient faire progresser davantage les capacités de raisonnement complexes des LLM et constituer une base importante pour les recherches futures.
Résumé(Abstract)
Le reinforcement learning (RL) s’est révélé très efficace pour améliorer les capacités de raisonnement complexes des grands modèles de langage (LLM), mais les mécanismes fondamentaux à l’origine de ce succès restent largement opaques. Notre analyse montre que des phénomènes déroutants comme les « aha moments », le « length-scaling » et la dynamique de l’entropie ne sont pas des événements isolés, mais les marques d’une hiérarchie émergente du raisonnement, comparable à la séparation entre planification stratégique de haut niveau et exécution procédurale de bas niveau dans la cognition humaine. Nous mettons au jour une dynamique convaincante en deux phases : au départ, le modèle est contraint par la justesse procédurale et doit améliorer ses compétences de bas niveau. Le goulot d’étranglement de l’apprentissage se déplace ensuite de manière décisive, les gains de performance étant alors portés par l’exploration et la maîtrise de la planification stratégique de haut niveau. Cette observation met en lumière une inefficacité centrale des algorithmes de RL dominants comme GRPO, qui appliquent la pression d’optimisation de manière indifférenciée et diluent le signal d’apprentissage sur l’ensemble des tokens. Pour y remédier, nous proposons HIerarchy-Aware Credit Assignment (HICRA), un algorithme qui concentre les efforts d’optimisation sur les tokens de planification à fort impact. HICRA surpasse nettement de solides baselines, montrant que se concentrer sur ce goulot d’étranglement stratégique est la clé pour débloquer un raisonnement avancé. En outre, nous validons l’entropie sémantique comme un meilleur indicateur pour mesurer l’exploration stratégique que des métriques trompeuses telles que l’entropie au niveau des tokens.
> Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.
Lien vers l’article
https://arxiv.org/abs/2509.03646
OpenVision 2 : une famille d’encodeurs visuels génératifs préentraînés pour l’apprentissage multimodal / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)
Présentation de l’article
OpenVision 2 propose une nouvelle famille d’encodeurs visuels génératifs préentraînés pour l’apprentissage multimodal, en simplifiant l’architecture et la conception de la fonction de perte d’OpenVision afin d’améliorer fortement l’efficacité de l’entraînement. Cette recherche s’appuie sur des travaux antérieurs de préentraînement vision-langage comme CapPa et AIMv2, ainsi que sur une conception multimodale moderne comme LLaVA, avec une approche qui supprime l’encodeur de texte et ne conserve que la perte de légendage. Cette structure simplifiée se compose de deux modules, un encodeur d’images et un décodeur de texte, ce qui permet d’apprendre efficacement des représentations visuelles à partir d’un signal d’apprentissage génératif.
Les premiers résultats expérimentaux d’OpenVision 2 montrent qu’il parvient à conserver les performances du modèle d’origine tout en réduisant fortement le temps d’entraînement et la consommation mémoire. Par exemple, avec un backbone ViT-L/14, le temps d’entraînement a été réduit d’un facteur 1,5, tandis que l’usage mémoire a diminué d’un facteur 1,8, permettant d’augmenter la taille maximale du batch de 2 000 à 8 000. Ces améliorations ouvrent la voie à une montée en échelle d’OpenVision 2 à plus d’un milliard de paramètres, et suggèrent qu’un paradigme léger, dédié uniquement à la génération, est particulièrement attractif pour le développement de modèles fondamentaux multimodaux.
Cette étude invite à reconsidérer l’idée reçue selon laquelle l’apprentissage contrastif de style CLIP serait indispensable à la construction d’encodeurs visuels. OpenVision 2 montre qu’un objectif purement génératif peut rivaliser avec les approches contrastives sur les performances multimodales, tout en réduisant fortement le coût de calcul et en permettant une montée en échelle vers des modèles plus grands. Les chercheurs pourront exploiter l’ensemble complet de données d’entraînement et les checkpoints préentraînés d’OpenVision 2 pour approfondir l’exploration du potentiel du préentraînement génératif des encodeurs visuels. Cette innovation ouvre une nouvelle direction dans le domaine de l’apprentissage multimodal et devrait apporter une contribution importante aux recherches futures.
Résumé(Abstract)
Cet article présente une simplification de l’architecture et de la conception de la fonction de perte d’OpenVision afin d’améliorer son efficacité d’entraînement. Dans la lignée des précédents travaux de préentraînement vision-langage comme CapPa et AIMv2, ainsi que des conceptions multimodales modernes comme LLaVA, notre modification est simple : nous supprimons l’encodeur de texte (et donc la perte contrastive) pour ne conserver que la perte de légendage comme signal d’apprentissage purement génératif. Nous appelons cette nouvelle version OpenVision 2. Les premiers résultats sont prometteurs : malgré cette simplification, OpenVision 2 atteint des performances comparables à celles du modèle original sur un large éventail de benchmarks multimodaux, tout en réduisant fortement le temps d’entraînement et la consommation mémoire. Par exemple, avec ViT-L/14, le temps d’entraînement est réduit d’environ 1,5x (de 83 h à 57 h) et l’utilisation mémoire d’environ 1,8x (de 24,5 Go à 13,8 Go, ce qui permet d’augmenter la taille de batch maximale de 2k à 8k). Cette meilleure efficacité d’entraînement nous permet également de dépasser largement le plus grand encodeur visuel utilisé dans OpenVision, pour atteindre plus d’un milliard de paramètres. Nous sommes convaincus que ce paradigme léger, uniquement génératif, est particulièrement attractif pour le développement futur des encodeurs visuels dans les modèles fondamentaux multimodaux.
> This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.
Lien vers l’article
https://arxiv.org/abs/2509.01644
Pour aller plus loin
https://ucsc-vlaa.github.io/OpenVision2
https://github.com/UCSC-VLAA/OpenVision
https://huggingface.co/collections/UCSC-VLAA/…
https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B
Backprompting : exploiter des données de production synthétiques pour les garde-fous de conseil en santé / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)
Présentation de l’article
À mesure que l’usage des grands modèles de langage (LLM) se généralise dans les environnements d’entreprise, plusieurs facteurs de risque associés émergent. En particulier, la possibilité que les sorties des LLM contiennent des informations erronées peut avoir de graves conséquences dans des domaines sensibles comme le conseil en santé. Pour atténuer ces risques, des technologies de garde-fous (guardrails) sont nécessaires ; elles fonctionnent en filtrant les textes d’entrée et de sortie des LLM à l’aide de différents détecteurs. Cependant, l’un des plus grands obstacles au développement et au maintien de détecteurs robustes est la difficulté d’obtenir des données annotées de qualité production sur les sorties réelles des LLM.
Cette étude propose pour résoudre ce problème une méthodologie innovante appelée backprompting. Le backprompting est une approche qui génère des données annotées proches de la production en reposant une question sur un texte généré par un LLM à partir de la question saisie par l’utilisateur. Au cours de ce processus, des techniques de clustering sparse-in-the-loop humain sont utilisées pour attribuer des labels aux données générées. Cela permet de construire un corpus parallèle qui représente grossièrement le dataset d’origine tout en ressemblant aux sorties réelles d’un LLM.
L’objectif central de la recherche est de produire des données d’entraînement robustes pour les détecteurs en injectant des exemples synthétiques dans les datasets existants. L’ambition est ainsi d’améliorer les performances dans la construction de garde-fous capables d’identifier les conseils en santé. Les résultats expérimentaux montrent que le détecteur proposé enregistre jusqu’à 3,73 % d’amélioration par rapport aux méthodes existantes, et obtient également de meilleurs résultats que GPT-4o. Ces résultats indiquent que les données générées via le backprompting ont eu un effet positif sur l’apprentissage du détecteur.
En conclusion, cette étude présente une nouvelle méthodologie de génération de données visant à renforcer la sécurité des sorties de LLM, et montre son potentiel d’application dans divers domaines à l’avenir. Le backprompting se révèle efficace pour le développement de garde-fous sur les conseils en santé et devrait constituer une contribution importante à l’usage sûr des LLM.
Résumé (Abstract)
La généralisation des grands modèles de langage (LLM) dans les environnements d’entreprise s’est accompagnée de risques importants liés à leur utilisation. Les technologies de guardrails visent à atténuer ces risques en filtrant les textes d’entrée et de sortie des LLM à l’aide de différents détecteurs. Cependant, développer et maintenir des détecteurs robustes pose plusieurs défis, notamment la difficulté d’obtenir, avant le déploiement, des données étiquetées de qualité production sur de véritables sorties de LLM. Dans cette étude, nous proposons le backprompting, une solution simple mais intuitive pour générer des données étiquetées proches de la production pour le développement de guardrails dédiés aux conseils de santé. Nous combinons également la méthode de backprompting avec une technique de clustering sparse human-in-the-loop afin d’étiqueter les données générées. Notre objectif est de construire un corpus parallèle qui soit globalement représentatif du jeu de données d’origine tout en ressemblant à de véritables sorties de LLM. Nous injectons ensuite nos exemples synthétiques dans les jeux de données existants afin de produire des données d’entraînement robustes pour notre détecteur. Nous testons notre technique sur l’un des guardrails les plus difficiles et les plus subtils, à savoir l’identification de conseils de santé dans les sorties de LLM, et montrons une amélioration par rapport aux autres solutions. Notre détecteur peut surpasser GPT-4o jusqu’à 3,73 %, malgré un nombre de paramètres 400 fois inférieur.
> The pervasiveness of large language models (LLMs) in enterprise settings has also brought forth a significant amount of risks associated with their usage. Guardrails technologies aim to mitigate this risk by filtering LLMs' input/output text through various detectors. However, developing and maintaining robust detectors faces many challenges, one of which is the difficulty in acquiring production-quality labeled data on real LLM outputs prior to deployment. In this work, we propose backprompting, a simple yet intuitive solution to generate production-like labeled data for health advice guardrails development. Furthermore, we pair our backprompting method with a sparse human-in-the-loop clustering technique to label the generated data. Our aim is to construct a parallel corpus roughly representative of the original dataset yet resembling real LLM output. We then infuse existing datasets with our synthetic examples to produce robust training data for our detector. We test our technique in one of the most difficult and nuanced guardrails: the identification of health advice in LLM output, and demonstrate improvement versus other solutions. Our detector is able to outperform GPT-4o by up to 3.73%, despite having 400x less parameters.
Lien vers l’article
https://arxiv.org/abs/2508.18384
Synergie profondeur-largeur en RLVR : débloquer les gains de raisonnement des LLM grâce à une exploration adaptative / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration
Présentation de l’article
Le Reinforcement Learning with Verifiable Reward (RLVR) joue un rôle clé pour maximiser les capacités de raisonnement des grands modèles de langage (LLM), mais son potentiel reste limité par deux dimensions encore peu explorées : la profondeur (Depth), c’est-à-dire les problèmes les plus difficiles que le modèle peut échantillonner, et la largeur (Breadth), c’est-à-dire le nombre d’instances consommées lors d’une itération unique. Cette étude analyse l’algorithme GRPO (Generalized Relative Preference Optimization) existant et met en évidence un biais systématique : l’avantage cumulatif (cumulative advantage) accorde un poids disproportionné aux échantillons de précision intermédiaire et néglige les instances de faible précision. Pour y remédier, les auteurs proposent la méthode Difficulty Adaptive Rollout Sampling (DARS), qui rééquilibre le poids des problèmes difficiles via des rollouts multi-étapes orientés objectif afin d’augmenter le nombre de rollouts positifs.
DARS ne se contente pas d’augmenter la taille des rollouts, mais contribue aussi à améliorer les performances Pass@K. L’étude examine également comment une extension agressive de la largeur des données d’entraînement peut améliorer le raisonnement, en augmentant fortement la taille des batchs et en remplaçant les itérations en mini-batch du Proximal Policy Optimization (PPO) par des mises à jour sur batch complet sur plusieurs époques. Cette approche améliore fortement les performances Pass@1, et l’entraînement à grande échelle en largeur maintient une entropie élevée au niveau des tokens, signe d’une exploration continue et d’une réduction du bruit de gradient.
DARS-B ajoute une largeur à grande échelle à DARS afin d’obtenir simultanément des gains sur Pass@K et Pass@1. Cela montre que l’exploration adaptative de la largeur et de la profondeur joue un rôle essentiel pour libérer les capacités de raisonnement du RLVR. Cette étude ouvre ainsi une nouvelle voie pour maximiser les performances de raisonnement du RLVR et démontre expérimentalement que l’exploration adaptative de la profondeur et de la largeur contribue à améliorer ses performances.
Résumé(Abstract)
L’apprentissage par renforcement avec récompense vérifiable (Reinforcement Learning with Verifiable Reward, RLVR) s’est imposé comme un paradigme puissant pour libérer les capacités de raisonnement des grands modèles de langage, mais son plein potentiel reste limité par deux dimensions encore peu explorées : la profondeur (Depth) — le problème le plus difficile qu’un modèle peut échantillonner ; et la largeur (Breadth) — le nombre d’instances consommées en une seule itération. Nous analysons l’algorithme populaire GRPO et mettons en évidence un biais systématique : l’avantage cumulé (cumulative-advantage) accorde un poids disproportionné aux échantillons d’exactitude intermédiaire, tout en réduisant le poids des instances de faible exactitude, pourtant cruciales pour repousser les limites du raisonnement. Pour corriger cette négligence de la profondeur, nous introduisons Difficulty Adaptive Rollout Sampling (DARS), qui rééquilibre les problèmes difficiles au moyen de rollouts ciblés en plusieurs étapes, augmentant ainsi le nombre de rollouts positifs pour les problèmes difficiles. Empiriquement, augmenter naïvement la taille des rollouts ne fait qu’accélérer la convergence et nuit même à Pass@K. À l’inverse, notre méthode DARS apporte des gains constants sur Pass@K sans coût d’inférence supplémentaire à la convergence. De la même manière que nous avons étendu de façon adaptative la profondeur de l’exploration, nous nous demandons maintenant si une mise à l’échelle agressive de la largeur des données d’entraînement peut encore amplifier les gains de raisonnement. Pour cela, nous augmentons fortement la taille des batchs et remplaçons les itérations en mini-batch de PPO par des mises à jour en batch complet sur plusieurs époques. L’augmentation de la largeur améliore nettement les performances Pass@1. L’entraînement à grande largeur maintient une entropie élevée au niveau des tokens, signe d’une exploration continue et d’un bruit de gradient réduit. Nous présentons en outre DARS-B, qui renforce DARS par une grande largeur, et montrons des gains simultanés sur Pass@K et Pass@1. Les résultats confirment que la largeur et l’exploration adaptative en profondeur fonctionnent comme des dimensions orthogonales dans le RLVR, et qu’elles sont essentielles pour libérer sa puissance de raisonnement.
> Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.
Lien vers l’article
https://arxiv.org/abs/2508.13755
FlowVLA : penser le mouvement avec une chaîne visuelle de pensée / FlowVLA: Thinking in Motion with a Visual Chain of Thought
Présentation de l’article
Les modèles Vision-Language-Action (VLA) s’appuient sur des modèles du monde internes entraînés via la prédiction de la frame suivante, mais cette approche mêle apparence statique et mouvement dynamique, ce qui complique le raisonnement physique. Pour y remédier, nous introduisons un cadre de préentraînement appelé Visual Chain of Thought (Visual CoT), qui pousse le modèle à raisonner sur l’évolution de la scène avant de faire sa prédiction. FlowVLA génère une représentation intermédiaire de flux optique puis prédit les frames futures, le tout au sein d’un unique Transformer auto-régressif, ce qui permet d’apprendre en séparant les éléments dynamiques. Les résultats expérimentaux montrent que FlowVLA produit des prédictions visuelles cohérentes et améliore fortement l’efficacité de l’apprentissage de politique, posant ainsi une base plus rigoureuse pour la modélisation du monde.
Résumé(Abstract)
De nombreux modèles Vision-Language-Action (VLA) s’appuient sur un modèle du monde interne entraîné via la prédiction de l’image suivante. Cette approche, toutefois, rencontre des difficultés en raisonnement physique, car elle entremêle l’apparence statique et le mouvement dynamique, ce qui conduit souvent à des prédictions visuelles peu plausibles et à un apprentissage de politique inefficace. Pour remédier à ces limites, nous introduisons la chaîne de pensée visuelle (Visual Chain of Thought, Visual CoT) : un cadre de pré-entraînement qui pousse le modèle à raisonner sur la manière dont une scène évolue avant de prédire son apparence future. Nous appliquons ce principe à FlowVLA, qui ne prédit une image future ($v_{t+1}$) qu’après avoir généré une représentation intermédiaire de flux optique ($f_t$) encodant la dynamique du mouvement. Ce processus de raisonnement « $v_t \rightarrow f_t \rightarrow v_{t+1}$ » est mis en œuvre dans un unique Transformer auto-régressif, guidant le modèle vers l’apprentissage d’une dynamique désintriquée. En conséquence, FlowVLA produit des prédictions visuelles cohérentes et favorise un apprentissage de politique plus efficace. Des expériences sur des benchmarks exigeants de manipulation robotique montrent des performances à l’état de l’art, avec une efficacité d’échantillonnage nettement améliorée, ce qui ouvre la voie à une base plus rigoureuse pour la modélisation du monde. Page du projet : https://irpn-lab.github.io/FlowVLA/
> Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/
Lien vers l’article
https://arxiv.org/abs/2508.18269
Pour aller plus loin
https://irpn-lab.github.io/FlowVLA/
Représentation de mémoire épisodique pour la compréhension de vidéos longues / Episodic Memory Representation for Long-form Video Understanding
Présentation de l’article
L’un des défis de la compréhension vidéo consiste à traiter efficacement le contexte des vidéos longues. Les modèles de langage vidéo de grande taille existants (Video Large Language Models, Video-LLMs) excellent dans la compréhension vidéo générale, mais rencontrent des difficultés sur les vidéos longues en raison des limites de leur fenêtre de contexte. Pour répondre à ce problème, le framework Video-EM (Episodic Memory Representation) proposé offre une approche innovante ne nécessitant aucun entraînement.
Video-EM modélise les événements clés d’une vidéo sous forme d’épisodes ordonnés dans le temps, afin de capturer les relations spatio-temporelles dynamiques et la narration. Ce framework repose sur trois composants clés : Key Event Selection, Episodic Memory Representation et Chain of Thought (CoT) Video Reasoning. Le module Key Event Selection identifie les informations pertinentes par rapport à la requête et extrait les événements clés temporellement adjacents, ce qui permet de réduire la redondance de la vidéo.
Le module Episodic Memory Representation modélise explicitement l’ordre temporel de chaque événement afin d’enrichir la représentation du contexte spatio-temporel dynamique. Cela permet de reconstruire efficacement la narration de la vidéo. Enfin, CoT Video Reasoning sélectionne de manière itérative l’ensemble minimal de mémoires épisodiques pertinentes pour générer des réponses précises et fondées sur le contexte.
Cette étude a évalué les performances de Video-EM sur divers benchmarks et a montré un gain de performance de 4 à 9 % par rapport aux modèles existants. Ces résultats indiquent qu’il parvient à maintenir une haute précision tout en utilisant un plus petit nombre d’images. Video-EM améliore nettement la précision des tâches de question-réponse sur vidéo et constitue une contribution importante ouvrant de nouvelles possibilités dans le domaine de la compréhension vidéo. Cette approche pourra servir de base importante pour les recherches futures.
Résumé (Abstract)
Les grands modèles de langage vidéo (Video-LLM) excellent dans la compréhension générale des vidéos, mais peinent avec les vidéos longues en raison des limites de la fenêtre de contexte. En conséquence, les approches récentes se concentrent sur la récupération de keyframes, en condensant de longues vidéos en un petit ensemble d’images informatives. Bien que pratiques, ces méthodes simplifient le problème en un appariement statique texte-image, en négligeant les relations spatio-temporelles cruciales pour capturer les transitions de scène et la continuité contextuelle, et peuvent produire des keyframes redondantes avec peu d’informations, ce qui dilue les indices saillants essentiels à une réponse précise aux questions sur la vidéo. Pour remédier à ces limites, nous présentons Video-EM, un framework sans entraînement inspiré des principes de la mémoire épisodique humaine, conçu pour favoriser un raisonnement robuste et ancré dans le contexte. Au lieu de traiter les keyframes comme des entités visuelles isolées, Video-EM les modélise explicitement comme des événements épisodiques ordonnés dans le temps, capturant à la fois les relations spatiales et les dynamiques temporelles nécessaires pour reconstruire fidèlement le récit sous-jacent. En outre, ce framework exploite un raisonnement en chaîne de pensée (CoT) avec des LLM afin d’identifier de manière itérative un sous-ensemble minimal mais très informatif de souvenirs épisodiques, permettant aux Video-LLM de répondre aux questions de façon efficace et précise. Des évaluations approfondies sur les benchmarks Video-MME, EgoSchema, HourVideo et LVBench confirment la supériorité de Video-EM, qui obtient des résultats très compétitifs avec des gains de performance de 4 à 9 % par rapport aux baselines respectives, tout en utilisant moins d’images.
> Les grands modèles de langage vidéo (Video-LLMs) excellent dans la compréhension générale des vidéos, mais rencontrent des difficultés avec les vidéos longues en raison des limites de la fenêtre de contexte. Par conséquent, les approches récentes se concentrent sur la récupération de keyframes, en condensant des vidéos longues en un petit ensemble d’images informatives. Malgré leur aspect pratique, ces méthodes réduisent le problème à un appariement statique texte-image, en négligeant les relations spatio-temporelles essentielles pour saisir les transitions de scène et la continuité contextuelle, et peuvent produire des keyframes redondantes contenant peu d’informations, diluant ainsi les indices saillants indispensables à une réponse précise aux questions sur la vidéo. Pour répondre à ces limites, nous présentons Video-EM, un framework sans entraînement inspiré des principes de la mémoire épisodique humaine, conçu pour faciliter un raisonnement robuste et solidement ancré dans le contexte. Plutôt que de traiter les keyframes comme des entités visuelles isolées, Video-EM les modélise explicitement comme des événements épisodiques ordonnés temporellement, capturant à la fois les relations spatiales et les dynamiques temporelles nécessaires pour reconstruire avec précision le récit sous-jacent. En outre, le framework exploite un raisonnement en chaîne de pensée (CoT) avec des LLM pour identifier de manière itérative un sous-ensemble minimal mais hautement informatif de souvenirs épisodiques, permettant une réponse efficace et précise aux questions par les Video-LLMs. Des évaluations approfondies sur les benchmarks Video-MME, EgoSchema, HourVideo et LVBench confirment la supériorité de Video-EM, qui obtient des résultats très compétitifs avec des gains de performance de 4 à 9 % par rapport aux baselines respectives tout en utilisant moins d’images.
Lien vers l’article
https://arxiv.org/abs/2508.09486
Cet article a été rédigé à partir d’un texte synthétisé par un modèle GPT ; il peut donc contenir des formulations qui diffèrent du contenu ou de l’intention du texte original. Si le sujet vous intéresse, veuillez également consulter la source originale. Si vous remarquez en lisant des passages maladroits ou erronés, merci de nous le signaler en commentaire. 🤗
⚠️Publicité⚠️ : Cet article compilé par le groupe d’utilisateurs PyTorch Korea🇰🇷 vous a été utile ? Si vous créez un compte, nous vous enverrons les principaux articles par e-mail💌 ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer à Daily.)
Aucun commentaire pour le moment.