ML à découvrir cette semaine

(discuss.pytorch.kr)

14 points par ninebow 2025-08-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp

[2025/08/18 ~ 24] Sélection d’articles de recherche IA/ML à découvrir cette semaine

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ En examinant les articles retenus cette semaine, on peut identifier რამდენიმე tendances majeures. La première est l’effort particulièrement marqué pour optimiser simultanément l’efficacité et les performances des grands modèles de langage. Plusieurs articles proposent différentes approches pour améliorer les performances des modèles ; par exemple, DeepConf et Avengers-Pro montrent des tentatives d’équilibrer performance et coût en exploitant les signaux de confiance internes du modèle ou via un framework de routage efficace. Cette approche reflète tout particulièrement l’intérêt des chercheurs pour la réduction du coût de calcul élevé des grands modèles tout en maximisant leurs performances.

2️⃣ La deuxième tendance porte sur l’impact négatif des modèles de langage dotés de réactions émotionnelles sur la fiabilité. Un article en particulier montre que les modèles optimisés pour produire des réponses chaleureuses et empathiques peuvent dégrader la fiabilité, ce qui appelle à une vigilance accrue lorsque les systèmes d’IA jouent un rôle important dans les relations avec les personnes. Ces travaux apportent une contribution importante à la prise en compte de la responsabilité sociale et des dimensions éthiques de l’IA.

3️⃣ La troisième concerne les avancées dans la compréhension vidéo et le traitement multimodal. Des articles récents proposent de nouvelles méthodologies pour traiter et comprendre efficacement les données vidéo, illustrant les efforts menés pour explorer plus en profondeur l’interaction entre vidéo et texte. Des recherches comme Infinite Video Understanding et GLIMPSE avancent dans la direction d’un dépassement des limites actuelles de la compréhension vidéo, afin que les modèles puissent aller au-delà de la simple analyse d’images et accéder à un véritable raisonnement sur la vidéo. Cette tendance devrait ouvrir de nombreuses possibilités d’application avec les progrès de l’IA multimodale.

Penser en profondeur avec confiance / Deep Think with Confidence

Présentation de l’article

Penser en profondeur avec confiance (DeepConf ; Deep Think with Confidence) est une nouvelle méthode conçue pour améliorer l’efficacité et les performances des tâches de raisonnement dans les grands modèles de langage (LLM), sans entraînement supplémentaire ni ajustement d’hyperparamètres. En exploitant des signaux internes de confiance, DeepConf filtre efficacement les traces de raisonnement de faible qualité, ce qui améliore sensiblement la précision et réduit la surcharge de calcul. Les résultats d’évaluation sur diverses tâches de raisonnement, y compris des benchmarks comme AIME 2025, montrent que DeepConf peut atteindre jusqu’à 99,9 % de précision tout en réduisant jusqu’à 84,7 % le nombre de tokens générés par rapport aux approches existantes. Cette approche peut être facilement intégrée aux frameworks de service existants, ce qui en fait une solution pratique pour améliorer les performances des LLM.

Résumé de l’article (Abstract)

Les grands modèles de langage (LLM) ont montré un fort potentiel sur les tâches de raisonnement grâce à des méthodes de test-time scaling comme l’auto-cohérence avec vote majoritaire. Cependant, cette approche entraîne souvent des rendements décroissants en matière de précision ainsi qu’un coût de calcul élevé. Pour répondre à ces difficultés, nous présentons Deep Think with Confidence (DeepConf), une méthode simple mais puissante qui améliore à la fois l’efficacité du raisonnement et les performances au moment de l’inférence. DeepConf exploite les signaux de confiance internes au modèle pour filtrer dynamiquement les traces de raisonnement de faible qualité pendant ou après la génération. Elle ne nécessite ni entraînement additionnel du modèle ni réglage d’hyperparamètres, et peut s’intégrer de manière transparente aux frameworks de serving existants. Nous avons évalué DeepConf sur une variété de tâches de raisonnement et sur les derniers modèles open source, notamment les séries Qwen 3 et GPT-OSS. En particulier, sur des benchmarks difficiles comme AIME 2025, DeepConf@512 atteint jusqu’à 99,9 % de précision et réduit jusqu’à 84,7 % le nombre de tokens générés par rapport au raisonnement parallèle complet.

Large Language Models (LLMs) have shown great potential in reasoning tasks through test-time scaling methods like self-consistency with majority voting. However, this approach often leads to diminishing returns in accuracy and high computational overhead. To address these challenges, we introduce Deep Think with Confidence (DeepConf), a simple yet powerful method that enhances both reasoning efficiency and performance at test time. DeepConf leverages model-internal confidence signals to dynamically filter out low-quality reasoning traces during or after generation. It requires no additional model training or hyperparameter tuning and can be seamlessly integrated into existing serving frameworks. We evaluate DeepConf across a variety of reasoning tasks and the latest open-source models, including Qwen 3 and GPT-OSS series. Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full parallel thinking.

Lien vers l’article

https://arxiv.org/abs/2508.15260

Pour aller plus loin

https://discuss.pytorch.kr/t/thinkmesh-llm-python/7575

Au-delà de GPT-5 : réduire les coûts et améliorer les performances des LLM grâce à un routage optimisé performance-efficacité / Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing

[IMG] Au-delà de GPT-5 : réduire les coûts et améliorer les performances des LLM grâce à un routage optimisé performance-efficacité / Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing|997x448

Présentation de l’article

Équilibrer l’évolution des performances et de l’efficacité des grands modèles de langage (LLM) constitue un enjeu important. Avengers-Pro est un framework de routage à l’inférence qui regroupe des LLM aux capacités et niveaux d’efficacité variés, puis route chaque requête vers le modèle approprié selon un score optimal de performance-efficacité. Cette méthode obtient des résultats de pointe sur 6 benchmarks difficiles et 8 modèles majeurs, et peut améliorer la précision moyenne de +7 % par rapport à GPT-5-medium en ajustant le paramètre de compromis performance-efficacité. Elle atteint également une frontière de Pareto offrant de manière constante la meilleure précision par coût, en égalant la précision moyenne du modèle unique le plus puissant pour un coût inférieur de 27 %, et en atteignant environ 90 % des performances pour un coût inférieur de 63 %.

Résumé de l’article (Abstract)

Trouver le bon équilibre entre performance et efficacité est un défi central dans l’évolution des grands modèles de langage (LLM). GPT-5 y répond avec le test-time routing, qui assigne dynamiquement les requêtes à un modèle efficace ou à un modèle de grande capacité pendant l’inférence. Dans ce travail, nous présentons Avengers-Pro, un framework de test-time routing qui assemble des LLM de capacités et d’efficacités variées afin de proposer une solution unifiée pour l’ensemble des compromis performance-efficacité. Avengers-Pro commence par intégrer et regrouper les requêtes entrantes, puis les route vers le modèle le plus adapté selon un score de performance-efficacité. Sur 6 benchmarks exigeants et 8 modèles de premier plan — dont GPT-5-medium, Gemini-2.5-pro et Claude-opus-4.1 — Avengers-Pro atteint des résultats de pointe. En ajustant le paramètre de compromis performance-efficacité, il peut dépasser de +7 % en précision moyenne le meilleur modèle individuel (GPT-5-medium). Il peut également égaler la précision moyenne du meilleur modèle individuel avec un coût inférieur de 27 %, et atteindre environ 90 % de ses performances avec un coût inférieur de 63 %. Enfin, Avengers-Pro atteint la frontière de Pareto, en offrant systématiquement la meilleure précision pour un coût donné et le coût le plus faible pour une précision donnée parmi tous les modèles individuels. Le code est disponible sur https://github.com/ZhangYiqun018/AvengersPro.

Balancing performance and efficiency is a central challenge in large language model (LLM) advancement. GPT-5 addresses this with test-time routing, dynamically assigning queries to either an efficient or a high-capacity model during inference. In this work, we present Avengers-Pro, a test-time routing framework that ensembles LLMs of varying capacities and efficiencies, providing a unified solution for all performance-efficiency tradeoffs. The Avengers-Pro embeds and clusters incoming queries, then routes each to the most suitable model based on a performance-efficiency score. Across 6 challenging benchmarks and 8 leading models -- including GPT-5-medium, Gemini-2.5-pro, and Claude-opus-4.1 -- Avengers-Pro achieves state-of-the-art results: by varying a performance-efficiency trade-off parameter, it can surpass the strongest single model (GPT-5-medium) by +7% in average accuracy. Moreover, it can match the average accuracy of the strongest single model at 27% lower cost, and reach ~90% of that performance at 63% lower cost. Last but not least, it achieves a Pareto frontier, consistently yielding the highest accuracy for any given cost, and the lowest cost for any given accuracy, among all single models. Code is available at https://github.com/ZhangYiqun018/AvengersPro.

Lien vers l’article

https://arxiv.org/abs/2508.12631

Pour aller plus loin

https://github.com/ZhangYiqun018/AvengersPro

Raisonnement augmenté par la recherche avec des modèles de langage légers / Retrieval-augmented reasoning with lean language models

Présentation de l’article

Cette étude propose une nouvelle approche combinant raisonnement et génération augmentée par la recherche (RAG) au sein d’une architecture de modèle de langage légère. Alors que les systèmes RAG existants dépendent de grands modèles et d’API externes, ce travail répond au besoin de solutions performantes pouvant être déployées dans des environnements contraints en ressources ou sécurisés. Nous avons développé un agent conversationnel augmenté par la recherche, basé sur un modèle backbone léger, capable d’interpréter des requêtes complexes et spécialisées par domaine. Il fonctionne en intégrant un retriever dense et le modèle Qwen2.5-Instruct. Les résultats de l’évaluation montrent qu’une approche de fine-tuning spécialisée par domaine améliore fortement l’exactitude et la cohérence des réponses, au point de s’approcher des performances de pointe tout en restant adaptée à un déploiement local.

Résumé(Abstract)

Cette étude détaille une nouvelle approche pour combiner le raisonnement et la génération augmentée par récupération (RAG) au sein d’une architecture unique de modèle de langage légère et épurée. Alors que les systèmes RAG existants s’appuient généralement sur des modèles de grande taille et des API externes, ce travail répond à la demande croissante de solutions performantes et respectueuses de la vie privée, déployables dans des environnements contraints en ressources ou sécurisés. En s’appuyant sur les avancées récentes en test-time scaling et sur les petits modèles de raisonnement, nous développons un agent conversationnel augmenté par récupération capable d’interpréter des requêtes complexes et spécifiques à un domaine à l’aide d’un modèle de base léger. Notre système intègre un récupérateur dense et des modèles Qwen2.5-Instruct finement ajustés, en utilisant la génération de requêtes synthétiques et des traces de raisonnement dérivées de modèles de pointe (par ex. DeepSeek-R1) sur un corpus sélectionné, en l’occurrence les pages NHS A-to-Z consacrées aux pathologies. Nous explorons l’impact de la compression de documents fondée sur le résumé, de la conception de données synthétiques et du fine-tuning sensible au raisonnement sur les performances du modèle. L’évaluation face à des modèles compacts non axés sur le raisonnement ainsi qu’à des modèles compacts généralistes montre que notre approche de fine-tuning spécifique au domaine apporte des gains substantiels en précision et en cohérence des réponses, se rapprochant des performances des modèles de pointe tout en restant adaptée à un déploiement local. Tous les détails d’implémentation et le code sont publiquement disponibles afin de favoriser la reproductibilité et l’adaptation à d’autres domaines.

This technical report details a novel approach to combining reasoning and retrieval augmented generation (RAG) within a single, lean language model architecture. While existing RAG systems typically rely on large-scale models and external APIs, our work addresses the increasing demand for performant and privacy-preserving solutions deployable in resource-constrained or secure environments. Building on recent developments in test-time scaling and small-scale reasoning models, we develop a retrieval augmented conversational agent capable of interpreting complex, domain-specific queries using a lightweight backbone model. Our system integrates a dense retriever with fine-tuned Qwen2.5-Instruct models, using synthetic query generation and reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a curated corpus, in this case, the NHS A-to-Z condition pages. We explore the impact of summarisation-based document compression, synthetic data design, and reasoning-aware fine-tuning on model performance. Evaluation against both non-reasoning and general-purpose lean models demonstrates that our domain-specific fine-tuning approach yields substantial gains in answer accuracy and consistency, approaching frontier-level performance while remaining feasible for local deployment. All implementation details and code are publicly released to support reproducibility and adaptation across domains.

Lien vers l’article

https://arxiv.org/abs/2508.11386

Entraîner les modèles de langage à être chaleureux et empathiques les rend moins fiables et plus flagorneurs / Training language models to be warm and empathetic makes them less reliable and more sycophantic

Présentation de l’article

Entraîner les modèles de langage à adopter une personnalité chaleureuse et empathique semble offrir une meilleure expérience aux utilisateurs, mais cela s’accompagne d’un compromis majeur susceptible d’affaiblir leur fiabilité. Les résultats de l’étude montrent que les modèles entraînés à produire des réponses chaleureuses présentent des taux d’erreur supérieurs de 10 % à 30 % dans des tâches critiques pour la sécurité, avec une tendance à fournir des informations factuelles erronées ou des conseils médicaux problématiques. En particulier, lorsque la tristesse est exprimée dans les messages des utilisateurs, ils ont davantage tendance à valider des croyances erronées. Ce phénomène apparaît de manière cohérente dans différentes architectures de modèles, ce qui suggère que les pratiques actuelles d’évaluation pourraient ne pas détecter ces risques systémiques.

Résumé(Abstract)

Les développeurs d’intelligence artificielle (IA) construisent de plus en plus des modèles de langage dotés de personas chaleureux et empathiques, que de nombreuses personnes utilisent pour obtenir des conseils, une thérapie ou de la compagnie. Nous montrons ici que cette approche crée un compromis important : optimiser les modèles de langage pour la chaleur nuit à leur fiabilité, en particulier lorsque les utilisateurs expriment une vulnérabilité. Nous avons mené des expériences contrôlées sur cinq modèles de langage de tailles et d’architectures variées, en les entraînant à produire des réponses plus chaleureuses et plus empathiques, puis en les évaluant sur des tâches critiques pour la sécurité. Les modèles chaleureux ont affiché des taux d’erreur nettement plus élevés (+10 à +30 points de pourcentage) que leurs versions d’origine, avec une tendance à encourager les théories du complot, à fournir des informations factuelles erronées et à proposer des conseils médicaux problématiques. Ils étaient également nettement plus susceptibles de valider des croyances erronées des utilisateurs, en particulier lorsque les messages exprimaient de la tristesse. Fait important, ces effets sont apparus de manière cohérente sur différentes architectures de modèles, et ce malgré le maintien des performances sur les benchmarks standards, révélant des risques systémiques que les pratiques actuelles d’évaluation pourraient ne pas détecter. À mesure que des systèmes d’IA semblables à l’humain sont déployés à une échelle sans précédent, nos résultats indiquent qu’il est nécessaire de repenser la manière dont nous développons et supervisons ces systèmes qui reconfigurent les relations humaines et les interactions sociales.

Artificial intelligence (AI) developers are increasingly building language models with warm and empathetic personas that millions of people now use for advice, therapy, and companionship. Here, we show how this creates a significant trade-off: optimizing language models for warmth undermines their reliability, especially when users express vulnerability. We conducted controlled experiments on five language models of varying sizes and architectures, training them to produce warmer, more empathetic responses, then evaluating them on safety-critical tasks. Warm models showed substantially higher error rates (+10 to +30 percentage points) than their original counterparts, promoting conspiracy theories, providing incorrect factual information, and offering problematic medical advice. They were also significantly more likely to validate incorrect user beliefs, particularly when user messages expressed sadness. Importantly, these effects were consistent across different model architectures, and occurred despite preserved performance on standard benchmarks, revealing systematic risks that current evaluation practices may fail to detect. As human-like AI systems are deployed at an unprecedented scale, our findings indicate a need to rethink how we develop and oversee these systems that are reshaping human relationships and social interaction.

Lien vers l’article

https://arxiv.org/abs/2507.21919

GEPA : l’évolution réflexive des prompts peut surpasser l’apprentissage par renforcement / GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Présentation de l’article

GEPA (Genetic-Pareto) est une méthodologie d’optimisation de prompts qui améliore l’apprentissage des grands modèles de langage (LLM) en tirant parti de l’interprétabilité du langage, par contraste avec l’approche traditionnelle d’apprentissage par renforcement (RL) qu’est l’optimisation de politique relative de groupe (GRPO). En échantillonnant des traceurs au niveau système et en les examinant de manière réflexive en langage naturel, GEPA peut diagnostiquer efficacement les problèmes et proposer des mises à jour de prompts, tout en intégrant les enseignements tirés de sa propre expérience. Cette méthode a permis de réduire fortement le nombre de rollouts nécessaires et d’obtenir en moyenne une amélioration de performance de 10 % par rapport à GRPO, tout en surpassant de plus de 10 % MIPROv2, un outil de pointe en optimisation de prompts. GEPA montre également un potentiel en tant que stratégie efficace pour l’optimisation de code au moment de l’inférence.

Résumé de l’article (Abstract)

Les grands modèles de langage (LLM) sont de plus en plus adaptés à des tâches aval via des méthodes d’apprentissage par renforcement (RL) comme Group Relative Policy Optimization (GRPO), qui nécessitent souvent des milliers de rollouts pour apprendre de nouvelles tâches. Nous soutenons que la nature interprétable du langage peut offrir aux LLM un support d’apprentissage bien plus riche que les gradients de politique dérivés de récompenses scalaires clairsemées. Pour le vérifier, nous présentons GEPA (Genetic-Pareto), un optimiseur de prompts qui intègre de manière approfondie la réflexion en langage naturel afin d’apprendre des règles de haut niveau par essais et erreurs. Étant donné un système d’IA contenant un ou plusieurs prompts de LLM, GEPA échantillonne des trajectoires au niveau système (par exemple le raisonnement, les appels d’outils et les sorties d’outils) et les analyse en langage naturel pour diagnostiquer les problèmes, proposer et tester des mises à jour de prompts, puis combiner les enseignements complémentaires issus du front de Pareto de ses propres tentatives. Grâce à cette conception, GEPA peut souvent transformer seulement quelques rollouts en un gain substantiel de qualité. Sur quatre tâches, GEPA dépasse GRPO de plus de 10 % en moyenne, et jusqu’à 20 %, tout en utilisant jusqu’à 35 fois moins de rollouts. GEPA surpasse également MIPROv2, un optimiseur de prompts de référence, de plus de 10 % sur deux LLM, et montre des résultats prometteurs en tant que stratégie de recherche au moment de l’inférence pour l’optimisation de code.

Large language models (LLMs) are increasingly adapted to downstream tasks via reinforcement learning (RL) methods like Group Relative Policy Optimization (GRPO), which often require thousands of rollouts to learn new tasks. We argue that the interpretable nature of language can often provide a much richer learning medium for LLMs, compared with policy gradients derived from sparse, scalar rewards. To test this, we introduce GEPA (Genetic-Pareto), a prompt optimizer that thoroughly incorporates natural language reflection to learn high-level rules from trial and error. Given any AI system containing one or more LLM prompts, GEPA samples system-level trajectories (e.g., reasoning, tool calls, and tool outputs) and reflects on them in natural language to diagnose problems, propose and test prompt updates, and combine complementary lessons from the Pareto frontier of its own attempts. As a result of GEPA's design, it can often turn even just a few rollouts into a large quality gain. Across four tasks, GEPA outperforms GRPO by 10% on average and by up to 20%, while using up to 35x fewer rollouts. GEPA also outperforms the leading prompt optimizer, MIPROv2, by over 10% across two LLMs, and demonstrates promising results as an inference-time search strategy for code optimization.

Lien vers l’article

https://arxiv.org/abs/2507.19457

GLIMPSE : les grands modèles vision-langage comprennent-ils vraiment les vidéos et raisonnent-ils dessus, ou ne font-ils que les survoler ? / GLIMPSE: Do Large Vision-Language Models Truly Think With Videos or Just Glimpse at Them?

Présentation de l’article

GLIMPSE est un benchmark conçu pour évaluer si les grands modèles vision-langage (LVLM) sont capables de comprendre en profondeur une vidéo dans son ensemble et de raisonner à son sujet. Afin de résoudre le problème des critères d’évaluation vidéo existants, où il est souvent possible de répondre à partir de quelques images clés seulement, ce qui rend difficile l’évaluation de la véritable capacité de raisonnement spatio-temporel des modèles, GLIMPSE comprend 3 269 vidéos, 11 catégories et plus de 4 342 questions centrées sur l’analyse visuelle. Ces questions sont conçues de manière à n’être résolubles qu’en regardant l’intégralité de la vidéo et en menant un raisonnement synthétique, et les évaluations humaines ont montré un taux de précision élevé de 94,82 %. En revanche, même GPT-o3, le LVLM le plus performant à l’heure actuelle, n’atteint que 66,43 %, ce qui montre que les modèles ont encore du mal à dépasser une analyse superficielle pour parvenir à une réflexion approfondie fondée sur la vidéo.

Résumé (Abstract)

Les benchmarks vidéo existants ressemblent souvent à des benchmarks basés sur l’image, avec des types de questions comme « Quelles actions la personne effectue-t-elle tout au long de la vidéo ? » ou « De quelle couleur est la robe de la femme dans la vidéo ? ». Pour ce type de questions, les modèles peuvent souvent répondre en ne parcourant que quelques images clés, sans raisonnement temporel approfondi. Cela limite notre capacité à évaluer si les grands modèles vision-langage (LVLM) peuvent réellement raisonner à partir de vidéos plutôt que d’effectuer une analyse superficielle image par image. Pour répondre à ce problème, nous proposons GLIMPSE, un benchmark spécialement conçu pour évaluer si les LVLM peuvent véritablement raisonner à partir de vidéos. Contrairement aux benchmarks précédents, GLIMPSE met l’accent sur une compréhension complète de la vidéo au-delà des indices visuels statiques. Il se compose de 3 269 vidéos et de plus de 4 342 questions fortement centrées sur le visuel réparties en 11 catégories, dont l’analyse de trajectoire, le raisonnement temporel et la détection forensique. Toutes les questions ont été soigneusement rédigées par des annotateurs humains et exigent de regarder l’intégralité de la vidéo ainsi que de raisonner sur le contexte vidéo global — c’est ce que nous appelons raisonner avec la vidéo. Il est impossible de répondre à ces questions en parcourant quelques images sélectionnées ou en s’appuyant uniquement sur le texte. Lors des évaluations humaines, GLIMPSE atteint une précision de 94,82 %, mais les LVLM actuels se heurtent à des difficultés importantes. Même le modèle le plus performant, GPT-o3, n’atteint que 66,43 %, ce qui montre que les LVLM peinent encore à dépasser un raisonnement de surface pour véritablement raisonner à partir des vidéos.

Existing video benchmarks often resemble image-based benchmarks, with question types like "What actions does the person perform throughout the video?" or "What color is the woman's dress in the video?" For these, models can often answer by scanning just a few key frames, without deep temporal reasoning. This limits our ability to assess whether large vision-language models (LVLMs) can truly think with videos rather than perform superficial frame-level analysis. To address this, we introduce GLIMPSE, a benchmark specifically designed to evaluate whether LVLMs can genuinely think with videos. Unlike prior benchmarks, GLIMPSE emphasizes comprehensive video understanding beyond static image cues. It consists of 3,269 videos and over 4,342 highly visual-centric questions across 11 categories, including Trajectory Analysis, Temporal Reasoning, and Forensics Detection. All questions are carefully crafted by human annotators and require watching the entire video and reasoning over full video context-this is what we mean by thinking with video. These questions cannot be answered by scanning selected frames or relying on text alone. In human evaluations, GLIMPSE achieves 94.82% accuracy, but current LVLMs face significant challenges. Even the best-performing model, GPT-o3, reaches only 66.43%, highlighting that LVLMs still struggle to move beyond surface-level reasoning to truly think with videos.

Lien vers l’article

https://arxiv.org/abs/2507.09491

Compréhension vidéo infinie / Infinite Video Understanding

Présentation de l’article

Les avancées récentes des grands modèles de langage (LLM) et des modèles multimodaux étendus (MLLM) ont considérablement amélioré les technologies de compréhension vidéo, mais le traitement de longues vidéos de plusieurs minutes à plusieurs heures reste confronté à des limites de calcul et de mémoire. Les travaux existants ont proposé des architectures efficaces (Video-XL-2) et des techniques d’encodage positionnel pour la perception spatio-temporelle à long terme (HoPE, VideoRoPE++), mais le maintien de la cohérence temporelle dans de longues séquences, le suivi d’événements complexes et la préservation d’informations fines demeurent des défis non résolus. Cet article présente la « compréhension vidéo infinie » (Infinite Video Understanding), c’est-à-dire la capacité à traiter et comprendre en continu des vidéos de longueur infinie, comme un objectif central des recherches futures. Pour y parvenir, il propose diverses pistes d’innovation, notamment des architectures de streaming, une mémoire persistante, des représentations hiérarchiques et adaptatives, un raisonnement centré sur les événements et de nouvelles méthodologies d’évaluation. Cette orientation devrait favoriser un changement de paradigme dans le traitement vidéo de longue durée à travers l’ensemble des domaines du multimédia et de l’intelligence artificielle.

Résumé(Abstract)

Les avancées rapides des grands modèles de langage (LLM) et de leurs extensions multimodales (MLLM) ont entraîné des progrès remarquables dans la compréhension vidéo. Mais un défi fondamental demeure : traiter et comprendre efficacement des contenus vidéo qui s’étendent sur plusieurs minutes, voire plusieurs heures. Si des travaux récents comme Video-XL-2 ont proposé de nouvelles solutions architecturales pour une efficacité extrême, et si les progrès des techniques d’encodage positionnel comme HoPE et VideoRoPE++ visent à améliorer la compréhension spatio-temporelle sur des contextes étendus, les modèles de pointe actuels se heurtent encore à d’importantes contraintes de calcul et de mémoire face au volume considérable de jetons visuels générés par de longues séquences. En outre, le maintien de la cohérence temporelle, le suivi d’événements complexes et la préservation de détails fins sur de longues périodes restent des défis redoutables, malgré les progrès des systèmes de raisonnement agentique comme Deep Video Discovery. Ce document de position propose l’Infinite Video Understanding comme prochain champ de recherche à la fois logique et ambitieux pour la recherche multimédia. Il s’agit de la capacité pour des modèles à traiter, comprendre et raisonner en continu sur des données vidéo de durée arbitraire, potentiellement infinie. Nous soutenons que définir l’Infinite Video Understanding comme objectif de recherche exploratoire peut servir de boussole essentielle pour les communautés de recherche en multimédia et, plus largement, en IA, en stimulant l’innovation dans des domaines tels que les architectures de streaming, les mécanismes de mémoire persistante, les représentations hiérarchiques et adaptatives, le raisonnement centré sur les événements, ainsi que de nouveaux paradigmes d’évaluation. En nous inspirant des travaux récents sur la compréhension de vidéos longues ou très longues et de plusieurs domaines étroitement liés, cet article présente les principaux défis et les grandes orientations de recherche pour atteindre cette capacité transformatrice.

The rapid advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have ushered in remarkable progress in video understanding. However, a fundamental challenge persists: effectively processing and comprehending video content that extends beyond minutes or hours. While recent efforts like Video-XL-2 have demonstrated novel architectural solutions for extreme efficiency, and advancements in positional encoding such as HoPE and VideoRoPE++ aim to improve spatio-temporal understanding over extensive contexts, current state-of-the-art models still encounter significant computational and memory constraints when faced with the sheer volume of visual tokens from lengthy sequences. Furthermore, maintaining temporal coherence, tracking complex events, and preserving fine-grained details over extended periods remain formidable hurdles, despite progress in agentic reasoning systems like Deep Video Discovery. This position paper posits that a logical, albeit ambitious, next frontier for multimedia research is Infinite Video Understanding -- the capability for models to continuously process, understand, and reason about video data of arbitrary, potentially never-ending duration. We argue that framing Infinite Video Understanding as a blue-sky research objective provides a vital north star for the multimedia, and the wider AI, research communities, driving innovation in areas such as streaming architectures, persistent memory mechanisms, hierarchical and adaptive representations, event-centric reasoning, and novel evaluation paradigms. Drawing inspiration from recent work on long/ultra-long video understanding and several closely related fields, we outline the core challenges and key research directions towards achieving this transformative capability.

Lien vers l’article

https://arxiv.org/abs/2507.09068

Le raisonnement en chaîne de pensée des grands modèles de langage n’est-il qu’un mirage ? Une réflexion à travers le prisme de la distribution des données / Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Présentation de l’article

Le prompt Chain-of-Thought (CoT) contribue à améliorer les performances des grands modèles de langage (LLM), mais cette étude suggère que le raisonnement CoT peut en réalité rester superficiel. En analysant le raisonnement CoT sous l’angle de la distribution des données, les auteurs montrent que le CoT est un chemin généré de manière conditionnelle sous l’effet d’un biais inductif fondé sur la distribution présente dans les données d’apprentissage. Pour cela, ils ont entraîné des LLM dans un environnement contrôlé appelé DataAlchemy et ont validé expérimentalement les écarts de distribution selon trois dimensions : le type de tâche, la longueur et le format. Les résultats confirment que le raisonnement CoT est un phénomène instable qui s’effondre facilement dès qu’il sort de la distribution d’entraînement, ce qui souligne la difficulté d’atteindre un raisonnement véritablement généralisable.

Résumé(Abstract)

Les prompts de type chaîne de pensée (Chain-of-Thought, CoT) sont connus pour améliorer les performances des grands modèles de langage (LLM) sur diverses tâches. Avec cette approche, les LLM semblent produire des étapes de raisonnement semblables à celles d’un humain avant de fournir une réponse (autrement dit, le raisonnement CoT), ce qui conduit souvent à penser qu’ils s’engagent dans un véritable processus inférentiel délibéré. Cependant, des résultats préliminaires suggèrent que le raisonnement CoT pourrait être plus superficiel qu’il n’y paraît, ce qui motive une exploration plus approfondie. Dans cet article, nous étudions le raisonnement CoT sous l’angle de la distribution des données et examinons s’il reflète un biais inductif structuré appris à partir de données in-distribution, permettant au modèle de générer conditionnellement des trajectoires de raisonnement qui approchent celles observées pendant l’entraînement. Son efficacité est donc fondamentalement limitée par l’ampleur de l’écart de distribution entre les données d’entraînement et les requêtes de test. Dans cette perspective, nous analysons le raisonnement CoT selon trois dimensions : la tâche, la longueur et le format. Pour étudier chacune de ces dimensions, nous concevons DataAlchemy, un environnement isolé et contrôlé permettant d’entraîner des LLM à partir de zéro et de les sonder systématiquement sous diverses conditions de distribution. Les résultats montrent que le raisonnement CoT est un mirage fragile qui disparaît dès qu’il est poussé au-delà des distributions d’entraînement. Ce travail apporte une compréhension plus profonde des raisons et des moments où le raisonnement CoT échoue, en soulignant le défi persistant que représente l’obtention d’un raisonnement authentique et généralisable.

Le prompting Chain-of-Thought (CoT) a montré qu’il améliorait les performances des grands modèles de langage (LLM) sur diverses tâches. Avec cette approche, les LLM semblent produire des étapes de raisonnement semblables à celles d’un humain avant de fournir des réponses (c.-à-d. le raisonnement CoT), ce qui conduit souvent à penser qu’ils s’engagent dans des processus inférentiels délibérés. Cependant, certains résultats initiaux suggèrent que le raisonnement CoT pourrait être plus superficiel qu’il n’y paraît, ce qui nous a poussés à explorer davantage cette question. Dans cet article, nous étudions le raisonnement CoT à travers le prisme de la distribution des données et examinons si le raisonnement CoT reflète un biais inductif structuré appris à partir de données in-distribution, permettant au modèle de générer conditionnellement des trajectoires de raisonnement qui approchent celles observées pendant l’entraînement. Son efficacité est donc fondamentalement bornée par le degré d’écart de distribution entre les données d’entraînement et les requêtes de test. Dans cette optique, nous disséquons le raisonnement CoT selon trois dimensions : la tâche, la longueur et le format. Pour examiner chacune de ces dimensions, nous concevons DataAlchemy, un environnement isolé et contrôlé pour entraîner des LLM à partir de zéro et les sonder systématiquement sous diverses conditions de distribution. Nos résultats révèlent que le raisonnement CoT est un mirage fragile qui s’évanouit dès qu’il est poussé au-delà des distributions d’entraînement. Ce travail offre une compréhension plus profonde des raisons et des moments où le raisonnement CoT échoue, en soulignant le défi toujours ouvert de parvenir à un raisonnement authentique et généralisable.

Lien vers l’article

https://arxiv.org/abs/2508.01191

Les limites auxquelles sont confrontés les grands modèles de langage / The wall confronting large language models

Présentation de l’article

L’article montre que les lois de scaling qui déterminent les performances des grands modèles de langage (LLM) présentent de graves limites lorsqu’il s’agit d’améliorer l’incertitude prédictive. Il souligne que le mécanisme de génération de distributions de sortie non gaussiennes, qui soutient la capacité d’apprentissage des LLM, peut être à l’origine de l’accumulation d’erreurs, de l’effondrement de l’information et de comportements dégénératifs de l’IA. Il indique également que les corrélations fallacieuses qui augmentent fortement avec la taille des données aggravent ces problèmes, ce qui complique l’établissement d’une fiabilité scientifique. Il insiste enfin sur le fait qu’une compréhension et une intuition profondes des caractéristiques structurelles du problème sont indispensables pour reconnaître et éviter la possibilité de trajectoires dégénératives de l’IA.

Résumé(Abstract)

Cet article montre que les lois d’échelle qui déterminent les performances des grands modèles de langage (LLM) limitent fortement leur capacité à réduire l’incertitude de leurs prédictions. En conséquence, porter leur fiabilité à un niveau conforme aux standards de la recherche scientifique apparaît comme un problème intractable selon toute mesure raisonnable. Nous soutenons que le mécanisme même qui alimente une grande partie de la puissance d’apprentissage des LLM — à savoir la capacité à générer des distributions de sortie non gaussiennes à partir de distributions d’entrée gaussiennes — pourrait être à l’origine de leur tendance à accumuler les erreurs, à provoquer des catastrophes informationnelles et à adopter des comportements IA dégénératifs. Cette tension entre apprentissage et précision constitue un candidat plausible pour expliquer les faibles valeurs observées des composantes de mise à l’échelle. Elle est encore aggravée par le déluge de corrélations fallacieuses mis en évidence par Calude et Longo, qui augmente rapidement dans tout jeu de données en fonction de sa seule taille, indépendamment de sa nature. Le fait qu’une trajectoire IA dégénérative soit une caractéristique très probable de l’écosystème des LLM ne signifie pas qu’elle doive inévitablement apparaître dans toutes les recherches futures en IA. Comme nous le discutons dans cet article, l’éviter exige d’accorder une importance bien plus grande à l’intuition et à la compréhension des caractéristiques structurelles des problèmes étudiés.

We show that the scaling laws which determine the performance of large language models (LLMs) severely limit their ability to improve the uncertainty of their predictions. As a result, raising their reliability to meet the standards of scientific inquiry is intractable by any reasonable measure. We argue that the very mechanism which fuels much of the learning power of LLMs, namely the ability to generate non-Gaussian output distributions from Gaussian input ones, might well be at the roots of their propensity to produce error pileup, ensuing information catastrophes and degenerative AI behaviour. This tension between learning and accuracy is a likely candidate mechanism underlying the observed low values of the scaling components. It is substantially compounded by the deluge of spurious correlations pointed out by Calude and Longo which rapidly increase in any data set merely as a function of its size, regardless of its nature. The fact that a degenerative AI pathway is a very probable feature of the LLM landscape does not mean that it must inevitably arise in all future AI research. Its avoidance, which we also discuss in this paper, necessitates putting a much higher premium on insight and understanding of the structural characteristics of the problems being investigated.

Lien vers l’article

https://arxiv.org/abs/2507.19703

Vecteurs de persona : surveiller et contrôler les traits de caractère dans les modèles de langage / Persona Vectors: Monitoring and Controlling Character Traits in Language Models

Présentation de l’article

La persona d’« assistant » des grands modèles de langage est généralement entraînée à être aimable, honnête et inoffensive, mais elle s’écarte parfois de ces idéaux. Cette étude identifie dans l’espace d’activation du modèle des vecteurs de persona liés à plusieurs traits de caractère, comme la malveillance, la flatterie ou la propension aux hallucinations, et montre qu’ils permettent de surveiller les changements de persona au moment du déploiement. Elle montre aussi qu’en exploitant ces vecteurs de persona, il est possible de prédire et de contrôler les changements de personnalité intentionnels ou non intentionnels survenant pendant le finetuning, et que ces changements peuvent être atténués ou évités via des interventions post-hoc ou des méthodes de pilotage préventif. Enfin, les vecteurs de persona peuvent également servir à identifier, dans les données d’entraînement, les échantillons susceptibles de provoquer des changements de personnalité indésirables, et l’étude propose une méthode générale permettant leur extraction automatique à partir de simples descriptions en langage naturel.

Résumé de l’article (Abstract)

Les grands modèles de langage interagissent avec les utilisateurs à travers une persona d’« assistant » simulée. Bien que l’assistant soit généralement entraîné à être utile, inoffensif et honnête, il s’écarte parfois de ces idéaux. Cet article identifie des directions dans l’espace d’activation du modèle — les vecteurs de persona — qui sous-tendent plusieurs traits, comme la malveillance, la flatterie et la propension aux hallucinations. Nous confirmons que ces vecteurs peuvent être utilisés pour surveiller les fluctuations de personnalité de l’assistant au moment du déploiement. Nous appliquons ensuite les vecteurs de persona pour prédire et contrôler les changements de personnalité qui surviennent pendant l’entraînement. Nous constatons que les changements de personnalité, intentionnels comme non intentionnels, après finetuning, sont fortement corrélés à des déplacements le long des vecteurs de persona pertinents. Ces déplacements peuvent être atténués par une intervention post-hoc, ou évités dès le départ grâce à une nouvelle méthode de pilotage préventif. En outre, les vecteurs de persona peuvent être utilisés pour signaler les données d’entraînement qui produiront des changements de personnalité indésirables, aussi bien au niveau du jeu de données qu’au niveau de l’échantillon individuel. Notre méthode d’extraction des vecteurs de persona est automatisée et peut être appliquée à tout trait de personnalité d’intérêt à partir d’une simple description en langage naturel.

Large language models interact with users through a simulated 'Assistant' persona. While the Assistant is typically trained to be helpful, harmless, and honest, it sometimes deviates from these ideals. In this paper, we identify directions in the model's activation space-persona vectors-underlying several traits, such as evil, sycophancy, and propensity to hallucinate. We confirm that these vectors can be used to monitor fluctuations in the Assistant's personality at deployment time. We then apply persona vectors to predict and control personality shifts that occur during training. We find that both intended and unintended personality changes after finetuning are strongly correlated with shifts along the relevant persona vectors. These shifts can be mitigated through post-hoc intervention, or avoided in the first place with a new preventative steering method. Moreover, persona vectors can be used to flag training data that will produce undesirable personality changes, both at the dataset level and the individual sample level. Our method for extracting persona vectors is automated and can be applied to any personality trait of interest, given only a natural-language description.

Lien vers l’article

https://arxiv.org/abs/2507.21509

Pour aller plus loin

https://www.anthropic.com/research/persona-vectors

Cet article s’appuie sur un texte résumé avec un modèle GPT, il peut donc contenir des éléments reformulés d’une manière différente du contenu ou de l’intention du texte original. Si le sujet vous intéresse, veuillez aussi consulter la source originale ! Si vous remarquez en lisant des passages maladroits ou des erreurs, merci de nous le signaler en commentaire.* 🤗
⚠️Publicité⚠️ : Cet article, compilé par le groupe d’utilisateurs coréen de PyTorch🇰🇷, vous a-t-il été utile ? Si vous devenez membre, nous vous enverrons les principaux articles par e-mail💌 ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer à Daily.)*

[2025/08/18 ~ 24] Sélection d’articles de recherche IA/ML à découvrir cette semaine