[2025/12/22 ~ 28] Sélection d’articles de recherche AI/ML à suivre cette semaine
(discuss.pytorch.kr)[2025/12/22 ~ 28] Sélection d’articles de recherche AI/ML à suivre cette semaine
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Stratégies approfondies de détection et d’atténuation des hallucinations (Deep Hallucination Detection & Mitigation) : À travers les articles retenus cette semaine, on observe clairement des tentatives visant non plus seulement à augmenter la taille des modèles, mais à résoudre à la racine le problème chronique des LLM, à savoir les hallucinations. QuCo-RAG détermine le moment de la recherche non pas à partir de la confiance subjective interne du modèle, mais à l’aide d’un indicateur objectif fondé sur les statistiques des données de pré-entraînement, tandis que H-Neurons adopte une approche microscopique en identifiant les neurones spécifiques qui provoquent les hallucinations et en retraçant leur origine. De son côté, Model-First Reasoning réduit les erreurs structurelles en imposant une étape explicite de modélisation avant la résolution du problème. Cela montre que la recherche en IA évolue d’une logique de production de « réponses plausibles » vers des mécanismes vérifiables et fiables.
2️⃣ Évolution de l’efficacité en inférence et des technologies de traitement en temps réel (Evolution of Inference Efficiency & Real-Time Processing) : Par ailleurs, à mesure que les modèles gagnent en taille, les recherches visant à maximiser la vitesse d’inférence et l’efficacité mémoire se multiplient. WorldPlay a rendu possible la génération vidéo en temps réel en résolvant le compromis entre vitesse et mémoire, et Jacobi Forcing a considérablement accéléré l’inférence grâce au décodage parallèle, dépassant les limites de la génération séquentielle (AR). De plus, qTTT propose une nouvelle approche consistant à effectuer un apprentissage léger pendant l’inférence afin d’éviter la dégradation des performances lors du traitement de longs contextes (dilution du score). Cela peut être interprété comme un processus d’optimisation indispensable pour exploiter des modèles très performants au niveau de services réels (real-time application).
3️⃣ Renforcement de la compréhension dynamique du monde et des capacités de raisonnement structuré (Enhanced Dynamic World Understanding & Structured Reasoning) : Au-delà de l’analyse d’images ou de textes statiques, la tendance est forte vers une compréhension du flux du temps (4D) et des structures physiques/logiques. 4D-RGPT tente une perception 4D en ajoutant un axe temporel à l’espace 3D afin de comprendre la dynamique temporelle des vidéos, tandis que WorldPlay modélise le monde en maintenant une cohérence géométrique. NEPA, de son côté, cherche également à améliorer la compréhension visuelle via la prédiction d’embeddings plutôt que par la restauration de pixels. Cela suggère que l’IA progresse au-delà du simple pattern matching, vers une étape où elle internalise, comme les humains, les « principes de fonctionnement du monde », y compris les lois physiques et les relations causales logiques.
WorldPlay : vers une cohérence géométrique à long terme pour la modélisation interactive du monde en temps réel / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling
Présentation de l’article
WorldPlay est un modèle innovant de diffusion vidéo en streaming pour la modélisation interactive du monde en temps réel, développé avec pour objectif principal de maintenir une cohérence géométrique à long terme tout en résolvant le compromis entre vitesse et mémoire. Le modèle maximise ses performances grâce à trois innovations majeures. Premièrement, Dual Action Representation permet un contrôle robuste des mouvements en réponse aux entrées de l’utilisateur, ce qui rend possible des déplacements physiquement plausibles dans des scènes de différentes échelles. Deuxièmement, Reconstituted Context Memory contribue au maintien de la cohérence à long terme en reconstruisant dynamiquement les informations issues des images passées. Cela permet de garder accessibles les anciennes images importantes sur le plan géométrique tout en améliorant l’efficacité mémoire. Troisièmement, le modèle introduit une nouvelle méthode de distillation appelée Context Forcing afin d’améliorer les performances des modèles sensibles à la mémoire. Cette méthode aligne le contexte mémoriel entre le modèle enseignant et le modèle élève, afin que ce dernier puisse exploiter efficacement les informations de long terme.
WorldPlay génère des vidéos 720p à 24 images par seconde et démontre une cohérence supérieure par rapport aux technologies existantes. Le modèle parvient à atteindre simultanément la vitesse nécessaire à la génération vidéo en temps réel et une cohérence géométrique de long terme, tout en montrant une forte capacité de généralisation dans divers types de scènes. Il permet en outre des reconstructions 3D de haute qualité et prend en charge des interactions guidées par prompt capables de déclencher des événements dynamiques dans le monde. Grâce à ces caractéristiques, WorldPlay apporte une contribution importante au domaine de la génération vidéo interactive en temps réel et ouvre la voie à de nombreuses applications futures.
Résumé(Abstract)
Cet article présente WorldPlay, un modèle de diffusion vidéo en streaming qui permet une modélisation du monde interactive en temps réel. WorldPlay résout le compromis entre vitesse et mémoire qui limite les méthodes actuelles, tout en conservant une cohérence géométrique à long terme. WorldPlay s’appuie sur trois innovations majeures. 1) Nous utilisons une Dual Action Representation pour permettre un contrôle d’action robuste en réponse aux entrées clavier et souris de l’utilisateur. 2) Afin de garantir la cohérence à long terme, notre Reconstituted Context Memory reconstruit dynamiquement le contexte à partir des images passées et utilise un recadrage temporel pour conserver l’accès à des images anciennes mais géométriquement importantes, atténuant ainsi efficacement la dégradation de la mémoire. 3) Nous proposons également Context Forcing, une nouvelle méthode de distillation conçue pour les modèles sensibles à la mémoire. En alignant le contexte mémoire entre l’enseignant et l’étudiant, elle préserve la capacité de l’étudiant à exploiter des informations de long terme, ce qui permet des vitesses en temps réel tout en évitant la dérive des erreurs. Dans l’ensemble, WorldPlay peut diffuser sur de longues durées des vidéos 720p à 24 FPS avec une cohérence supérieure à celle des techniques existantes, tout en montrant une forte capacité de généralisation sur des scènes variées. La page du projet et la démo en ligne sont disponibles ici : https://3d-models.hunyuan.tencent.com/world/ et https://3d.hunyuan.tencent.com/sceneTo3D.
> This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.
Lien vers l’article
https://arxiv.org/abs/2512.14614
Pour aller plus loin
https://3d-models.hunyuan.tencent.com/world/
https://3d.hunyuan.tencent.com/sceneTo3D
QuCo-RAG : une méthode de génération augmentée par récupération dynamique qui quantifie l’incertitude à partir des données de pré-entraînement / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation
Présentation de l’article
QuCo-RAG est une méthodologie innovante qui détermine dynamiquement quand déclencher la récupération pendant le processus de génération des grands modèles de langage (LLM), afin de réduire les hallucinations. Les approches existantes s’appuyaient sur des signaux internes au modèle, mais celles-ci souffrent du fait que les LLM sont souvent mal calibrés et affichent une forte confiance même pour des sorties erronées. Pour dépasser cette limite, cette étude propose une nouvelle méthode qui quantifie l’incertitude non pas à partir d’une confiance subjective, mais à partir de statistiques objectives calculées sur les données de pré-entraînement.
La quantification de l’incertitude de QuCo-RAG se compose de deux étapes principales. La première consiste à identifier, avant la génération, les entités à faible fréquence qui signalent des lacunes de connaissance de longue traîne. La seconde consiste, pendant la génération, à vérifier la cooccurrence des entités dans les données de pré-entraînement ; lorsque cette cooccurrence est nulle, cela signale un risque d’hallucination. Ces deux étapes exploitent Infini-gram pour exécuter des requêtes avec une latence de l’ordre de la milliseconde sur 4 billions de tokens, déclenchant ainsi la récupération dans les situations de forte incertitude.
Les résultats expérimentaux montrent que QuCo-RAG, avec le modèle OLMo-2, améliore l’exactitude (EM) de 5 à 12 points par rapport aux meilleures bases de référence sur des benchmarks de question-réponse (QA) multi-étapes. La méthode se transfère également efficacement à des modèles disposant de données de pré-entraînement non officielles (Llama, Qwen, GPT), avec des gains allant jusqu’à 14 points d’EM. Des expériences de généralisation de domaine en QA biomédicale valident en outre la robustesse de QuCo-RAG.
QuCo-RAG propose un nouveau paradigme pour la génération augmentée par récupération dynamique fondé sur la vérification à partir du corpus de pré-entraînement, avec une approche indépendante du modèle applicable à divers LLM. Cette recherche contribue à réduire le risque d’hallucination et ouvre la voie à une exploration de son application future dans différents domaines.
Résumé(Abstract)
La génération augmentée par recherche dynamique (Dynamic Retrieval-Augmented Generation) détermine de manière adaptative à quel moment effectuer une recherche pendant la génération afin d’atténuer les hallucinations dans les grands modèles de langage (LLMs). Cependant, les méthodes existantes s’appuient sur des signaux internes au modèle (par ex. logits, entropie), qui sont fondamentalement peu fiables, car les LLM sont généralement mal calibrés et affichent souvent une forte confiance dans des sorties erronées. Nous proposons QuCo-RAG, qui délaisse la confiance subjective au profit de statistiques objectives calculées à partir des données de pré-entraînement. Notre méthode quantifie l’incertitude en deux étapes : (1) avant la génération, nous identifions les entités à faible fréquence qui signalent des lacunes de connaissance de longue traîne ; (2) pendant la génération, nous vérifions la cooccurrence des entités dans le corpus de pré-entraînement, une cooccurrence nulle signalant souvent un risque d’hallucination. Ces deux étapes s’appuient sur Infini-gram pour des requêtes à latence de l’ordre de la milliseconde sur 4 billions de tokens, et déclenchent la recherche lorsque l’incertitude est élevée. Les résultats expérimentaux sur des benchmarks de QA multi-hop montrent que QuCo-RAG obtient, avec les modèles OLMo-2, des gains de 5 à 12 points d’EM par rapport aux baselines de référence, et se transfère efficacement à des modèles dont les données de pré-entraînement ne sont pas divulguées (Llama, Qwen, GPT), avec une amélioration de l’EM allant jusqu’à 14 points. La généralisation de domaine sur la QA biomédicale valide en outre la robustesse de notre paradigme. Ces résultats établissent la vérification ancrée dans le corpus comme un paradigme fondé en principe et, en pratique, largement indépendant du modèle pour le RAG dynamique. Notre code est publiquement disponible sur https://github.com/ZhishanQ/QuCo-RAG.
> Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.
Lien vers l’article
https://arxiv.org/abs/2512.19134
Pour aller plus loin
https://github.com/ZhishanQ/QuCo-RAG
4D-RGPT : vers une compréhension 4D au niveau régional via la distillation perceptuelle / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
Présentation de l’article
4D-RGPT est un grand modèle de langage multimodal (MMLM) spécialisé, conçu pour capturer efficacement des représentations 4D à partir d’entrées vidéo. Les benchmarks existants de question-réponse vidéo (VQA) en 3D et 4D se concentrent sur des scènes statiques et manquent de prompts au niveau régional, ce qui limite la compréhension des dynamiques temporelles. Pour répondre à ce problème, cette étude introduit un cadre d’apprentissage innovant appelé distillation perceptuelle 4D (Perceptual 4D Distillation, P4D), qui permet une perception 4D complète en transférant des représentations 4D depuis un modèle expert gelé vers 4D-RGPT.
Un nouveau benchmark, nommé R4D-Bench, est également proposé ; il inclut des prompts au niveau régional pour des scènes dynamiques avec perception de profondeur. R4D-Bench a été construit via un pipeline hybride d’automatisation et de validation humaine, afin de dépasser les limites des benchmarks 4D VQA existants, fondés sur des approches non régionales. Ce benchmark comprend 9 catégories de questions pour évaluer différents aspects de la compréhension 4D, chaque catégorie fournissant un critère d’évaluation complet des performances des MMLM.
Le format à options de réponse exige le niveau de précision nécessaire pour que les MMLM fournissent des réponses exactes, ce qui est essentiel pour comprendre la position et l’orientation des objets. Cette approche améliore les capacités de compréhension 4D des MMLM et permet une évaluation plus approfondie via des questions basées sur les régions. Cette étude apporte une contribution importante en dépassant les limites des systèmes VQA existants grâce à 4D-RGPT et R4D-Bench, et en améliorant la perception 4D ainsi que la compréhension temporelle.
Résumé(Abstract)
Malgré les progrès de divers grands modèles de langage multimodaux (MLLM), leur capacité à raisonner sur les structures 3D et les dynamiques temporelles reste limitée, freinée par une faible perception 4D et une compréhension temporelle insuffisante. Les benchmarks existants de question-réponse vidéo (VQA) en 3D et 4D se concentrent également sur des scènes statiques et manquent de prompts au niveau régional. Pour répondre à ces problèmes, nous introduisons : (a) 4D-RGPT, un MLLM spécialisé conçu pour capturer des représentations 4D à partir d’entrées vidéo grâce à une perception temporelle améliorée ; (b) Perceptual 4D Distillation (P4D), un cadre d’entraînement qui transfère des représentations 4D depuis un modèle expert figé vers 4D-RGPT pour une perception 4D complète ; et (c) R4D-Bench, un benchmark pour des scènes dynamiques sensibles à la profondeur avec des prompts au niveau régional, construit via un pipeline hybride automatisé et validé par des humains. Notre 4D-RGPT obtient des améliorations notables à la fois sur les benchmarks 4D VQA existants et sur le benchmark proposé R4D-Bench.
> Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
Lien vers l’article
https://arxiv.org/abs/2512.17012
Pour aller plus loin
https://ca-joe-yang.github.io/resource/projects/4D_RGPT
H-Neurons : étude de l’existence, de l’impact et de l’origine des neurones associés aux hallucinations dans les grands modèles de langage / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs
Présentation de l’article
Le problème des hallucinations dans les grands modèles de langage (LLMs) est l’un des principaux facteurs qui nuisent à leur fiabilité ; il désigne le phénomène par lequel le modèle génère des sorties plausibles mais factuellement incorrectes. Cette étude analyse de manière systématique l’existence des neurones liés aux hallucinations, appelés H-Neurons, ainsi que leur impact et leur origine. Le processus d’identification des H-Neurons montre qu’un ensemble clairsemé de neurones représentant moins de 0,1 % de l’ensemble total peut prédire de manière fiable l’apparition d’hallucinations. Ces neurones ont montré une forte capacité de généralisation dans divers scénarios.
Du point de vue de l’impact comportemental, des interventions contrôlées ont révélé que les H-Neurons sont causalement liés à des comportements de surconformité. Cela suggère que les neurones qui contribuent à l’apparition d’hallucinations ne s’activent pas simplement par hasard, mais entretiennent une relation étroite avec certains schémas comportementaux. Concernant leur origine, l’étude montre que les H-Neurons proviennent du modèle de base pré-entraîné et que ces neurones conservent leur pouvoir prédictif pour la détection des hallucinations. Cela apporte un éclairage important : les H-Neurons se forment dès les premières étapes de l’apprentissage du modèle.
Sur le plan méthodologique, l’étude s’appuie sur le jeu de données TriviaQA pour construire un ensemble contrastif de haute qualité distinguant les sorties fiables des sorties hallucinées, afin d’identifier de manière robuste les neurones liés aux hallucinations. Ensuite, un classificateur linéaire a été entraîné pour quantifier la contribution de chaque neurone, ce qui a permis de produire des labels binaires prédisant la présence ou non d’hallucinations. Cette approche a posé les bases d’une évaluation claire de l’impact fonctionnel des H-Neurons.
Enfin, cette étude contribue à mieux comprendre les mécanismes neuronaux associés aux hallucinations dans les LLM et fournit une base importante pour le développement futur de LLM plus fiables. Ces résultats apportent des enseignements essentiels pour les recherches visant à améliorer la fiabilité des LLM et constituent un fondement important pour les orientations futures du domaine.
Résumé de l’article (Abstract)
Les grands modèles de langage (LLM) génèrent fréquemment des hallucinations, c’est-à-dire des sorties plausibles mais factuellement incorrectes, ce qui nuit à leur fiabilité. Alors que les travaux antérieurs ont étudié les hallucinations sous des angles macroscopiques, comme les données d’entraînement et les objectifs, les mécanismes sous-jacents au niveau des neurones restent largement inexplorés. Dans cet article, nous menons une étude systématique des neurones associés aux hallucinations (H-Neurons) dans les LLM selon trois perspectives : leur identification, leur impact comportemental et leur origine. Concernant leur identification, nous montrons qu’un sous-ensemble de neurones remarquablement clairsemé (moins de $0.1%$ du total) peut prédire de manière fiable l’apparition d’hallucinations, avec une forte généralisation à travers des scénarios variés. En ce qui concerne l’impact comportemental, des interventions contrôlées révèlent que ces neurones sont liés de manière causale à des comportements de surconformité. Quant à leur origine, nous retraçons ces neurones jusqu’aux modèles de base pré-entraînés et constatons qu’ils conservent leur pouvoir prédictif pour la détection des hallucinations, ce qui indique qu’ils émergent lors du pré-entraînement. Nos résultats établissent un pont entre des schémas comportementaux macroscopiques et des mécanismes neuronaux microscopiques, offrant ainsi des pistes pour développer des LLM plus fiables.
> Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.
Lien vers l’article
https://arxiv.org/abs/2512.01797
La prédiction du prochain embedding crée de puissants modèles de vision / Next-Embedding Prediction Makes Strong Vision Learners
Présentation de l’article
L’apprentissage auto-supervisé (self-supervised learning) s’est imposé comme une méthodologie clé pour apprendre des représentations à partir de vastes jeux de données non annotés, et diverses approches comme l’apprentissage contrastif (contrastive learning) et l’auto-distillation (self-distillation) ont récemment progressé. Toutefois, ces méthodes nécessitent souvent de grands batchs ou des memory banks, tandis que les objectifs de reconstruction (reconstruction objectives) via des décodeurs légers montrent aussi leurs limites. Comme alternative, l’apprentissage prédictif de représentations (predictive representation learning) a été proposé : il consiste à prédire des embeddings sémantiques plutôt que des entrées brutes, avec un intérêt particulier pour des méthodes comme JEPA (Just-Embedding Predictive Autoregression). Mais JEPA reste centré sur la représentation et présente la limite de produire des caractéristiques consommées séparément par des modules downstream à partir d’un encodeur préentraîné.
Dans ce contexte, l’approche Next-Embedding Predictive Autoregression (NEPA) propose de prédire les embeddings de patchs futurs à partir des embeddings de patchs passés, en utilisant le masquage causal (causal masking) et la technique de stop gradient. NEPA met l’accent sur l’apprentissage direct de la tâche prédictive, plutôt que sur la production de caractéristiques destinées à des tâches downstream. Cette méthodologie repose sur une architecture Transformer simple et affiche de hautes performances grâce au préentraînement sur le jeu de données ImageNet-1k. Il est particulièrement notable qu’elle conserve de solides performances sans reconstruction de pixels, sans tokens discrets, sans perte contrastive ni tête spécifique à une tâche.
NEPA a atteint une précision top-1 de 83,8 % et 85,3 % sur ImageNet-1K avec des backbones ViT-B et ViT-L respectivement, et s’est aussi transféré efficacement à la segmentation sémantique (semantic segmentation) sur ADE20K. Ces résultats montrent que NEPA peut contribuer à l’apprentissage auto-supervisé visuel comme alternative simple, extensible et potentiellement indépendante de la modalité. Les travaux sur NEPA ouvrent la possibilité de guider directement le comportement lié à une tâche via la prédiction, apportant ainsi une contribution importante et ouvrant la voie à de futurs usages dans divers travaux de vision.
Résumé de l’article (Abstract)
Inspirés par le succès du préentraînement génératif en langage naturel, nous nous demandons si les mêmes principes peuvent produire de puissants modèles visuels auto-supervisés. Au lieu d’entraîner les modèles à produire des caractéristiques pour un usage downstream, nous les entraînons à générer des embeddings afin d’exécuter directement des tâches prédictives. Ce travail explore ainsi un passage de l’apprentissage de représentations à l’apprentissage de modèles. Plus précisément, les modèles apprennent à prédire les embeddings de patchs futurs à partir des embeddings passés, à l’aide du masquage causal et de l’arrêt du gradient. Nous appelons cela Next-Embedding Predictive Autoregression (NEPA). Nous montrons qu’un Transformer simple préentraîné sur ImageNet-1k, avec pour unique objectif d’apprentissage la prédiction du prochain embedding, est efficace. Il ne nécessite ni reconstruction de pixels, ni tokens discrets, ni perte contrastive, ni tête spécifique à une tâche. Cette formulation conserve une simplicité architecturale et une bonne extensibilité, sans complexité de conception supplémentaire. NEPA obtient de solides résultats sur diverses tâches, atteignant 83,8 % et 85,3 % de précision top-1 sur ImageNet-1K avec des backbones ViT-B et ViT-L, et se transfère efficacement à la segmentation sémantique sur ADE20K. Nous pensons que le préentraînement génératif à partir d’embeddings offre une alternative simple, extensible et potentiellement indépendante de la modalité à l’apprentissage auto-supervisé visuel.
> Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.
Lien vers l’article
https://arxiv.org/abs/2512.16922
Pour aller plus loin
Agents LLM à raisonnement model-first : réduire les hallucinations grâce à une modélisation explicite du problème / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling
Présentation de l’article
Les grands modèles de langage (LLM) ont tendance à présenter un taux élevé de violations de contraintes et des solutions incohérentes dans les tâches complexes de planification en plusieurs étapes. Les stratégies existantes comme Chain-of-Thought (chaîne de pensée) et ReAct (action réactive) reposent sur un suivi implicite de l’état et ne parviennent pas à surmonter ces limites faute de représentation explicite du problème. Cette étude propose un nouveau paradigme en deux étapes, Model-First Reasoning (MFR), inspiré de la planification classique en intelligence artificielle (IA). Dans cette approche, le LLM construit d’abord un modèle explicite du problème, puis génère un plan de solution sur cette base.
Des expériences menées dans plusieurs domaines de planification ont montré que MFR améliore le respect des contraintes et la qualité des solutions. En particulier, l’efficacité de MFR a été démontrée dans des domaines variés comme la gestion de plannings médicaux, la planification d’itinéraires, l’allocation de ressources, les puzzles logiques et la synthèse procédurale. Des études d’ablation ont souligné que cette étape de modélisation explicite est essentielle à ces performances. Les résultats suggèrent que les échecs de planification des LLM proviennent principalement de défauts de représentation, plutôt que de limites intrinsèques du raisonnement.
MFR se divise en une étape de construction d’un modèle explicite du problème, puis une étape de génération de la solution, au cours desquelles sont définis les entités, variables d’état, actions et contraintes. Cette modélisation explicite aide le LLM à comprendre et résoudre le problème de manière plus structurée. L’étude fournit une base pour traiter les échecs de représentation dans les tâches de planification et de raisonnement fondées sur les LLM, constituant ainsi une contribution importante à des agents IA fiables. Tous les prompts, procédures d’évaluation et jeux de données de tâches sont documentés afin de favoriser la reproductibilité et de servir de fondement à de futures recherches.
Résumé de l’article (Abstract)
Les grands modèles de langage (LLM) rencontrent souvent des difficultés avec les tâches de planification complexes en plusieurs étapes, affichant des taux élevés de violations de contraintes et des solutions incohérentes. Les stratégies existantes, telles que Chain-of-Thought et ReAct, reposent sur un suivi implicite de l’état et manquent d’une représentation explicite du problème. Inspirés par la planification classique en IA, nous proposons Model-First Reasoning (MFR), un paradigme en deux phases dans lequel le LLM construit d’abord un modèle explicite du problème, en définissant les entités, les variables d’état, les actions et les contraintes, avant de générer un plan de solution. Dans plusieurs domaines de planification, notamment la planification médicale, la planification d’itinéraire, l’allocation de ressources, les puzzles logiques et la synthèse procédurale, MFR réduit les violations de contraintes et améliore la qualité des solutions par rapport à Chain-of-Thought et ReAct. Des études d’ablation montrent que la phase de modélisation explicite est essentielle à ces gains. Nos résultats suggèrent que de nombreux échecs de planification des LLM proviennent de lacunes de représentation plutôt que de limites de raisonnement, soulignant la modélisation explicite comme un composant clé pour des agents IA robustes et interprétables. Tous les prompts, procédures d’évaluation et jeux de données de tâches ont été documentés afin de faciliter la reproductibilité.
> Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.
Lien vers l’article
https://arxiv.org/abs/2512.14474
Ne nous contentons pas (simplement) de tout mettre dans le contexte : apprentissage au moment de l’inférence pour les LLM à long contexte / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs
Présentation de l’article
Les progrès des grands modèles de langage (LLM) ont considérablement amélioré leur capacité à traiter de longs contextes, mais il reste essentiel de résoudre le problème du manque d’efficacité réelle de ces modèles dans ce cadre. Cette étude souligne que la méthode de génération de thinking tokens utilisée par les stratégies d’inférence existantes pour améliorer les performances présente des limites en raison du problème de score dilution. La score dilution découle des caractéristiques de la static self-attention, ce qui réduit la précision du modèle dans les longs contextes.
Pour résoudre ce problème, cette étude propose une nouvelle méthodologie appelée query-only test-time training (qTTT). qTTT surmonte les limites de la static self-attention grâce à des mises à jour de gradient ciblées sur le contexte donné, avec pour objectif d’améliorer les performances en long contexte. Les résultats expérimentaux montrent que qTTT offre une approche plus efficace que les stratégies d’inférence existantes, avec, sur le modèle Qwen3-4B, des gains moyens de 12,6 et 14,1 points sur des sous-ensembles des benchmarks LongBench-v2 et ZeroScrolls.
Cette recherche souligne qu’une petite quantité d’apprentissage spécialisée pour le contexte est nécessaire afin d’améliorer les performances en long contexte, ce qui implique une meilleure utilisation du calcul d’inférence. L’introduction de qTTT propose une méthode concrète pour maximiser les performances des LLM à long contexte et devrait ouvrir de nouvelles pistes de recherche sur le traitement des longs contextes. Cette approche innovante semble susceptible d’élargir encore les possibilités d’usage des LLM et de contribuer à améliorer les performances dans divers domaines d’application.
Résumé(Abstract)
Les progrès des stratégies d’entraînement et d’architecture ont rendu possibles des grands modèles de langage (LLM) avec des longueurs de contexte de plusieurs millions de tokens. Cependant, les preuves empiriques suggèrent que ces LLM à long contexte peuvent ingérer bien plus de texte qu’ils ne peuvent en exploiter de manière fiable. À l’inverse, il a été montré que le calcul à l’inférence peut servir à faire progresser les performances des LLM sur des tâches difficiles impliquant un raisonnement en plusieurs étapes, souvent en générant des thinking tokens. À travers des expériences contrôlées sur des tâches sandbox à long contexte, nous constatons que ces stratégies à l’inférence présentent des rendements rapidement décroissants et échouent sur les longs contextes. Nous attribuons ces échecs à la dilution des scores (score dilution), un phénomène inhérent à la self-attention statique. Nous montrons en outre que les stratégies actuelles à l’inférence ne parviennent pas, dans certaines conditions, à récupérer les signaux pertinents dans un long contexte. Nous proposons une méthode simple qui, via des mises à jour de gradient ciblées sur le contexte donné, surmonte de manière démontrable les limites de la self-attention statique. Nous constatons que ce changement dans la manière d’utiliser le calcul à l’inférence entraîne des gains de performance importants et constants sur différents modèles et benchmarks de long contexte. Notre méthode apporte en moyenne des améliorations substantielles de 12,6 et 14,1 points de pourcentage pour Qwen3-4B sur des sous-ensembles des benchmarks LongBench-v2 et ZeroScrolls. La conclusion pratique est la suivante : pour les longs contextes, une petite quantité d’entraînement spécifique au contexte est un meilleur usage du calcul à l’inférence que les stratégies actuelles de scaling à l’inférence, comme produire davantage de thinking tokens.
> Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.
Lien vers l’article
https://arxiv.org/abs/2512.13898
Stabiliser l’apprentissage par renforcement avec les grands modèles de langage : formalisation et pratiques / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
Présentation de l’article
L’apprentissage par renforcement (Reinforcement Learning, RL) a été appliqué avec succès dans divers domaines, mais les problèmes d’instabilité pendant l’entraînement restent un défi majeur à résoudre. Cette étude propose une nouvelle méthodologie pour améliorer la stabilité du RL en s’appuyant sur les grands modèles de langage (Large Language Models, LLMs). En particulier, elle identifie les conditions dans lesquelles il est possible, via la méthode de gradient de politique REINFORCE, d’optimiser des objectifs au niveau du token en remplacement de récompenses au niveau de la séquence. À travers une approximation du premier ordre, elle montre que cet objectif de substitution devient valable lorsque le décalage entraînement-inférence et l’obsolescence de la politique sont minimisés.
Ces enseignements aident à expliquer l’effet de techniques telles que la correction par importance sampling, le clipping, et le Routing Replay pour les modèles Mixture-of-Experts (MoE) sur la stabilisation de l’entraînement RL. Des expériences menées sur des millions d’heures GPU avec un modèle MoE de 30B démontrent que, dans l’entraînement on-policy, l’algorithme de gradient de politique de base intégrant une correction par importance sampling atteint la plus forte stabilité d’entraînement. En outre, lorsqu’on introduit des mises à jour off-policy pour accélérer la convergence, l’étude souligne que la combinaison du clipping et de Routing Replay est essentielle pour atténuer l’instabilité due à l’obsolescence de la politique.
Une fois l’entraînement stabilisé, les auteurs montrent qu’une optimisation continue permet d’obtenir des performances finales cohérentes, quelle que soit la méthode d’initialisation. Ces résultats apportent de nouveaux éclairages sur l’entraînement RL stable et posent des bases importantes pour les recherches futures. Cet article présente une approche innovante de la stabilisation de l’apprentissage par renforcement à l’aide de grands modèles de langage et constitue une contribution importante à la résolution de l’instabilité de l’entraînement RL.
Résumé(Abstract)
Cet article propose une nouvelle formulation de l’apprentissage par renforcement (RL) avec des grands modèles de langage (LLM) et explique pourquoi, et dans quelles conditions, la véritable récompense au niveau de la séquence peut être optimisée via un objectif substitut au niveau du token dans des méthodes de gradient de politique comme REINFORCE. Plus précisément, à l’aide d’une approximation du premier ordre, nous montrons que ce substitut ne devient de plus en plus valide que lorsque l’écart entre entraînement et inférence ainsi que l’obsolescence de la politique sont tous deux minimisés. Cette analyse fournit une explication de principe du rôle crucial de plusieurs techniques largement adoptées pour stabiliser l’entraînement en RL, notamment la correction par importance sampling, le clipping, et en particulier Routing Replay pour les modèles Mixture-of-Experts (MoE). À travers des expériences approfondies sur un modèle MoE 30B totalisant plusieurs centaines de milliers d’heures GPU, nous montrons que, pour l’entraînement on-policy, l’algorithme de base de gradient de politique avec correction par importance sampling atteint la plus grande stabilité d’entraînement. Lorsque des mises à jour off-policy sont introduites pour accélérer la convergence, la combinaison du clipping et de Routing Replay devient essentielle pour atténuer l’instabilité causée par l’obsolescence de la politique. Fait notable, une fois l’entraînement stabilisé, une optimisation prolongée produit de manière constante des performances finales comparables, indépendamment de l’initialisation à froid. Nous espérons que les analyses partagées et les recettes développées pour un entraînement RL stable faciliteront les recherches futures.
> This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.
Lien vers l’article
https://arxiv.org/abs/2512.01374
Décodage parallèle causal rapide et précis à l’aide de Jacobi Forcing / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing
Présentation de l’article
Alors que les recherches visant à améliorer la vitesse d’inférence des grands modèles de langage se poursuivent activement, cette étude propose une méthodologie innovante appelée Jacobi Forcing. Cette approche se concentre sur la réduction de la latence d’inférence en permettant le décodage parallèle de modèles basés sur des transformers grâce à la génération multi-token. Les approches existantes de diffusion large language models (dLLMs) ont montré des limites dans l’amélioration des performances en raison d’un décalage entre le pré-entraînement (pre-training) et le post-entraînement (post-training). En particulier, les dLLMs utilisent une attention bidirectionnelle, ce qui entre en conflit avec le prior causal et empêche une réutilisation correcte du cache clé-valeur (KV cache).
Jacobi Forcing est un paradigme de distillation progressive dans lequel le modèle apprend à partir de ses propres trajectoires générées de décodage parallèle, ce qui lui permet de devenir un décodeur parallèle efficace tout en conservant les propriétés d’inférence causale du modèle pré-entraîné. Le modèle Jacobi Forcing ainsi entraîné a atteint une amélioration de 3,8× de la vitesse en temps mur sur des benchmarks de code et de mathématiques, tout en minimisant la perte de performance. En outre, l’introduction d’un décodage multi-blocs via le rejection recycling a permis d’augmenter jusqu’à 4,5× le nombre de tokens acceptés à chaque itération et d’obtenir une amélioration de vitesse en temps mur de près de 4,0×.
Cette recherche présente une méthode permettant un décodage parallèle efficace tout en préservant les propriétés d’inférence causale des modèles AR grâce à Jacobi Forcing, et montre son potentiel pour améliorer radicalement la vitesse d’inférence des grands modèles de langage. Cette approche pourrait considérablement améliorer l’efficacité des modèles dans le domaine du traitement automatique du langage naturel (NLP) et devrait apporter une contribution importante aux recherches futures.
Résumé (Abstract)
La génération multi-token s’est imposée comme un paradigme prometteur pour accélérer l’inférence des grands modèles basés sur les transformeurs. Les travaux récents explorent principalement les grands modèles de langage à diffusion (dLLMs) pour le décodage parallèle afin de réduire la latence d’inférence. Pour atteindre une qualité de génération au niveau des modèles AR, de nombreuses techniques adaptent des modèles AR en dLLMs afin de permettre le décodage parallèle. Cependant, elles ne bénéficient que de gains de vitesse limités par rapport aux modèles AR en raison d’un décalage entre pré-entraînement et post-entraînement. Plus précisément, la distribution de données masquées utilisée en post-entraînement s’écarte fortement de la distribution de données du monde réel observée pendant le pré-entraînement, et les dLLMs s’appuient sur une attention bidirectionnelle, ce qui entre en conflit avec l’a priori causal appris pendant le pré-entraînement et empêche l’intégration d’une réutilisation exacte du cache KV. Pour résoudre ce problème, nous introduisons Jacobi Forcing. Il s’agit d’un paradigme de distillation progressive dans lequel les modèles sont entraînés sur leurs propres trajectoires de décodage parallèle générées, faisant évoluer en douceur les modèles AR vers des décodeurs parallèles efficaces tout en préservant leur propriété d’inférence causale pré-entraînée. Le modèle entraîné dans ce cadre, Jacobi Forcing Model, atteint une accélération de 3,8x en temps d’exécution réel sur des benchmarks de code et de mathématiques, avec une perte de performance minimale. En nous appuyant sur les caractéristiques de trajectoire des Jacobi Forcing Models, nous introduisons un décodage multi-blocs avec rejection recycling, qui permet jusqu’à 4,5x plus de tokens acceptés par itération et près de 4,0x d’accélération en temps réel, en échangeant efficacement davantage de calcul contre une latence d’inférence plus faible. Notre code est disponible sur https://github.com/hao-ai-lab/JacobiForcing.
> Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.
Lien vers l’article
https://arxiv.org/abs/2512.14681
Pour aller plus loin
https://github.com/hao-ai-lab/JacobiForcing
Les préjudices des grands modèles de langage (LLM) : taxonomie et discussion / LLM Harms: A Taxonomy and Discussion
Présentation de l’article
Cette étude traite des catégories de préjudices associées aux grands modèles de langage (LLM). Elle présente cinq catégories de préjudices pouvant survenir avant, pendant et après le développement d’applications d’IA : pré-développement, sorties directes, mésusage et applications malveillantes, ainsi qu’applications en aval. Elle souligne la nécessité de définir les risques dans le contexte actuel et propose des méthodes pour gérer la responsabilité, la transparence et les biais. Elle suggère également des stratégies d’atténuation par domaine ainsi que des orientations futures, et inclut une proposition standardisée pour un système d’audit dynamique visant à guider le développement et l’intégration responsables des LLM.
Résumé de l’article (Abstract)
Cette étude traite des catégories de préjudices entourant les grands modèles de langage (LLMs) dans le domaine de l’intelligence artificielle. Elle aborde cinq catégories de préjudices traités avant, pendant et après le développement d’applications d’IA : pré-développement, sortie directe, mésusage et application malveillante, ainsi qu’application en aval. Elle souligne la nécessité de définir les risques dans le paysage actuel afin de garantir la responsabilité, la transparence et la prise en compte des biais lors de l’adaptation des LLM à des applications concrètes. Elle propose également des stratégies d’atténuation et des orientations futures pour des domaines spécifiques, ainsi qu’un système d’audit dynamique guidant le développement et l’intégration responsables des LLM dans le cadre d’une proposition standardisée.
> This study addresses categories of harm surrounding Large Language Models (LLMs) in the field of artificial intelligence. It addresses five categories of harms addressed before, during, and after development of AI applications: pre-development, direct output, Misuse and Malicious Application, and downstream application. By underscoring the need to define risks of the current landscape to ensure accountability, transparency and navigating bias when adapting LLMs for practical applications. It proposes mitigation strategies and future directions for specific domains and a dynamic auditing system guiding responsible development and integration of LLMs in a standardized proposal.
Lien vers l’article
https://arxiv.org/abs/2512.05929
⚠️Publicité⚠️ : Cet article compilé par 🔥PyTorch Korea User Group🇰🇷 vous a été utile ? Inscrivez-vous comme membre pour recevoir les articles importants par e-mail 💌 ! (Le réglage par défaut est Weekly, mais vous pouvez aussi le passer en Daily.)
Aucun commentaire pour le moment.