[2025/01/13 ~ 01/19] Principaux articles ML de la semaine (Top ML Papers of the Week)

Nous avons traduit automatiquement les articles sur les publications ML publiées chaque semaine par DAIR.AI.
La tendance marquante des articles retenus cette semaine est le dynamisme de la recherche sur les grands modèles de langage (LLM, Large Language Models) et l’IA multimodale. Par exemple, des articles comme "Self-Adaptive LLMs", "Foundations of LLMs", "Enhancing RAG" et "VideoRAG" traitent de sujets liés aux LLM et à l’apprentissage multimodal. D’autres travaux, comme "Imagine while Reasoning in Space" et "OmniThink", explorent également des approches multimodales qui mobilisent diverses formes de données pour résoudre des problèmes complexes.
Cette tendance montre qu’au sein de la communauté de recherche en IA, l’importance des modèles de langage et les efforts visant à parvenir à une compréhension plus globale en combinant différents types de données ne cessent de croître. Les LLM sont à la pointe du traitement du langage naturel (NLP), et l’idée qu’une approche intégrée exploitant des données multimodales est nécessaire pour faire encore progresser ces technologies semble se diffuser. En particulier, l’IA multimodale joue déjà un rôle important pour résoudre des problèmes plus complexes en combinant la compréhension des images et celle du langage naturel.
En conclusion, les articles de cette semaine montrent que le cœur de la recherche en IA se concentre sur les grands modèles de langage et l’apprentissage multimodal. Cela suggère que l’IA ne se limite plus au simple traitement du texte, mais évolue vers une fusion avec l’information visuelle afin de permettre une résolution de problèmes plus intelligente et plus complexe. On peut donc s’attendre à ce que ces recherches aient une forte influence sur les futurs progrès des technologies d’IA.

$\text{Transformer}^2$ : LLM auto-adaptatifs / $\text{Transformer}^2$: Self-adaptive LLMs

Présentation de l’article

Présentation de $\text{Transformer}^2$, un nouveau framework d’auto-adaptation qui ajuste les LLM en temps réel pour des tâches inédites en modifiant sélectivement des composantes singulières de leurs matrices de poids. Il repose sur deux étapes principales : 1) un système de dispatch qui analyse et identifie les propriétés de la tâche entrante, 2) une étape qui combine des vecteurs « experts », entraînés par reinforcement learning, afin de produire des comportements spécifiques à chaque tâche. Les auteurs affirment que cette approche est plus efficace que LoRA avec moins de paramètres et qu’elle peut fonctionner sur différentes architectures de LLM.

Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.

Résumé (Abstract)

Les grands modèles de langage (LLM) auto-adaptatifs visent à résoudre les problèmes posés par les méthodes traditionnelles de fine-tuning, souvent gourmandes en calcul et trop statiques pour gérer une grande diversité de tâches. Nous présentons ici $\text{Transformer}^2$, un nouveau framework d’auto-adaptation qui ajuste les LLM en temps réel pour des tâches inédites en ne modifiant sélectivement que les composantes singulières de leurs matrices de poids. Lors de l’inférence, $\text{Transformer}^2$ utilise un mécanisme en deux passes. D’abord, un système de dispatch identifie les propriétés de la tâche, puis des vecteurs « experts » spécifiques à la tâche, entraînés par reinforcement learning, sont mélangés dynamiquement pour obtenir le comportement visé pour le prompt entrant. Notre méthode surpasse des approches omniprésentes comme LoRA, avec moins de paramètres et une efficacité supérieure. $\text{Transformer}^2$ démontre sa polyvalence sur différentes architectures et modalités de LLM, y compris les tâches vision-langage. $\text{Transformer}^2$ représente une avancée significative en proposant une solution scalable et efficace pour améliorer l’adaptabilité et les performances spécifiques aux tâches des LLM, ouvrant la voie à des systèmes d’IA réellement dynamiques et auto-organisés.

Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.

Lien vers l’article

https://arxiv.org/abs/2501.06252

Pour aller plus loin

https://discuss.pytorch.kr/t/…

https://x.com/hardmaru/status/1879331049383334187

MiniMax-01 : mise à l’échelle des foundation models avec Lightning Attention / MiniMax-01: Scaling Foundation Models with Lightning Attention

Présentation de l’article

Introduction d’une nouvelle série de modèles intégrant le Mixture-of-Experts, avec un modèle doté de 32 experts et de 456 milliards de paramètres, dont 45,9 milliards sont activés pour chaque token, avec des performances annoncées au niveau des modèles de pointe comme GPT-4o et Claude-3.5-Sonnet. Il offre une fenêtre de contexte 20 à 32 fois plus longue, peut traiter jusqu’à 4 millions de tokens, intègre une attention linéaire et une utilisation matérielle optimisée pour améliorer l’efficacité et la scalabilité des LLM, et comprend aussi un modèle de vision appelé MiniMax-VL-01, construit via un entraînement continu sur 512 milliards de tokens vision-langage.

Introduces a new series of models that integrate Mixture-of-Experts; introduces a model with 32 experts and 456B parameters, and 45.9B are activated for each token; claims match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering a 20-32x longer context window; it can handle context windows of up to 4 million tokens; it integrates linear attention with optimized hardware utilization which enhances the efficiency and scalability of the LLM; there is also a vision model called MiniMax-VL-01 built through continued training with 512 billion vision-language tokens.

Résumé de l’article (Abstract)

Nous présentons la série MiniMax-01, qui comprend MiniMax-Text-01 et MiniMax-VL-01, comparables aux modèles de premier plan tout en offrant des capacités supérieures pour le traitement des contextes longs. Le cœur du système repose sur lightning attention et son passage à l’échelle efficace. Pour maximiser la capacité de calcul, nous l’intégrons à un Mixture of Experts (MoE), créant un modèle avec 32 experts et 456 milliards de paramètres au total, dont 45,9 milliards sont activés pour chaque token. Nous développons une stratégie de parallélisation optimisée ainsi que des techniques très efficaces de chevauchement calcul-communication pour le MoE et lightning attention. Cette approche nous permet d’effectuer efficacement l’entraînement et l’inférence sur des modèles comptant des centaines de milliards de paramètres dans des contextes couvrant des millions de tokens. La fenêtre de contexte de MiniMax-Text-01 peut atteindre jusqu’à 1 million de tokens pendant l’entraînement et être extrapolée à 4 millions de tokens pendant l’inférence à un coût abordable. Notre modèle vision-langage, MiniMax-VL-01, est construit via un entraînement continu sur 512 milliards de tokens vision-langage. Les expériences menées sur des benchmarks standards et internes montrent que nos modèles égalent les performances de modèles de pointe comme GPT-4o et Claude-3.5-Sonnet tout en offrant une fenêtre de contexte 20 à 32 fois plus longue. MiniMax-01 est publié publiquement sur https://github.com/MiniMax-AI.

We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.

Lien vers l’article

https://arxiv.org/abs/2501.08313

Pour aller plus loin

https://github.com/MiniMax-AI

https://x.com/omarsar0/status/1879572512075587872

VideoRAG : génération augmentée par récupération sur corpus vidéo / VideoRAG: Retrieval-Augmented Generation over Video Corpus

Présentation de l’article

Un framework qui améliore le RAG en exploitant le contenu vidéo comme source de connaissances externe ; contrairement aux approches RAG existantes qui se concentrent principalement sur le texte ou les images, VideoRAG récupère dynamiquement les vidéos pertinentes en fonction des requêtes et intègre à la fois leurs éléments visuels et textuels dans le processus de génération ; le framework utilise des Large Video Language Models (LVLM) pour traiter directement le contenu vidéo, ce qui permet de mieux capturer les dynamiques temporelles, les détails spatiaux et les indices multimodaux que les modalités statiques peinent souvent à restituer ; pour les vidéos dépourvues de descriptions textuelles, les auteurs proposent d’utiliser la reconnaissance automatique de la parole pour générer des transcriptions, afin de garantir l’exploitation conjointe des modalités visuelle et textuelle.

A framework that enhances RAG by leveraging video content as an external knowledge source; unlike existing RAG approaches that primarily focus on text or images, VideoRAG dynamically retrieves relevant videos based on queries and incorporates both their visual and textual elements into the generation process; the framework utilizes Large Video Language Models (LVLMs) to process video content directly, enabling more effective capture of temporal dynamics, spatial details, and multimodal cues that static modalities often fail to convey; for videos lacking textual descriptions, they propose using automatic speech recognition to generate transcripts, ensuring both visual and textual modalities can be leveraged.

Résumé de l’article (Abstract)

La génération augmentée par récupération (RAG) est une stratégie puissante pour résoudre le problème des sorties factuellement incorrectes produites par les foundation models, en récupérant des connaissances externes pertinentes pour les requêtes et en les intégrant dans leur processus de génération. Cependant, les approches RAG existantes se sont principalement concentrées sur les informations textuelles, et certaines avancées récentes commencent à prendre en compte les images, mais elles négligent largement les vidéos, une riche source de connaissances multimodales capable de représenter des événements, des processus et des détails contextuels plus efficacement que toute autre modalité. Alors que quelques études récentes explorent l’intégration des vidéos dans le processus de génération de réponses, elles soit prédéfinissent des vidéos associées aux requêtes sans les récupérer en fonction de celles-ci, soit convertissent les vidéos en descriptions textuelles sans exploiter leur richesse multimodale. Pour répondre à ces limites, nous présentons VideoRAG, un nouveau framework qui non seulement récupère dynamiquement des vidéos pertinentes selon leur lien avec les requêtes, mais exploite aussi à la fois les informations visuelles et textuelles des vidéos lors de la génération des sorties. En outre, pour rendre cela opérationnel, notre méthode s’appuie sur les avancées récentes des Large Video Language Models (LVLMs), qui permettent de traiter directement le contenu vidéo afin de le représenter pour la recherche et d’intégrer de manière fluide les vidéos récupérées avec les requêtes. Nous validons expérimentalement l’efficacité de VideoRAG et montrons qu’il surpasse les baselines pertinentes.

Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

Lien vers l’article

https://arxiv.org/abs/2501.05874

Pour aller plus loin

https://x.com/omarsar0/status/1878827350315659421

Titan : apprendre à mémoriser au moment du test / Titans: Learning to Memorize at Test Time

Présentation de l’article

L’introduction d’un module de mémoire neuronale à long terme permet de mémoriser le contexte passé et d’aider l’attention à se concentrer sur le contexte actuel tout en exploitant des informations lointaines dans le passé ; ce module de mémoire neuronale agit comme une mémoire de long terme, plus persistante que l’usage de la seule attention (considérée comme plus court terme) ; Titan, fondé sur cette mémoire neuronale, obtient de bons résultats en modélisation du langage, en raisonnement de bon sens, en génomique et sur les tâches de séries temporelles.

Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.

Résumé de l’article (Abstract)

Depuis plus de dix ans, de vastes recherches ont été menées sur la manière d’utiliser efficacement les modèles récurrents et l’attention. Les modèles récurrents visent à compresser les données dans une mémoire de taille fixe, appelée état caché, tandis que l’attention permet de prendre en compte l’ensemble de la fenêtre de contexte en capturant les dépendances directes de tous les tokens. Toutefois, cette modélisation plus précise des dépendances s’accompagne d’un coût quadratique et limite le modèle à un contexte de longueur fixe. Nous présentons un nouveau module de mémoire neuronale à long terme qui apprend à mémoriser le contexte historique et aide l’attention à se concentrer sur le contexte actuel tout en exploitant des informations anciennes. Nous montrons que cette mémoire neuronale présente l’avantage d’un entraînement rapide et facilement parallélisable, tout en conservant une inférence rapide. Du point de vue de la mémoire, nous soutenons que l’attention, en raison de son contexte limité mais de sa modélisation précise des dépendances, agit comme une mémoire à court terme, tandis que la mémoire neuronale, grâce à sa capacité à mémoriser les données, fonctionne comme une mémoire à long terme, plus persistante. Sur la base de ces deux modules, nous introduisons une nouvelle famille d’architectures appelée Titans et présentons trois variantes montrant comment intégrer efficacement la mémoire dans cette architecture. Les résultats expérimentaux en modélisation du langage, raisonnement de bon sens, génomique et séries temporelles montrent que Titans est plus efficace que les Transformers et les modèles récurrents linéaires modernes récents. En outre, le modèle peut passer efficacement à des fenêtres de contexte de plus de 2M avec une meilleure précision sur les tâches de type aiguille dans une botte de foin par rapport aux baselines.

Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.

Lien vers l’article

https://arxiv.org/abs/2501.00663

Pour aller plus loin

https://x.com/omarsar0/status/1879896681010921742

Fondements des grands modèles de langage / Foundations of Large Language Models

Présentation de l’article

Nouveau survey sur les fondements des LLM, couvrant des domaines tels que le pré-entraînement, le prompting et les méthodes d’alignement.

New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.

Résumé de l’article (Abstract)

Ce livre porte sur les grands modèles de langage. Comme l’indique son titre, il se concentre principalement sur les concepts fondamentaux plutôt que sur une couverture exhaustive de toutes les technologies de pointe. L’ouvrage est structuré en quatre chapitres principaux, chacun explorant un domaine clé : le pré-entraînement, les modèles génératifs, les techniques de prompting et les méthodes d’alignement. Il s’adresse aux étudiants, aux professionnels et aux praticiens du traitement automatique du langage naturel et des domaines connexes, et peut servir de référence à toute personne intéressée par les grands modèles de langage.

This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.

Lien vers l’article

https://arxiv.org/abs/2501.09223

Pour aller plus loin

https://discuss.pytorch.kr/t/pdf-231p-feat-arxiv/5895

https://x.com/omarsar0/status/1880284477445767586

OmniThink: étendre les frontières de la connaissance en écriture automatique par la réflexion / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

Présentation de l’article

Un nouveau framework qui émule un processus humain d’expansion et de réflexion itératives ; il a été conçu pour simuler le comportement cognitif d’apprenants à mesure qu’ils approfondissent leurs connaissances ; par rapport au RAG et au jeu de rôle, OmniThink peut étendre les frontières de la connaissance grâce à une réflexion et une exploration continues ; ce qui le rend idéal pour les cas d’usage nécessitant une génération de texte long.

A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.

Résumé de l’article (Abstract)

L’écriture automatique avec de grands modèles de langage s’appuie souvent sur la génération augmentée par la recherche. Cependant, ces approches restent confinées aux limites du périmètre prédéfini du modèle, ce qui limite la génération de contenus riches en informations. En particulier, les informations récupérées de manière basique manquent souvent de profondeur et d’utilité, et souffrent de redondance, ce qui nuit à la qualité des articles générés en produisant des résultats superficiels, répétitifs et peu originaux. Pour répondre à ces problèmes, nous proposons OmniThink, un framework d’écriture automatique qui reproduit un processus humain d’expansion itérative et de réflexion. L’idée centrale d’OmniThink est de simuler le comportement cognitif d’apprenants qui approfondissent progressivement leur connaissance d’un sujet. Les résultats expérimentaux montrent qu’OmniThink améliore la densité de connaissances des documents générés sans dégrader des métriques telles que la cohérence et la profondeur. Les évaluations humaines et les retours d’experts soulignent en outre le potentiel d’OmniThink pour relever des défis concrets dans la génération d’articles de long format.

Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model's predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.

Lien vers l’article

https://arxiv.org/abs/2501.09751

Pour aller plus loin

https://x.com/omarsar0/status/1880275861401923619

Améliorer la génération augmentée par la recherche : étude des meilleures pratiques / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Présentation de l’article

Examine de manière systématique les éléments et méthodes qui améliorent les systèmes RAG, comme les stratégies de recherche, l’expansion de requête, l’apprentissage contrastif en contexte, le prompt design et le chunking.

Systematically explores the factors and methods that improve RAG systems such as retrieval strategies, query expansion, contrastive in-context learning, prompt design, and chunking.

Résumé de l’article (Abstract)

Les systèmes de génération augmentée par la recherche (RAG) ont récemment connu des avancées remarquables en intégrant des mécanismes de recherche aux modèles de langage, améliorant ainsi leur capacité à produire des réponses plus précises et plus pertinentes sur le plan contextuel. Cependant, l’influence des différents composants et configurations au sein des systèmes RAG reste encore peu étudiée. Une compréhension globale de ces éléments est essentielle pour adapter les systèmes RAG à des tâches de recherche complexes et garantir des performances optimales dans des applications variées. Dans cet article, nous développons plusieurs conceptions avancées de systèmes RAG intégrant l’expansion de requête, diverses nouvelles stratégies de recherche et un nouveau RAG fondé sur le Contrastive In-Context Learning. Notre étude examine de manière systématique des facteurs clés, notamment la taille du modèle de langage, le prompt design, la taille des chunks de documents, la taille de la base de connaissances, le pas de recherche, les techniques d’expansion de requête, les bases de connaissances pour le Contrastive In-Context Learning, les bases de connaissances multilingues, ainsi qu’un Focus Mode permettant de récupérer un contexte pertinent au niveau de la phrase. À travers des expérimentations approfondies, nous fournissons une analyse détaillée de l’influence de ces facteurs sur la qualité des réponses. Nos résultats apportent des enseignements concrets pour le développement de systèmes RAG, en trouvant un équilibre entre richesse contextuelle et efficacité du couple recherche-génération, et ouvrent ainsi la voie à des frameworks RAG plus adaptables et plus performants dans divers scénarios réels. Notre code et les détails d’implémentation sont publiquement disponibles.

Retrieval-Augmented Generation (RAG) systems have recently shown remarkable advancements by integrating retrieval mechanisms into language models, enhancing their ability to produce more accurate and contextually relevant responses. However, the influence of various components and configurations within RAG systems remains underexplored. A comprehensive understanding of these elements is essential for tailoring RAG systems to complex retrieval tasks and ensuring optimal performance across diverse applications. In this paper, we develop several advanced RAG system designs that incorporate query expansion, various novel retrieval strategies, and a novel Contrastive In-Context Learning RAG. Our study systematically investigates key factors, including language model size, prompt design, document chunk size, knowledge base size, retrieval stride, query expansion techniques, Contrastive In-Context Learning knowledge bases, multilingual knowledge bases, and Focus Mode retrieving relevant context at sentence-level. Through extensive experimentation, we provide a detailed analysis of how these factors influence response quality. Our findings offer actionable insights for developing RAG systems, striking a balance between contextual richness and retrieval-generation efficiency, thereby paving the way for more adaptable and high-performing RAG frameworks in diverse real-world scenarios. Our code and implementation details are publicly available.

Lien vers l’article

https://arxiv.org/abs/2501.07391

Pour aller plus loin

https://x.com/omarsar0/status/1879178916021318029

AutoCBT : un framework multi-agents autonome pour la thérapie cognitivo-comportementale en conseil psychologique / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

Présentation de l’article

Nous proposons AutoCBT, un framework multi-agents pour la thérapie cognitivo-comportementale. Cette recherche présente un framework multi-agents général capable de générer des réponses de haute qualité pour des scénarios de consultation psychologique en un seul tour, améliore l’autonomie de chaque agent grâce à une combinaison de routage dynamique, de mémoire et de mécanismes de supervision, et les résultats expérimentaux montrent qu’AutoCBT peut fournir des services automatisés de conseil psychologique de haute qualité. AutoCBT améliore la qualité du dialogue par rapport à d’autres frameworks de conseil reposant uniquement sur des prompts.

Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.

Résumé de l’article (Abstract)

Le conseil psychologique traditionnel en présentiel reste principalement un marché de niche, souvent choisi par des personnes confrontées à des difficultés psychologiques, tandis que le conseil automatisé en ligne offre une solution potentielle à celles et ceux qui hésitent à demander de l’aide par honte. La thérapie cognitivo-comportementale (CBT) est une approche essentielle et largement utilisée en conseil psychologique. L’émergence des grands modèles de langage (LLM) et des technologies d’agents rend possible le diagnostic et le traitement CBT automatisés. Cependant, les systèmes CBT actuels basés sur les LLM utilisent des agents à structure fixe, ce qui limite leurs capacités d’auto-optimisation, ou produisent des suggestions creuses et peu utiles en raison de schémas de réponse redondants. Dans ce travail, nous utilisons des modèles de consultation en un seul tour de type Quora ainsi que le modèle de consultation en un seul tour YiXinLi afin de construire un framework d’agents général générant des réponses de haute qualité pour des scénarios de consultation psychologique en un seul tour. Nous utilisons un jeu de données bilingue pour évaluer la qualité des consultations à réponse unique générées par chaque framework. Nous intégrons ensuite des mécanismes de routage dynamique et de supervision inspirés du conseil psychologique réel afin de construire un framework autonome multi-agents orienté CBT, démontrant ainsi son applicabilité générale. Les résultats expérimentaux indiquent qu’AutoCBT peut fournir des services automatisés de conseil psychologique de qualité supérieure.

Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.

Lien vers l’article

https://arxiv.org/abs/2501.09426

Pour aller plus loin

https://x.com/omarsar0/status/1880283025595867631

Imaginez tout en raisonnant dans l’espace : visualisation de la pensée multimodale / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Présentation de l’article

MVoT (Multimodal Visualization-of-Thought) introduit un nouveau framework de raisonnement qui permet aux modèles d’IA de « penser » à la fois en texte et en images, et améliore le prompting de type Chain-of-Thought traditionnel en permettant au modèle de générer des représentations visuelles de ses étapes de raisonnement en plus d’explications textuelles ; ce framework est implémenté dans Chameleon-7B, un modèle de langage multimodal, et introduit une « token discrepancy loss » pour améliorer la qualité des visualisations générées ; MVoT surpasse nettement les approches traditionnelles, en particulier dans les scénarios complexes, atteignant plus de 90 % de précision sur les tâches de labyrinthe et d’installation d’imprimante.

Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.

Résumé de l’article (Abstract)

Il a été démontré que le prompting Chain-of-Thought (CoT) est très efficace pour améliorer le raisonnement complexe dans les grands modèles de langage (LLM) et les grands modèles de langage multimodaux (MLLM). Cependant, il rencontre des difficultés sur les tâches complexes de raisonnement spatial. Pourtant, la cognition humaine ne se limite pas au langage et s’étend aux mots comme aux images, avec une remarquable capacité de réflexion. Inspirés par ce mécanisme, nous proposons un nouveau paradigme de raisonnement, Multimodal Visualization-of-Thought (MVoT). Il permet une pensée visuelle dans les MLLM en générant des visualisations d’image de leurs traces de raisonnement. Pour garantir des visualisations de haute qualité, nous introduisons une perte de divergence de tokens dans les MLLM autorégressifs. Cette innovation améliore considérablement à la fois la cohérence visuelle et la fidélité. Nous avons validé cette approche sur plusieurs tâches de raisonnement spatial dynamique. Les résultats expérimentaux montrent que MVoT offre des performances compétitives sur plusieurs tâches. En outre, il présente des améliorations robustes et fiables dans les scénarios les plus difficiles où CoT échoue. En définitive, MVoT ouvre de nouvelles possibilités pour les tâches de raisonnement complexes où la pensée visuelle peut efficacement compléter le raisonnement verbal.

Le prompting Chain-of-Thought (CoT) s’est révélé très efficace pour améliorer le raisonnement complexe dans les Large Language Models (LLMs) et les Multimodal Large Language Models (MLLMs). Pourtant, il montre ses limites dans les tâches complexes de raisonnement spatial. Néanmoins, la cognition humaine va au-delà du seul langage, permettant une remarquable capacité à penser à la fois avec des mots et des images. Inspirés par ce mécanisme, nous proposons un nouveau paradigme de raisonnement, Multimodal Visualization-of-Thought (MVoT). Il permet une pensée visuelle dans les MLLM en générant des visualisations d’image de leurs traces de raisonnement. Pour garantir des visualisations de haute qualité, nous introduisons une token discrepancy loss dans les MLLM autorégressifs. Cette innovation améliore significativement à la fois la cohérence visuelle et la fidélité. Nous validons cette approche à travers plusieurs tâches de raisonnement spatial dynamique. Les résultats expérimentaux montrent que MVoT affiche des performances compétitives selon les tâches. De plus, il apporte des améliorations robustes et fiables dans les scénarios les plus difficiles où CoT échoue. Enfin, MVoT ouvre de nouvelles perspectives pour les tâches de raisonnement complexes, dans lesquelles la pensée visuelle peut compléter efficacement le raisonnement verbal.

Lien vers l’article

https://arxiv.org/abs/2501.07542

Pour aller plus loin

https://x.com/omarsar0/status/1879181711982129420

ChemAgent : une bibliothèque auto-actualisée dans les grands modèles de langage améliore le raisonnement chimique / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Présentation de l’article

Présentation d’un nouveau framework conçu pour améliorer les performances des LLM en raisonnement chimique grâce à une bibliothèque dynamique qui s’auto-actualise ; la bibliothèque est développée en décomposant les tâches chimiques en sous-tâches et en les compilant dans une collection structurée pouvant être référencée pour de futures requêtes ; lorsqu’un nouveau problème est soumis au système, celui-ci réessaie et affine les informations pertinentes issues de la bibliothèque afin de permettre une décomposition des tâches plus efficace ; la bibliothèque est mise à jour dynamiquement à mesure que de nouvelles sous-tâches et solutions apparaissent et sont validées ; selon les expériences sur SciBench, ChemAgent a atteint des gains de performance allant jusqu’à 46 % (GPT-4), surpassant largement les méthodes existantes.

Présente un nouveau framework conçu pour améliorer les performances des LLM sur le raisonnement chimique grâce à une bibliothèque dynamique qui se met à jour elle-même ; la bibliothèque est construite en décomposant les tâches chimiques en sous-tâches et en les compilant dans une collection structurée pouvant être consultée pour de futures requêtes ; lorsqu’un nouveau problème est donné au système, celui-ci réexploite et affine les informations pertinentes issues de la bibliothèque afin de permettre une décomposition des tâches plus efficace ; la bibliothèque est mise à jour dynamiquement avec de nouvelles sous-tâches et solutions à mesure qu’elles sont rencontrées et validées ; des expériences sur SciBench montrent que ChemAgent obtient des gains de performance allant jusqu’à 46 % (GPT-4), dépassant nettement les méthodes existantes.

Résumé (Abstract)

Le raisonnement chimique implique généralement des processus complexes en plusieurs étapes qui exigent des calculs précis, où la moindre erreur peut entraîner des défaillances en cascade. En outre, les grands modèles de langage (LLM) rencontrent des difficultés lorsqu’il s’agit de traiter des formules spécifiques au domaine, d’exécuter correctement les étapes de raisonnement et d’intégrer efficacement du code pour résoudre des tâches de raisonnement chimique. Pour répondre à ces défis, Unity présente ChemAgent, un nouveau framework conçu pour améliorer les performances des LLM grâce à une bibliothèque dynamique qui se met à jour automatiquement. Cette bibliothèque est développée en décomposant les tâches chimiques en sous-tâches, puis en compilant ces sous-tâches dans une collection structurée pouvant être réutilisée pour de futures requêtes. Lorsqu’un nouveau problème est présenté, ChemAgent récupère ensuite les informations pertinentes depuis cette bibliothèque, qu’il appelle mémoire, et les affine afin de faciliter une décomposition efficace de la tâche et la génération de solutions. Cette méthode conçoit trois types de mémoire ainsi qu’un composant de raisonnement enrichi par la bibliothèque, permettant aux LLM de s’améliorer au fil du temps grâce à l’expérience. D’après les résultats expérimentaux obtenus sur quatre jeux de données de raisonnement chimique de SciBench, ChemAgent atteint des gains de performance allant jusqu’à 46 % (GPT-4), surpassant nettement les méthodes existantes. Ces résultats suggèrent un potentiel considérable pour de futures applications, notamment dans des domaines comme la découverte de médicaments et la science des matériaux. Plus de détails sont disponibles sur https://github.com/gersteinlab/chemagent

Le raisonnement chimique implique généralement des processus complexes en plusieurs étapes qui exigent des calculs précis, où la moindre erreur peut entraîner des défaillances en cascade. En outre, les grands modèles de langage (LLM) rencontrent des difficultés pour traiter des formules spécifiques au domaine, exécuter correctement les étapes de raisonnement et intégrer efficacement du code lorsqu’ils s’attaquent à des tâches de raisonnement chimique. Pour relever ces défis, nous présentons ChemAgent, un nouveau framework conçu pour améliorer les performances des LLM grâce à une bibliothèque dynamique qui se met à jour automatiquement. Cette bibliothèque est construite en décomposant les tâches chimiques en sous-tâches et en compilant ces sous-tâches dans une collection structurée pouvant être consultée pour de futures requêtes. Lorsqu’un nouveau problème se présente, ChemAgent récupère et affine les informations pertinentes de la bibliothèque, que nous appelons mémoire, ce qui facilite une décomposition efficace des tâches et la génération de solutions. Notre méthode conçoit trois types de mémoire ainsi qu’un composant de raisonnement enrichi par la bibliothèque, permettant aux LLM de s’améliorer avec le temps grâce à l’expérience. Les résultats expérimentaux sur quatre jeux de données de raisonnement chimique de SciBench montrent que ChemAgent obtient des gains de performance allant jusqu’à 46 % (GPT-4), surpassant largement les méthodes existantes. Nos résultats suggèrent un potentiel important pour de futures applications, notamment dans des tâches telles que la découverte de médicaments et la science des matériaux. Notre code est disponible à l’adresse https://github.com/gersteinlab/chemagent

Cet article a été préparé à l’aide d’un modèle GPT ; il peut donc contenir des erreurs. N’hésitez pas à consulter également le texte original en bas de l’article. Si vous repérez des passages maladroits ou incorrects pendant votre lecture, merci de le signaler en commentaire.* 🤗

⚠️Publicité⚠️ : Cet article compilé par 🔥la communauté coréenne des utilisateurs de PyTorch🇰🇷 vous a été utile ? Inscrivez-vous pour recevoir les principaux articles par e-mail💌 ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer en Daily.)

[2025/01/13 ~ 01/19] Principaux articles ML de la semaine (Top ML Papers of the Week)

$\text{Transformer}^2$ : LLM auto-adaptatifs / $\text{Transformer}^2$: Self-adaptive LLMs

Présentation de l’article

Résumé (Abstract)

Lien vers l’article

Pour aller plus loin

MiniMax-01 : mise à l’échelle des foundation models avec Lightning Attention / MiniMax-01: Scaling Foundation Models with Lightning Attention

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

VideoRAG : génération augmentée par récupération sur corpus vidéo / VideoRAG: Retrieval-Augmented Generation over Video Corpus

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Titan : apprendre à mémoriser au moment du test / Titans: Learning to Memorize at Test Time

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Fondements des grands modèles de langage / Foundations of Large Language Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

OmniThink: étendre les frontières de la connaissance en écriture automatique par la réflexion / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Améliorer la génération augmentée par la recherche : étude des meilleures pratiques / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

AutoCBT : un framework multi-agents autonome pour la thérapie cognitivo-comportementale en conseil psychologique / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Imaginez tout en raisonnant dans l’espace : visualisation de la pensée multimodale / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

ChemAgent : une bibliothèque auto-actualisée dans les grands modèles de langage améliore le raisonnement chimique / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Présentation de l’article

Résumé (Abstract)

Lien vers l’article

Pour aller plus loin

Texte original

À lire aussi

Aucun commentaire pour le moment.