[17/06/2024 ~ 23/06/2024] Principaux articles ML de la semaine (Top ML Papers of the Week)

Nous avons traduit automatiquement les articles sur les publications ML mis en ligne chaque semaine par DAIR.AI.
En examinant les publications sélectionnées cette semaine, on peut identifier deux grandes tendances. D’abord, la plupart des articles se concentrent sur des sujets liés au traitement automatique du langage naturel (NLP). Parmi eux, les méthodes visant à améliorer l’efficacité des modèles de langage (LM) traitant de longs contextes, ainsi que des systèmes de recherche d’information et de questions-réponses (QA), émergent comme des thèmes majeurs. Par exemple, des articles comme « Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? » explorent le potentiel des modèles de langage capables de comprendre de longs contextes, tandis que « PlanRAG » et « From RAG to Rich Parameters » proposent de nouvelles approches pour améliorer les systèmes de recherche d’information et de questions-réponses.
Une autre tendance notable est la volonté d’atténuer la memorization (phénomène de mémorisation) des modèles de langage ou d’améliorer leurs performances via des processus de self-refine (auto-affinage). « Mitigating Memorization in LLMs » et « Monte Carlos Tree Self-Refine » sont particulièrement remarquables dans cette perspective. Réduire le phénomène de mémorisation est important pour permettre aux modèles de langage non pas de simplement reproduire les données d’entraînement, mais d’apprendre des connaissances plus généralisables et de produire des réponses plus créatives. C’est l’une des clés pour maximiser la praticité et l’utilité des modèles de langage.
Ces tendances sont probablement encouragées par plusieurs facteurs. Premièrement, l’importance du traitement automatique du langage naturel dans le domaine de l’intelligence artificielle ne cesse de croître, et les avancées techniques dans ce domaine progressent rapidement. Deuxièmement, à mesure que la quantité d’information devient massive, le besoin de technologies capables de la traiter efficacement et de fournir aux utilisateurs des informations utiles augmente. Enfin, les modèles de langage récents deviennent de plus en plus complexes et puissants, mais de nouvelles approches restent constamment nécessaires pour résoudre les problèmes auxquels ces modèles sont confrontés. Pour répondre à ces besoins, les chercheurs continuent d’explorer de nouvelles idées et méthodologies qui vont au-delà des frameworks existants.

Claude 3.5 Sonnet / Claude 3.5 Sonnet

Présentation de l’article

Nouveau modèle atteignant des performances de pointe sur plusieurs benchmarks courants comme MMLU et HumanEval ; il surpasse Claude 3 Opus et GPT-4o sur plusieurs benchmarks, à l’exception des tâches de résolution de problèmes mathématiques rédigés ; il affiche également de solides performances sur les tâches de vision, ce qui permet plusieurs nouvelles fonctionnalités comme la transcription image-texte et la génération d’artefacts.

A new model that achieves state-of-the-art performance on several common benchmarks such as MMLU and HumanEval; it outperforms Claude 3 Opus and GPT-4o on several benchmarks with the exception of math word problem-solving tasks; achieves strong performance on vision tasks which also helps power several new features like image-text transcription and generation of artifacts.

Lien vers l’article

https://www.anthropic.com/news/claude-3-5-sonnet

Pour aller plus loin

https://discuss.pytorch.kr/t/gn-claude-3-5-sonnet-gpt4o/4665

https://x.com/AnthropicAI/status/1803790676988920098

DeepSeek-Coder-V2

Présentation de l’article

Concurrent des modèles closed source sur les tâches de génération de code et de mathématiques, il atteint 90,2 % sur HumanEval et 75,7 % sur MATH ; selon le rapport, ces résultats dépassent les performances de GPT-4-Turbo-0409 ; il comprend des modèles de 16B et 236B de paramètres avec une longueur de contexte de 128K.

Competes with closed-sourced models on code and math generation tasks; achieves 90.2% on HumanEval and 75.7% on MATH; these results are higher than GPT-4-Turbo-0409 performance according to their report; includes a 16B and 236B parameter model with 128K context length.

Résumé de l’article (Abstract)

Nous présentons DeepSeek-Coder-V2, un modèle de langage open source pour le code, de type Mixture-of-Experts (MoE), qui atteint des performances comparables à GPT4-Turbo sur les tâches spécifiques au code. Plus précisément, DeepSeek-Coder-V2 poursuit son pré-entraînement à partir d’un checkpoint intermédiaire de DeepSeek-V2 avec 6 billions de tokens supplémentaires. Grâce à ce pré-entraînement continu, DeepSeek-Coder-V2 améliore substantiellement les capacités de DeepSeek-V2 en codage et en raisonnement mathématique, tout en maintenant des performances comparables sur les tâches générales de langage. Comparé à DeepSeek-Coder-33B, DeepSeek-Coder-V2 montre des avancées significatives dans divers aspects des tâches liées au code, ainsi qu’en raisonnement et en capacités générales. De plus, DeepSeek-Coder-V2 étend la prise en charge des langages de programmation de 86 à 338, tout en allongeant la longueur de contexte de 16K à 128K. Dans les évaluations sur benchmarks standard, DeepSeek-Coder-V2 obtient des performances supérieures à celles de modèles closed source tels que GPT4-Turbo, Claude 3 Opus et Gemini 1.5 Pro sur les benchmarks de code et de mathématiques.

We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek- Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder- V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

Lien vers l’article

https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf

Pour aller plus loin

https://github.com/deepseek-ai/DeepSeek-Coder-V2

https://x.com/omarsar0/status/1803078095219417475

TextGrad : « différentiation » automatique via le texte / TextGrad: Automatic "Differentiation" via Text

Présentation de l’article

Nouveau cadre pour la différenciation automatique via la rétropropagation sur les retours textuels fournis par un LLM ; il améliore les composants individuels et le langage naturel aide à optimiser le graphe de calcul ; il fonctionne en fournissant une fonction objective sans ajuster les prompts ni les composants ; il affirme atteindre les meilleurs scores sur LeetCodeHard et des performances SoTA sur GPQA lorsqu’il est combiné à GPT4o.

A new framework for automatic differentiation through backpropagation on textual feedback provided by an LLM; this improves individual components and the natural language helps to optimize the computation graph; it works by providing an objective function without tuning prompts or components; claims to achieve LeetCodeHard best scores and SoTA performance on GPQA when combined with GPT4o.

Résumé de l’article (Abstract)

L’IA connaît un changement de paradigme, avec des avancées majeures obtenues par des systèmes orchestrant plusieurs grands modèles de langage (LLM) et d’autres composants complexes. En conséquence, développer des méthodes d’optimisation principielle et automatisée pour les systèmes d’IA composés est devenu l’un des nouveaux défis les plus importants. Les réseaux de neurones ont été confrontés à un problème similaire à leurs débuts, jusqu’à ce que la rétropropagation et la différenciation automatique transforment le domaine en rendant l’optimisation clé en main. Inspirés par cela, nous présentons TextGrad, un cadre puissant qui effectue une « différenciation » automatique via le texte. TextGrad rétropropage les retours textuels fournis par des LLM afin d’améliorer les composants individuels d’un système d’IA composé. Dans notre cadre, les LLM fournissent des suggestions riches, générales et en langage naturel pour optimiser les variables de graphes de calcul, allant d’extraits de code à des structures moléculaires. TextGrad suit la syntaxe et les abstractions de PyTorch, et se montre flexible et facile à utiliser. Il fonctionne immédiatement sur une variété de tâches : les utilisateurs n’ont qu’à fournir la fonction objective, sans avoir à ajuster les composants ni les prompts du cadre. Nous montrons l’efficacité et la généralité de TextGrad sur un large éventail d’applications, de la question-réponse et de l’optimisation de molécules à la planification de traitements de radiothérapie. Sans modifier le cadre, TextGrad améliore la précision zero-shot de GPT-4o sur Google-Proof Question Answering de $51%$ à $55%$, apporte un gain de performance relatif de $20%$ dans l’optimisation de solutions à des problèmes de programmation LeetCode-Hard, améliore les prompts pour le raisonnement, conçoit de nouvelles petites molécules de type médicament avec une liaison in silico souhaitable, et permet de concevoir des plans de traitement en radio-oncologie avec une haute spécificité. TextGrad pose les bases pour accélérer le développement de la prochaine génération de systèmes d’IA.

AI is undergoing a paradigm shift, with breakthroughs achieved by systems orchestrating multiple large language models (LLMs) and other complex components. As a result, developing principled and automated optimization methods for compound AI systems is one of the most important new challenges. Neural networks faced a similar challenge in its early days until backpropagation and automatic differentiation transformed the field by making optimization turn-key. Inspired by this, we introduce TextGrad, a powerful framework performing automatic ``differentiation'' via text. TextGrad backpropagates textual feedback provided by LLMs to improve individual components of a compound AI system. In our framework, LLMs provide rich, general, natural language suggestions to optimize variables in computation graphs, ranging from code snippets to molecular structures. TextGrad follows PyTorch's syntax and abstraction and is flexible and easy-to-use. It works out-of-the-box for a variety of tasks, where the users only provide the objective function without tuning components or prompts of the framework. We showcase TextGrad's effectiveness and generality across a diverse range of applications, from question answering and molecule optimization to radiotherapy treatment planning. Without modifying the framework, TextGrad improves the zero-shot accuracy of GPT-4o in Google-Proof Question Answering from $51%$ to $55%$, yields $20%$ relative performance gain in optimizing LeetCode-Hard coding problem solutions, improves prompts for reasoning, designs new druglike small molecules with desirable in silico binding, and designs radiation oncology treatment plans with high specificity. TextGrad lays a foundation to accelerate the development of the next-generation of AI systems.

Lien vers l’article

https://arxiv.org/abs/2406.07496v1

Pour aller plus loin

https://x.com/james_y_zou/status/1800917174124740667

Les modèles de langage à long contexte peuvent-ils se substituer à la recherche, au RAG, au SQL, etc. ? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

Présentation de l’article

Analyse approfondie des performances des LLM à long contexte pour la recherche et le raisonnement en contexte ; les auteurs présentent d’abord un benchmark avec des tâches réelles nécessitant un contexte de 1 million de tokens ; ils rapportent que les LLM à long contexte peuvent rivaliser avec les systèmes de recherche et de RAG à l’état de l’art, sans entraînement explicite sur ces tâches ; ils suggèrent que le raisonnement compositionnel (requis dans les tâches de type SQL) reste difficile pour ces LLM ; ils soulignent également la nécessité de poursuivre les recherches sur des stratégies de prompting avancées, après avoir constaté d’importants gains de performance lorsqu’elles sont appliquées à des problèmes à long contexte.

Conducts a deep performance analysis of long-context LLMs on in-context retrieval and reasoning; they first present a benchmark with real-world tasks requiring 1M token context; reports that long-context LLMs can rival state-of-the-art retrieval and RAG systems, without any explicit training on the tasks; suggests that compositional reasoning (required in SQL-like tasks) is still challenging for these LLMs; they also encourage the need for continued research on advanced prompting strategies as they noted significant boosts in performance when applying them for long context problems.

Résumé de l’article (Abstract)

Les modèles de langage à long contexte (LCLM) ont le potentiel de révolutionner notre approche de tâches traditionnellement dépendantes d’outils externes comme les systèmes de recherche ou les bases de données. Exploiter la capacité des LCLM à ingérer et traiter nativement des corpus entiers d’informations offre de nombreux avantages. Cela améliore la facilité d’utilisation en supprimant le besoin d’une expertise spécifique sur les outils, fournit une modélisation end-to-end robuste qui minimise les erreurs en cascade dans les pipelines complexes, et permet d’appliquer des techniques de prompting sophistiquées à l’échelle de l’ensemble du système. Pour évaluer ce changement de paradigme, nous présentons LOFT, un benchmark de tâches réelles nécessitant jusqu’à plusieurs millions de tokens de contexte, conçu pour mesurer les performances des LCLM en recherche et raisonnement in-context. Les résultats montrent que les LCLM ont une capacité surprenante à rivaliser avec les systèmes de recherche et de RAG de pointe, bien qu’ils n’aient jamais été explicitement entraînés pour ces tâches. Cependant, les LCLM rencontrent encore des difficultés dans des domaines comme le raisonnement compositionnel requis par des tâches de type SQL. Il est notamment souligné que les stratégies de prompting influencent fortement les performances, ce qui met en évidence la nécessité de poursuivre les recherches à mesure que la longueur du contexte augmente. Dans l’ensemble, LOFT fournit un terrain d’évaluation rigoureux pour les LCLM, en montrant leur potentiel à remplacer les paradigmes existants et à traiter de nouvelles tâches à mesure que les capacités des modèles progressent.

Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.

Lien vers l’article

https://arxiv.org/abs/2406.13121

Pour aller plus loin

https://github.com/google-deepmind/loft

https://x.com/omarsar0/status/1804184820806766875

PlanRAG : génération augmentée par récupération après planification pour les grands modèles de langage génératifs en tant que décideurs / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

Présentation de l’article

PlanRAG, une nouvelle technique de RAG fondée sur une planification itérative suivie de récupération, améliore la prise de décision en deux étapes : 1) le LM examine le schéma des données et la question pour générer un plan de décision, et 2) le récupérateur génère des requêtes pour l’analyse des données. À l’étape finale, le système vérifie si un nouveau plan est nécessaire pour approfondir l’analyse, puis répète les étapes précédentes ou prend une décision à partir des données. Il a été constaté que PlanRAG est plus efficace que le RAG itératif sur les tâches de question-réponse de décision proposées.

Enhances decision making with a new RAG technique called iterative plan-then-RAG (PlanRAG); involves two steps: 1) an LM generates the plan for decision making by examining data schema and questions and 2) the retriever generates the queries for data analysis; the final step checks if a new plan for further analysis is needed and iterates on previous steps or makes a decision on the data; PlanRAG is found to be more effective than iterative RAG on the proposed Decision QA tasks.

Résumé (Abstract)

Cet article étudie l’utilisation des LLM comme solution pour la prise de décision nécessitant une analyse de données complexe. Les auteurs définissent la Decision QA comme la tâche consistant à trouver la meilleure décision, $d_{best}$, pour une question de prise de décision $Q$, des règles métier $R$ et une base de données $D$. Comme il n’existe pas de benchmark permettant d’évaluer la Decision QA, ils proposent DQA, un benchmark de Decision QA. Ce benchmark comprend deux scénarios, Locating et Building, construits à partir de deux jeux vidéo (Europa Universalis IV et Victoria 3) ayant un objectif très proche de celui de la Decision QA. Les auteurs proposent également une nouvelle technique de RAG appelée iterative plan-then-retrieval augmented generation (PlanRAG) pour traiter efficacement la Decision QA. Le LM basé sur PlanRAG génère d’abord un plan de prise de décision, puis, dans un second temps, le retriever génère les requêtes pour l’analyse des données. La méthode proposée surpasse la meilleure méthode de RAG itératif actuelle de 15,8 % dans le scénario Locating et de 7,4 % dans le scénario Building. Le code et le benchmark sont disponibles sur https://github.com/myeon9h/PlanRAG.

In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ and a database $D$. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at https://github.com/myeon9h/PlanRAG.

Lien vers l’article

https://arxiv.org/abs/2406.12430

Pour aller plus loin

https://github.com/myeon9h/PlanRAG

https://x.com/omarsar0/status/1803262374574448757

N’apprenez pas par cœur comme un poisson rouge ! Atténuer la mémorisation dans les LLM génératifs / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Présentation de l’article

Cette étude propose une technique simple, appelée goldfish loss, qui modifie l’objectif de prédiction du token suivant afin d’atténuer la génération littérale de données d’entraînement mémorisées, en excluant pendant l’entraînement un sous-ensemble pseudo-aléatoire de tokens d’apprentissage ; elle montre que la goldfish loss résiste à la mémorisation tout en conservant l’utilité du modèle, même si un entraînement plus long peut être nécessaire pour mieux apprendre à partir des données d’entraînement.

Presents a modification of the next-token prediction objective called goldfish loss to help mitigate the verbatim generation of memorized training data; it uses a simple technique that excludes a pseudorandom subset of training tokens at training time; they show that the goldfish loss resists memorization and keeps the model useful; however, it may need to train for longer to more effectively learn from the training data.

Résumé de l’article(Abstract)

Les grands modèles de langage peuvent mémoriser et répéter leurs données d’entraînement, ce qui peut engendrer des risques en matière de vie privée et de droits d’auteur. Pour atténuer cette mémorisation, les auteurs introduisent une légère modification de l’objectif d’apprentissage du token suivant, appelée goldfish loss. Pendant l’entraînement, un sous-ensemble de tokens échantillonnés aléatoirement est exclu du calcul de la perte. Ces tokens retirés ne sont pas mémorisés par le modèle, ce qui empêche la reproduction littérale d’une chaîne complète de tokens provenant de l’ensemble d’entraînement. Les auteurs ont mené de vastes expériences en entraînant des modèles Llama-2 à l’échelle du milliard de paramètres, à la fois pré-entraînés et entraînés depuis zéro, et montrent une réduction significative de la mémorisation extractible avec peu ou pas d’impact sur les benchmarks downstream.

Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.

Lien vers l’article

https://arxiv.org/abs/2406.10209

Pour aller plus loin

https://github.com/ahans30/goldfish-loss

https://x.com/omarsar0/status/1802729440163647754

Accéder à des solutions d’olympiades de mathématiques de niveau GPT-4 via l’auto-amélioration par arbre de Monte Carlo avec LLaMa-3 8B / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Présentation de l’article

Les auteurs indiquent avoir atteint un niveau GPT-4 sur des solutions d’olympiades de mathématiques grâce à une approche intégrant des LLM et la recherche arborescente de Monte Carlo. Cette approche vise à améliorer les performances du système en raisonnement mathématique grâce à des capacités telles que l’exploration systématique, l’auto-amélioration et l’auto-évaluation.

Report to have achieved GPT-4 level mathematical olympiad solution using an approach that integrates LLMs with Monte Carlo Tree Search; this approach focuses on enhancing the mathematical reasoning performance of the system through capabilities such as systematic exploration, self-refinement, and self-evaluation.

Résumé de l’article(Abstract)

Ce livre blanc présente l’algorithme MCT Self-Refine (MCTSr), une intégration innovante des grands modèles de langage (LLM) et de la recherche arborescente de Monte Carlo (MCTS), conçue pour améliorer les performances sur des tâches complexes de raisonnement mathématique. En s’attaquant aux problèmes de précision et de fiabilité des LLM, en particulier dans le raisonnement stratégique et mathématique, MCTSr exploite une exploration systématique et des mécanismes heuristiques d’auto-correction pour améliorer les cadres de prise de décision au sein des LLM. L’algorithme construit un arbre de recherche Monte Carlo via un processus itératif de sélection, auto-correction, auto-évaluation et rétropropagation, en utilisant une formule améliorée d’Upper Confidence Bound (UCB) afin d’optimiser l’équilibre entre exploration et exploitation. Des expériences approfondies démontrent l’efficacité de MCTSr pour résoudre des problèmes de mathématiques de niveau olympiade, avec une nette amélioration des taux de réussite sur plusieurs jeux de données, notamment GSM8K, GSM Hard, MATH, ainsi que des benchmarks de niveau olympiade tels que Math Odyssey, AIME et OlympiadBench. Cette étude fait progresser l’application des LLM aux tâches de raisonnement complexes et pose les bases d’intégrations futures de l’IA, en améliorant la précision et la fiabilité de la prise de décision dans les applications fondées sur les LLM.

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.

Lien vers l’article

https://arxiv.org/abs/2406.07394v2

Pour aller plus loin

https://x.com/rohanpaul_ai/status/1801259208341373013

Des RAG aux paramètres enrichis : enquête sur la manière dont les modèles de langage exploitent les connaissances externes plutôt que l’information paramétrique pour les requêtes factuelles / From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

Présentation de l’article

Une analyse plus approfondie de la manière dont les LLM exploitent les connaissances externes plutôt que l’information paramétrique pour les requêtes factuelles montre que, dans un pipeline RAG, les LLM prennent un « raccourci » et présentent un fort biais consistant à n’utiliser que les informations de contexte pour répondre à la question, tout en s’appuyant très peu sur leur mémoire paramétrique.

Investigates more closely how LLMs utilize external knowledge over parametric information for factual queries; finds that in a RAG pipeline, LLMs take a “shortcut” and display a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory.

Résumé(Abstract)

La génération augmentée par récupération (RAG) enrichit la capacité des modèles de langage à raisonner à partir d’un contexte externe afin d’améliorer les réponses à une invite utilisateur donnée. Cette approche a gagné en popularité en raison de ses applications pratiques dans divers usages des modèles de langage, notamment la recherche, les questions-réponses et les chatbots. Cependant, le fonctionnement exact de cette approche reste mal compris. Dans cet article, nous examinons de manière mécanistique le pipeline RAG afin de mettre en évidence que les modèles de langage prennent un raccourci et ont un fort biais vers l’utilisation exclusive des informations contextuelles pour répondre à la question, tout en s’appuyant très peu sur leur mémoire paramétrique. Nous sondons ce comportement mécanistique des modèles de langage de deux façons : (i) par une analyse de médiation causale, qui montre que la mémoire paramétrique est très peu utilisée pour répondre à une question, et (ii) par les contributions d’attention et les knockouts, qui montrent que le flux résiduel du dernier token n’est pas enrichi à partir du token sujet de la question, mais à partir d’autres tokens informatifs du contexte. Nous constatons que ce comportement prononcé de raccourci est vrai à la fois pour les familles de modèles LLaMa et Phi.

Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.

Lien vers l’article

https://arxiv.org/abs/2406.12824

Pour aller plus loin

https://x.com/omarsar0/status/1803254134289895555

Open-Sora

Présentation de l’article

Un modèle open source de génération vidéo capable de produire des vidéos 720p de 16 secondes, avec un modèle de 1,1 Md de paramètres entraîné sur plus de 30 millions de données, prenant désormais en charge l’image-vers-vidéo ; il propose un modèle de diffusion amélioré et un réseau de compression vidéo pour la compression spatiale et temporelle, augmente la contrôlabilité de la génération et réduit les coûts d’entraînement.

An open-source video generation model that can generate 16-second 720p videos; it’s a 1.1B parameter model trained on more than 30m data and now supports image-to-video; presents an enhanced diffusion model and video compression network for spatial and temporal compression; increases controllability of generations and reduces training costs.

Lien vers l’article

[IMG] Open-Sora 1.2 Report|1028x812

Pour aller plus loin

https://discuss.pytorch.kr/t/open-sora-feat-hpc-ai/3794

https://x.com/omarsar0/status/1803176105010171957

Recherche arborescente pour les agents de modèles de langage / Tree Search for Language Model Agents

Présentation de l’article

Propose un algorithme de recherche arborescente au moment de l’inférence permettant aux agents LM d’explorer et d’effectuer un raisonnement en plusieurs étapes ; il est testé dans des environnements web interactifs et appliqué à GPT-4o pour améliorer significativement les performances, tout en démontrant que celles-ci progressent avec l’augmentation du calcul au moment du test.

Proposes an inference-time tree search algorithm for LM agents to perform exploration and enable multi-step reasoning; it’s tested on interactive web environments and applied to GPT-4o to significantly improve performance; demonstrates that performance scales when increasing test-time compute.

Résumé(Abstract)

Les agents autonomes propulsés par des modèles de langage (LM) ont montré un fort potentiel dans leur capacité à accomplir des tâches de prise de décision comme l’automatisation du web. Mais un défi fondamental demeure : les LM, principalement optimisés pour la compréhension et la génération du langage naturel, peinent à gérer le raisonnement en plusieurs étapes, la planification et l’exploitation des retours de l’environnement lorsqu’ils tentent de résoudre des tâches informatiques réalistes. Pour y répondre, nous proposons un algorithme de recherche au moment de l’inférence permettant aux agents LM d’effectuer explicitement de l’exploration et de la planification en plusieurs étapes dans des environnements web interactifs. Notre approche est une forme de recherche arborescente best-first opérant dans l’espace réel de l’environnement, et elle est complémentaire à la plupart des agents de pointe existants. Il s’agit du premier algorithme de recherche arborescente pour agents LM à démontrer son efficacité sur des tâches web réalistes. Sur le benchmark exigeant VisualWebArena, l’application de notre algorithme de recherche au-dessus d’un agent GPT-4o apporte une hausse relative de 39,7 % du taux de réussite par rapport au même baseline sans recherche, établissant un taux de réussite de pointe de 26,4 %. Sur WebArena, la recherche apporte également une amélioration relative de 28,0 % par rapport à un agent de référence, pour atteindre un taux de réussite compétitif de 19,2 %. Nos expériences mettent en évidence l’efficacité de la recherche pour les agents web et montrent que les performances progressent avec l’augmentation du calcul au moment du test. Nous menons une analyse approfondie de nos résultats afin de mettre en lumière les gains apportés par la recherche, ses limites et des pistes prometteuses pour les travaux futurs.

Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a fundamental challenge remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work.

Cet article a été résumé à l’aide d’un modèle GPT ; il peut donc contenir des erreurs. Merci de consulter également le texte original en bas de page. Si vous remarquez un passage maladroit ou incorrect pendant votre lecture, n’hésitez pas à le signaler en commentaire. 🤗

⚠️Publicité⚠️ : ce billet récapitulatif préparé par le groupe d’utilisateurs PyTorch Corée vous a été utile ? Inscrivez-vous pour recevoir les principaux articles par e-mail💌 ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer en Daily.)

[17/06/2024 ~ 23/06/2024] Principaux articles ML de la semaine (Top ML Papers of the Week)

Claude 3.5 Sonnet / Claude 3.5 Sonnet

Présentation de l’article

Lien vers l’article

Pour aller plus loin

DeepSeek-Coder-V2

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

TextGrad : « différentiation » automatique via le texte / TextGrad: Automatic "Differentiation" via Text

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Les modèles de langage à long contexte peuvent-ils se substituer à la recherche, au RAG, au SQL, etc. ? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

PlanRAG : génération augmentée par récupération après planification pour les grands modèles de langage génératifs en tant que décideurs / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

Présentation de l’article

Résumé (Abstract)

Lien vers l’article

Pour aller plus loin

N’apprenez pas par cœur comme un poisson rouge ! Atténuer la mémorisation dans les LLM génératifs / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Présentation de l’article

Résumé de l’article(Abstract)

Lien vers l’article

Pour aller plus loin

Accéder à des solutions d’olympiades de mathématiques de niveau GPT-4 via l’auto-amélioration par arbre de Monte Carlo avec LLaMa-3 8B / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Présentation de l’article

Résumé de l’article(Abstract)

Lien vers l’article

Pour aller plus loin

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

Open-Sora

Présentation de l’article

Lien vers l’article

Pour aller plus loin

Recherche arborescente pour les agents de modèles de langage / Tree Search for Language Model Agents

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

Texte original

À lire aussi

Aucun commentaire pour le moment.