04] Les principaux articles ML de la semaine (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 points par ninebow 2024-02-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Aperçu

Nous avons traduit automatiquement les articles sur les publications ML que DAIR.AI publie chaque semaine.
Parmi les tendances des articles sélectionnés cette semaine, les recherches sur les grands modèles de langage (Large Language Models, LLMs) et leurs variantes se démarquent nettement. À en juger par des titres comme "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs" et "SliceGPT", on constate une activité soutenue autour de l’amélioration des performances des modèles de langage, de l’élargissement de leurs usages et du renforcement de leur efficacité.
Cette tendance de recherche peut être interprétée comme le reflet des efforts continus du monde académique et de l’industrie pour dépasser les limites des technologies de traitement du langage et résoudre des problèmes toujours plus complexes. Ces derniers temps, les LLMs ne se limitent plus au simple traitement de texte : leurs domaines d’application s’étendent désormais au raisonnement mathématique complexe, au traitement de données multimodales, ainsi qu’à la recherche et à la reconstruction d’information plus sophistiquées. En outre, en raison de la grande taille et de la complexité de ces modèles, des techniques comme la compression de modèles s’imposent comme des éléments clés pour les déployer et les utiliser plus efficacement en conditions réelles. Cette évolution est particulièrement marquée lorsqu’il faut faire fonctionner de grands modèles avec des ressources relativement limitées.
Par ailleurs, les recherches sur les 'Multimodal LLMs' et 'MoE-LLaVA' indiquent des progrès dans les méthodes qui intègrent et traitent plusieurs formes de données au-delà du texte (par exemple des images, des sons, etc.), ce qui montre le potentiel des systèmes d’IA à mieux comprendre et exploiter les informations du monde réel. Comme techniques visant à améliorer l’interprétabilité et la fiabilité des modèles, 'Corrective RAG' et 'Redefining Retrieval in RAG' peuvent être vus comme des tentatives d’améliorer le processus de raisonnement des modèles ainsi que la précision de leurs résultats, tandis que 'Hallucination in LVLMs' et 'Rephrasing the Web' représentent des recherches destinées à améliorer la qualité des contenus générés par les modèles. L’ensemble de ces tendances est considéré comme un signal annonçant l’arrivée, dans un futur proche, de systèmes d’intelligence artificielle plus intelligents et plus sophistiqués.

OLMo : accélérer la science des modèles de langage / OLMo: Accelerating the Science of Language Models

Présentation de l’article

Introduction d’OLMo (Open Language Model), un modèle de 7b paramètres comprenant du code d’entraînement ouvert, des données ouvertes, l’intégralité des poids du modèle, du code d’évaluation et du code de fine-tuning, et montrant de solides performances sur de nombreuses tâches génératives ; il existe aussi une version plus petite, olmo 1b.

Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.

Résumé de l’article (Abstract)

Les modèles de langage (LMs) sont devenus omniprésents, à la fois dans la recherche en NLP et dans les produits commerciaux. À mesure que leur importance commerciale a explosé, les modèles les plus puissants sont devenus fermés, protégés derrière des interfaces propriétaires, sans divulgation d’informations essentielles sur leurs données d’entraînement, leurs architectures et leur développement. Étant donné l’importance de ces détails pour étudier scientifiquement ces modèles, notamment leurs biais et leurs risques potentiels, nous estimons qu’il est essentiel que la communauté de recherche ait accès à des LMs puissants et véritablement ouverts. Dans ce rapport technique, nous détaillons la première publication d’OLMo, un modèle de langage ouvert de pointe et réellement open, ainsi que son framework destiné à construire et étudier la science de la modélisation du langage. Contrairement à la plupart des initiatives précédentes, qui ne publiaient que les poids du modèle et le code d’inférence, nous publions OLMo et l’ensemble du framework, y compris les données d’entraînement ainsi que les codes d’entraînement et d’évaluation. Nous espérons que cette publication donnera des moyens supplémentaires à la communauté de recherche open, la renforcera et suscitera une nouvelle vague d’innovation.

Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

Lien vers l’article

https://arxiv.org/abs/2402.00838

Pour aller plus loin

https://x.com/omarsar0/status/1753080417530318872

MM-LLM : avancées récentes des grands modèles de langage multimodaux / MM-LLMs: Recent Advances in MultiModal Large Language Models

Présentation de l’article

Il s’agit d’un article de synthèse complet qui présente les formulations de conception des architectures de modèles et des pipelines d’entraînement autour des grands modèles de langage multimodaux.

A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.

Résumé de l’article (Abstract)

Au cours de l’année écoulée, les grands modèles de langage multimodaux (MM-LLM) ont connu des avancées considérables, en renforçant des LLM prêts à l’emploi pour prendre en charge des entrées ou sorties multimodales grâce à des stratégies d’entraînement économes en coûts. Les modèles qui en résultent préservent non seulement les capacités intrinsèques de raisonnement et de prise de décision des LLM, mais permettent également de couvrir un large éventail de tâches multimodales. Dans cet article, les auteurs proposent une étude de synthèse complète visant à faciliter de futures recherches sur les MM-LLM. Plus précisément, ils présentent d’abord des formulations générales de conception pour l’architecture des modèles et le pipeline d’entraînement. Ils introduisent ensuite brièvement $26$ MM-LLM existants, chacun caractérisé par sa formulation propre. En outre, ils passent en revue les performances des MM-LLM sur les principaux benchmarks et résument les principales recettes d’entraînement pour améliorer leur efficacité. Enfin, ils explorent des orientations prometteuses pour les MM-LLM tout en maintenant un site web de suivi en temps réel des dernières évolutions du domaine. Ils espèrent que cette étude contribuera aux progrès continus du domaine des MM-LLM.

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

Lien vers l’article

https://arxiv.org/abs/2401.13601

Pour aller plus loin

https://x.com/omarsar0/status/1751705689964089616

CRAG : génération augmentée par récupération corrective / Corrective Retrieval Augmented Generation

Présentation de l’article

Pour améliorer la robustesse de la génération dans un système RAG, les auteurs proposent la génération augmentée par récupération corrective (CRAG). L’idée centrale consiste à mettre en œuvre un composant d’auto-correction pour le retriever et à améliorer l’exploitation des documents récupérés pour la génération augmentée ; l’évaluateur de récupération aide à évaluer la qualité globale des documents récupérés pour une requête donnée ; l’utilisation de la recherche web et d’opérations optimisées d’exploitation des connaissances peut améliorer l’auto-correction automatique ainsi que l’utilisation efficace des documents récupérés.

Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.

Résumé de l’article (Abstract)

Les grands modèles de langage (LLM) présentent inévitablement des hallucinations, car l’exactitude des textes générés ne peut pas être garantie uniquement par les connaissances paramétriques qu’ils encapsulent. La génération augmentée par récupération (RAG) est une méthode pratique pour compléter les LLM, mais elle dépend fortement de la pertinence des documents récupérés, ce qui soulève des inquiétudes quant au comportement du modèle lorsque la récupération échoue. Pour y remédier, nous proposons la Corrective Retrieval Augmented Generation (CRAG) afin d’améliorer la robustesse de la génération. Plus précisément, un évaluateur léger de récupération est conçu pour évaluer la qualité globale des documents récupérés pour une requête et renvoyer un degré de confiance permettant de déclencher différentes actions de récupération de connaissances. Comme la récupération à partir de corpus statiques et limités ne peut renvoyer que des documents sous-optimaux, des recherches web à grande échelle sont utilisées comme extension pour enrichir les résultats de récupération. En outre, un algorithme de décomposition puis recomposition est conçu pour les documents récupérés afin de se concentrer sélectivement sur les informations clés et de filtrer les informations non pertinentes. CRAG est plug-and-play et peut être intégré de manière transparente à diverses approches basées sur RAG. Les résultats expérimentaux sur quatre jeux de données couvrant des tâches de génération en format court et long montrent que CRAG peut améliorer significativement les performances des approches basées sur RAG.

Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.

Lien vers l’article

https://arxiv.org/abs/2401.15884

Pour aller plus loin

https://x.com/omarsar0/status/1752173216942944556

Grands modèles de langage pour le raisonnement mathématique : avancées et défis / Large Language Models for Mathematical Reasoning: Progresses and Challenges

Présentation de l’article

Présente une vue d’ensemble des développements de la recherche en machine learning pour le raisonnement mathématique, et discute des avancées, capacités, limites et applications afin d’inspirer la poursuite des recherches sur le machine learning appliqué aux mathématiques.

Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.

Résumé (Abstract)

Le raisonnement mathématique constitue une pierre angulaire pour évaluer les capacités cognitives fondamentales de l’intelligence humaine. Ces derniers temps, le développement de grands modèles de langage (LLM) destinés à la résolution automatisée de problèmes mathématiques a connu une forte accélération. Cependant, le paysage des types de problèmes mathématiques est extrêmement vaste et varié, et les techniques orientées LLM sont évaluées sur des jeux de données et dans des environnements très divers. Cette diversité rend difficile l’identification des véritables avancées et obstacles dans ce domaine en plein essor. Cette étude vise à couvrir quatre dimensions essentielles : i) une exploration complète des différents problèmes mathématiques étudiés et des jeux de données correspondants ; ii) un examen de l’éventail des techniques orientées LLM proposées pour la résolution de problèmes mathématiques ; iii) un aperçu des facteurs et préoccupations influençant les LLM dans la résolution de problèmes de mathématiques ; et iv) une clarification des défis persistants dans ce domaine. À notre connaissance, cette étude figure parmi les premières analyses de grande ampleur du paysage des LLM dans le domaine des mathématiques, en offrant une perspective globale sur l’état actuel, les réalisations et les défis futurs de ce champ en évolution rapide.

Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.

Lien vers l’article

https://arxiv.org/abs/2402.00157

Pour aller plus loin

https://x.com/omarsar0/status/1753424518171738194

Enquête complète sur les algorithmes de compression pour les modèles de langage / A Comprehensive Survey of Compression Algorithms for Language Models

Présentation de l’article

Couvre des algorithmes de compression comme le pruning, la quantization, la distillation des connaissances, l’approximation de bas rang, le partage de paramètres et la conception d’architectures efficaces.

Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.

Résumé de l’article (Abstract)

Comment compresser des modèles de langage sans sacrifier la précision ? Le nombre d’algorithmes de compression pour les modèles de langage augmente rapidement afin de profiter des avancées remarquables des modèles de langage récents sans subir les effets secondaires liés à leur taille gigantesque, comme l’augmentation des émissions de carbone et des coûts de maintenance élevés. Bien que de nombreux algorithmes de compression aient montré des progrès remarquables pour compresser les modèles de langage, il devient ironiquement difficile d’identifier les tendances émergentes et les concepts fondamentaux qui les sous-tendent en raison de leur trop grand nombre. Cet article passe en revue et résume divers algorithmes de compression, notamment le pruning, la quantization, la distillation des connaissances, l’approximation de bas rang, le partage de paramètres et la conception d’architectures efficaces. Il ne se contente pas de synthétiser les tendances générales de ces différents algorithmes, mais sélectionne également des méthodes représentatives pour en proposer une analyse approfondie. Il discute de la valeur de chaque catégorie d’algorithmes de compression ainsi que des propriétés souhaitables des algorithmes de compression à faible coût, dont l’importance s’est fortement accrue avec l’émergence des grands modèles de langage. Enfin, il présente des pistes de recherche prometteuses pour l’avenir sur la base des résultats de cette enquête.

How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.

Lien vers l’article

https://arxiv.org/abs/2401.15347

Pour aller plus loin

https://x.com/omarsar0/status/1752746770377974072

MoE-LLaVA : mélange d’experts pour les grands modèles vision-langage / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Présentation de l’article

Cette approche emploie un tuning par mélange d’experts pour les grands modèles vision-langage afin de construire un modèle sparse avec une réduction substantielle du nombre de paramètres à coût de calcul constant ; elle aide également à résoudre la dégradation des performances liée à l’apprentissage multimodal et à la sparsité du modèle.

Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.

Résumé de l’article (Abstract)

Dans le cas des grands modèles vision-langage (LVLM), augmenter l’échelle du modèle permet d’améliorer efficacement les performances. Cependant, l’augmentation du nombre de paramètres fait fortement grimper les coûts d’entraînement et d’inférence, puisque tous les paramètres du modèle sont activés pour chaque token lors du calcul. Cette étude propose MoE-tuning, une nouvelle stratégie d’entraînement pour les LVLM, capable de construire un modèle sparse avec un nombre énorme de paramètres mais un coût de calcul constant, tout en répondant efficacement à la dégradation des performances généralement associée à l’apprentissage multimodal et à la sparsité des modèles. Les auteurs présentent également le framework MoE-LLaVA, une architecture de LVLM sparse basée sur le MoE. Ce framework active uniquement les top-k experts via des routeurs au moment du déploiement, tandis que les autres experts restent inactifs. De vastes expérimentations menées par Unity ont mis en évidence les excellentes capacités de MoE-LLaVA en compréhension visuelle ainsi que son potentiel pour réduire les hallucinations dans les sorties du modèle. Fait remarquable, avec seulement 3 milliards de paramètres activés de manière sparse, MoE-LLaVA a montré des performances comparables à celles de LLaVA-1.5-7B sur divers jeux de données de compréhension visuelle, et a même surpassé LLaVA-1.5-13B sur le benchmark d’hallucination d’objets. À travers MoE-LLaVA, Unity cherche à établir une baseline pour les LVLM sparse et à fournir des insights précieux pour les recherches futures visant à développer des systèmes d’apprentissage multimodal plus efficaces et plus performants. Le code est disponible sur \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

Lien vers l’article

https://arxiv.org/abs/2401.15947

Pour aller plus loin

https://github.com/PKU-YuanGroup/MoE-LLaVA

https://x.com/LinBin46984/status/1753403875531375003

Réécrire le Web : une recette pour la modélisation du langage efficace en calcul et en données / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Présentation de l’article

Utilise un modèle d’instruction tuning prêt à l’emploi, sollicité pour reformuler des documents web dans des styles et formats spécifiques comme « à la manière de Wikipédia » ou « au format question-réponse », afin de pré-entraîner conjointement les LLM sur des reformulations réelles et synthétiques ; cela accélère le pré-entraînement jusqu’à environ 3x, améliore la perplexité et augmente la précision en question-réponse zero-shot sur de nombreuses tâches.

Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.

Résumé (Abstract)

Les grands modèles de langage sont généralement entraînés sur d’immenses volumes de données récupérées sur le web, souvent non structurées, bruitées et mal formulées. Selon les lois de mise à l’échelle actuelles, apprendre à partir de telles données nécessite à la fois d’abondantes ressources de calcul et de grandes quantités de données, des besoins qui augmentent avec la taille du modèle entraîné. Cela devient irréalisable en raison des coûts et de la durée considérables du pré-entraînement, ainsi que de la raréfaction imminente des données de haute qualité sur le web. Cette étude propose le pré-entraînement augmenté par reformulation du web ($\textbf{WRAP}$), qui utilise un modèle d’instruction tuning prêt à l’emploi, incité à reformuler des documents du web dans des styles spécifiques comme « à la manière de Wikipédia » ou sous « forme de questions-réponses », afin de pré-entraîner conjointement des LLM sur des reformulations réelles et synthétiques. Les auteurs montrent d’abord que l’utilisation de WRAP sur le jeu de données C4, naturellement bruité, accélère le pré-entraînement d’un facteur de $\sim3x$. À budget de calcul de pré-entraînement identique, la perplexité s’améliore de plus de 10 % en moyenne sur différents sous-ensembles de the Pile, et la précision des réponses en zero-shot à des questions s’améliore de plus de 2 % sur 13 tâches. Ensuite, l’étude examine l’impact du style de reformulation sur les performances du modèle, en apportant des éclairages sur la manière dont la composition des données d’entraînement peut influer sur les performances des LLM en contexte OOD. Les gains observés s’expliquent par le fait que les données synthétiques reformulées ont une utilité supérieure aux seules données réelles, car elles (i) intègrent une diversité de styles qui reflète étroitement le style des évaluations en aval, et (ii) présentent une « qualité » supérieure à celle des données récupérées sur le web.

Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

Lien vers l’article

https://arxiv.org/abs/2401.16380

Pour aller plus loin

https://x.com/pratyushmaini/status/1752337225097076809

La puissance du bruit : redéfinir la recherche pour les systèmes RAG / The Power of Noise: Redefining Retrieval for RAG Systems

Présentation de l’article

Étude centrée sur les éléments nécessaires pour améliorer le composant de recherche d’un système RAG ; elle confirme que les informations pertinentes doivent être placées près de la requête, faute de quoi le modèle aura du mal à leur prêter attention ; elle montre, de manière surprenante, que des documents pertinents ne conduisent pas nécessairement à de meilleures performances du système RAG ; plus étonnant encore, des documents non pertinents et bruités peuvent aussi contribuer à améliorer la précision s’ils sont placés correctement.

a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.

Résumé(Abstract)

Les systèmes de génération augmentée par la recherche (RAG) représentent une avancée majeure par rapport aux grands modèles de langage (LLM) traditionnels. Les systèmes RAG améliorent leurs capacités de génération en intégrant des données externes récupérées via une phase de recherche d’information (IR), ce qui permet de surmonter les limites des LLM standard, restreints à leurs connaissances préentraînées et à une fenêtre de contexte limitée. La plupart des recherches dans ce domaine se sont principalement concentrées sur l’aspect génératif des LLM au sein des systèmes RAG. Cette étude comble cette lacune en analysant de manière approfondie et critique l’influence des composants IR sur les systèmes RAG. Cet article examine les caractéristiques qu’un retriever doit posséder pour formuler efficacement les prompts d’un RAG, en se concentrant sur le type de documents à récupérer. Divers éléments sont évalués, comme la pertinence des documents par rapport au prompt, leur position et leur nombre dans le contexte. Les résultats révèlent notamment que l’inclusion de documents non pertinents peut, de façon inattendue, améliorer les performances de plus de 30 % en précision, contredisant l’hypothèse initiale d’une dégradation de la qualité. Ces résultats soulignent la nécessité de développer des stratégies spécialisées pour intégrer la recherche aux modèles de génération de langage, et posent ainsi les bases de futures recherches dans ce domaine.

Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.

Lien vers l’article

https://arxiv.org/abs/2401.14887

Pour aller plus loin

https://x.com/omarsar0/status/1751803310267314509

Article de survey sur les hallucinations dans les grands modèles vision-langage / A Survey on Hallucination in Large Vision-Language Models

Présentation de l’article

Discute du problème des hallucinations dans les grands modèles vision-langage (LVLM ; Large Vision-Language Model) et des techniques pour les atténuer, présente les méthodes d’évaluation et les benchmarks des hallucinations des LVLM, et fournit des conseils ainsi qu’une analyse utile sur les causes des hallucinations des LVLM et les moyens potentiels de les atténuer.

Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.

Résumé (Abstract)

Les développements récents des grands modèles vision-langage (LVLM) attirent une attention croissante dans le paysage de l’IA en raison de leur potentiel de mise en œuvre pratique. Cependant, les « hallucinations », plus précisément le décalage entre un contenu visuel factuel et le texte généré correspondant, posent un défi majeur à l’utilisation des LVLM. Dans cette enquête exhaustive, nous analysons les hallucinations liées aux LVLM afin d’en établir une vue d’ensemble et de faciliter de futures stratégies d’atténuation. Notre examen commence par une clarification du concept d’hallucination dans les LVLM, en présentant une variété de symptômes hallucinatoires et en mettant en évidence les défis spécifiques inhérents à ces hallucinations. Nous décrivons ensuite les benchmarks et méthodologies spécialement conçus pour évaluer les hallucinations propres aux LVLM. Nous examinons également en détail les causes profondes de ces hallucinations, en nous appuyant sur des enseignements tirés des données d’entraînement et des composants du modèle. Nous passons aussi en revue de manière critique les méthodes existantes pour atténuer les hallucinations. Enfin, nous concluons cette enquête en abordant les questions ouvertes et les orientations futures relatives aux hallucinations au sein des LVLM.

Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.

Lien vers l’article

https://arxiv.org/abs/2402.00253

Pour aller plus loin

https://x.com/omarsar0/status/1753449211931079101

SliceGPT : compresser les grands modèles de langage en supprimant des lignes et des colonnes / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Présentation de l’article

Nouvelle technique de compression des LLM qui propose un schéma de sparsification post-entraînement remplaçant chaque matrice de poids par une matrice dense plus petite ; elle réduit la dimension d’embedding du réseau et peut supprimer jusqu’à 20 % des paramètres des modèles Llama2-70B et Phi-2 tout en conservant l’essentiel des performances zero-shot du modèle dense.

A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.

Résumé de l’article (Abstract)

Les grands modèles de langage sont devenus la pierre angulaire du traitement du langage naturel, mais leur utilisation entraîne des coûts importants en ressources de calcul et de mémoire. La sparsification offre une solution pour atténuer ces contraintes de ressources, et des travaux récents ont montré qu’il était possible de sparsifier des modèles entraînés a posteriori. Les techniques de sparsification existantes se heurtent toutefois à des difficultés : elles nécessitent des structures de données supplémentaires et n’offrent qu’un gain de vitesse limité sur le matériel actuel. Cet article présente SliceGPT, un nouveau schéma de sparsification post-entraînement qui remplace chaque matrice de poids par une matrice plus petite (dense), réduisant ainsi la dimension d’embedding du réseau. Grâce à des expérimentations approfondies, les auteurs montrent que SliceGPT peut supprimer jusqu’à 25 % des paramètres du modèle (embeddings inclus) pour les modèles LLAMA2-70B, OPT 66B et Phi-2, tout en conservant respectivement 99 %, 99 % et 90 % des performances zero-shot du modèle dense sur les tâches évaluées. Les modèles « sliced » s’exécutent sur un plus petit nombre de GPU et plus rapidement, sans aucune optimisation de code supplémentaire : sur des GPU grand public de 24 GB, le calcul total nécessaire à l’inférence sur LLAMA2-70B est réduit à 64 % de celui du modèle dense ; sur des GPU A100 de 40 GB, il est réduit à 66 %. Les auteurs apportent un nouvel éclairage avec le concept d’invariance computationnelle dans les réseaux transformers, qui rend SliceGPT possible et, espèrent-ils, ouvrira de nouvelles pistes pour réduire les besoins en mémoire et en calcul des modèles pré-entraînés. Le code est disponible ici : https://github.com/microsoft/TransformerCompression

Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

⚠️Publicité⚠️ : Cet article compilé par le groupe d’utilisateurs PyTorch Corée vous a été utile ? Inscrivez-vous comme membre et recevez les principaux articles par e-mail ! (Le réglage par défaut est Weekly, mais vous pouvez aussi le passer en Daily.)

[2024/01/29 ~ 02/04] Les principaux articles ML de la semaine (Top ML Papers of the Week)

Aperçu

OLMo : accélérer la science des modèles de langage / OLMo: Accelerating the Science of Language Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

MM-LLM : avancées récentes des grands modèles de langage multimodaux / MM-LLMs: Recent Advances in MultiModal Large Language Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

CRAG : génération augmentée par récupération corrective / Corrective Retrieval Augmented Generation

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Grands modèles de langage pour le raisonnement mathématique : avancées et défis / Large Language Models for Mathematical Reasoning: Progresses and Challenges

Présentation de l’article

Résumé (Abstract)

Lien vers l’article

Pour aller plus loin

Enquête complète sur les algorithmes de compression pour les modèles de langage / A Comprehensive Survey of Compression Algorithms for Language Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

MoE-LLaVA : mélange d’experts pour les grands modèles vision-langage / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Réécrire le Web : une recette pour la modélisation du langage efficace en calcul et en données / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Présentation de l’article

Résumé (Abstract)

Lien vers l’article

Pour aller plus loin

La puissance du bruit : redéfinir la recherche pour les systèmes RAG / The Power of Noise: Redefining Retrieval for RAG Systems

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

Article de survey sur les hallucinations dans les grands modèles vision-langage / A Survey on Hallucination in Large Vision-Language Models

Présentation de l’article

Résumé (Abstract)

Lien vers l’article

Pour aller plus loin

SliceGPT : compresser les grands modèles de langage en supprimant des lignes et des colonnes / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Original

À lire aussi

Aucun commentaire pour le moment.