3 points par ninebow 2023-11-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Vue d’ensemble

  • J’ai traduit automatiquement l’article hebdomadaire de DAIR.AI consacré aux publications ML.

  • Parmi les articles sélectionnés cette semaine, on constate une forte présence de recherches sur les modèles Transformer et les grands modèles de langage (Large Language Models, LLM).

  • Des titres comme 'Simplifying Transformer Blocks', 'Understanding In-Context Learning Abilities in Transformers' et 'S-LoRA' semblent mettre l’accent sur une meilleure compréhension de l’architecture et des mécanismes d’apprentissage des modèles Transformer.

  • 'Hallucination in LLMs', 'On the Road with GPT-4V(ision)' et 'GPT4All' traitent des performances et des cas d’usage des grands modèles de langage comme GPT, montrant une tendance marquée vers les avancées et les applications des LLM.


Enquête sur les hallucinations des grands modèles de langage : principes, taxonomie, défis et questions ouvertes / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

Présentation de l’article

  • Un article de survey complet (plus de 50 pages) sur les hallucinations des LLM, qui fournit des informations sur les principes, la taxonomie, les défis et les questions ouvertes liés à ce problème. #survey-paper #hallucination
    > A comprehensive survey (50+ pages) on hallucination in llms; provides information about principles, taxonomy, challenges, and open questions related to the issue of hallucination in llms.

Résumé de l’article

  • L’émergence des grands modèles de langage (LLM) a marqué une avancée majeure en traitement automatique du langage naturel (NLP), entraînant des progrès remarquables dans la compréhension et la génération de texte. Cependant, parallèlement à ces avancées, les LLM montrent une tendance critique à produire des hallucinations, c’est-à-dire des contenus qui ne correspondent ni aux faits réels ni aux entrées de l’utilisateur. Ce phénomène pose des difficultés importantes pour leur déploiement pratique et soulève des inquiétudes quant à la fiabilité des LLM dans des scénarios réels, ce qui suscite un intérêt croissant pour la détection et l’atténuation de ces hallucinations. Dans cette enquête, nous visons à fournir une vue d’ensemble approfondie et détaillée des avancées récentes dans le domaine des hallucinations des LLM. Nous commençons par une taxonomie novatrice des hallucinations des LLM, puis nous examinons en détail les facteurs qui y contribuent. Nous présentons ensuite une vue d’ensemble complète des méthodes de détection des hallucinations et des benchmarks. De plus, les approches représentatives conçues pour atténuer les hallucinations sont introduites en conséquence. Enfin, nous analysons les défis qui mettent en évidence les limites actuelles et formulons des questions ouvertes, dans le but de tracer des pistes pour les futures recherches sur les hallucinations dans les LLM.
    > The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.

Lien vers l’article

https://arxiv.org/abs/2311.05232

Pour aller plus loin

https://x.com/omarsar0/status/1722985251129966705


Simplification des blocs Transformer / Simplifying Transformer Blocks

Présentation de l’article

  • L’article explore la simplification du bloc Transformer et montre qu’il est possible de supprimer de nombreux composants du bloc sans perte de vitesse d’entraînement ; en utilisant différentes architectures, comme des modèles autoregressive decoder-only et des modèles de type BERT encoder-only, les blocs simplifiés reproduisent la vitesse d’entraînement par mise à jour et les performances des Transformers standard, et peuvent même atteindre un throughput d’entraînement supérieur de 15 % avec moins de paramètres (15 %).
    > Explores simplifying the transformer block and finds that many block components can be removed with no loss of training speed; using different architectures like autoregressive decoder-only and bert encoder-only models, the simplified blocks emulate per-update training speed and performance of standard transformers, and even achieve 15% faster training throughput with fewer parameters (15%).

Résumé de l’article

  • Une recette de conception simple pour les Transformers profonds consiste à composer des blocs de construction identiques. Mais les blocs de Transformer standard sont loin d’être simples, enchevêtrant les sous-blocs d’attention et de MLP avec des connexions de saut et des couches de normalisation dans des agencements précis. Cette complexité conduit à des architectures fragiles, où des changements apparemment mineurs peuvent réduire fortement la vitesse d’entraînement, voire rendre les modèles impossibles à entraîner. Dans ce travail, les auteurs se demandent jusqu’à quel point le bloc de Transformer standard peut être simplifié. En combinant la théorie de la propagation du signal et des observations empiriques, ils motivent des modifications permettant de supprimer de nombreux composants du bloc sans perte de vitesse d’entraînement, notamment les connexions de saut, les paramètres de projection ou de valeur, les sous-blocs séquentiels et les couches de normalisation. Dans des expériences menées à la fois sur des modèles auto-régressifs decoder-only et des modèles BERT encoder-only, leurs Transformers simplifiés reproduisent la vitesse d’entraînement par mise à jour et les performances des Transformers standard, tout en offrant un débit d’entraînement 15 % plus rapide et en utilisant 15 % de paramètres en moins.
    > A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.

Lien vers l’article

https://arxiv.org/abs/2311.01906

Pour aller plus loin

https://x.com/maksym_andr/status/1722235666724192688


Les mélanges de données de préentraînement permettent des capacités de sélection de modèle plus restreintes dans les modèles Transformer / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models

Présentation de l’article

  • Cette étude examine dans quelle mesure les Transformers peuvent efficacement faire le lien à partir d’un mélange de données de préentraînement pour identifier et apprendre de nouvelles tâches en contexte, à l’intérieur comme à l’extérieur de la distribution de préentraînement. Dans les régimes étudiés, les preuves montrant que le comportement d’apprentissage en contexte des modèles peut se généraliser au-delà de leurs données de préentraînement restent limitées.
    > Investigates how effectively transformers can bridge between pretraining data mixture to identify and learn new tasks in-context which are both inside and outside the pretraining distribution; in the regimes studied, there is limited evidence that the models’ in-context learning behavior is capable of generalizing beyond their pretraining data.

Résumé de l’article

  • Les modèles Transformer, en particulier les grands modèles de langage (LLM), possèdent une capacité remarquable d’apprentissage en contexte (ICL) : ils peuvent effectuer de nouvelles tâches lorsqu’on leur fournit des exemples d’entrée-sortie inédits, sans aucun entraînement explicite du modèle. Dans ce travail, les auteurs étudient dans quelle mesure les Transformers peuvent efficacement faire le lien entre les différents éléments de leur mélange de données de préentraînement, composé de plusieurs familles de tâches distinctes, afin d’identifier et d’apprendre en contexte de nouvelles tâches situées à l’intérieur comme à l’extérieur de la distribution de préentraînement. En s’appuyant sur des travaux antérieurs, ils examinent cette question dans un cadre contrôlé, où ils étudient des modèles Transformer entraînés sur des séquences de paires $(x, f(x))$ plutôt que sur du langage naturel. Les résultats empiriques montrent que les Transformers présentent des capacités quasi optimales de sélection de modèle non supervisée, dans leur aptitude à d’abord identifier en contexte différentes familles de tâches puis à apprendre en contexte au sein de celles-ci lorsque ces familles de tâches sont bien représentées dans les données de préentraînement. Cependant, lorsqu’ils sont confrontés à des tâches ou des fonctions hors du domaine de leurs données de préentraînement, les auteurs mettent en évidence divers modes d’échec des Transformers ainsi qu’une dégradation de leur généralisation, même pour de simples tâches d’extrapolation. Pris ensemble, ces résultats soulignent que les impressionnantes capacités d’ICL des modèles séquentiels de grande capacité pourraient être plus étroitement liées à la couverture de leurs mélanges de données de préentraînement qu’à des biais inductifs produisant de véritables capacités fondamentales de généralisation.
    > Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of $(x, f(x))$ pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.

Lien vers l’article

https://arxiv.org/abs/2311.00871

Pour aller plus loin

https://x.com/abacaj/status/1721223737729581437


Génération musicale simple et contrôlable / Simple and Controllable Music Generation

Présentation de l’article

  • Il s’agit d’un LLM basé sur un transformer à une seule étape, qui fonctionne sur plusieurs flux de représentations musicales discrètes compressées et peut générer des échantillons de haute qualité (mono et stéréo) tout en étant conditionné par une description textuelle ou des caractéristiques mélodiques.
    > A single-stage transformer-based llm that operates over several streams of compressed discrete music representation; it can generate high-quality samples (mono and stereo) while conditioning on textual description or melodic features.

Résumé de l’article

  • Ce travail s’attaque à la tâche de génération musicale conditionnelle. Il présente MusicGen, un modèle de langage (LM) unique qui opère sur plusieurs flux de représentations musicales discrètes compressées, c’est-à-dire des tokens. Contrairement aux travaux précédents, MusicGen se compose d’un transformer LM à une seule étape, associé à des schémas efficaces d’entrelacement des tokens, ce qui élimine la nécessité d’enchaîner plusieurs modèles, par exemple de manière hiérarchique ou via de l’upsampling. Avec cette approche, MusicGen peut générer des échantillons de haute qualité, en mono comme en stéréo, tout en étant conditionné par une description textuelle ou des caractéristiques mélodiques, ce qui permet un meilleur contrôle de la sortie générée. Les auteurs mènent une vaste évaluation empirique, comprenant à la fois des études automatiques et humaines, et montrent que l’approche proposée surpasse les baselines évaluées sur un benchmark standard de génération texte-vers-musique. Des études d’ablation mettent en lumière l’importance de chacun des composants qui constituent MusicGen. Des échantillons musicaux, le code et les modèles sont disponibles sur https://github.com/facebookresearch/audiocraft
    > We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft

Lien vers l’article

https://arxiv.org/abs/2306.05284

Pour aller plus loin

https://x.com/AIatMeta/status/1723043913638810025


Mises à jour alternées pour des modèles transformer efficaces / Alternating Updates for Efficient Transformers

Présentation de l’article

  • Une méthode qui permet de tirer parti de l’augmentation de l’échelle et de la capacité des modèles transformer sans accroître le coût de calcul ; elle consiste à travailler, à chaque couche, sur un sous-bloc de la représentation élargie et à utiliser un mécanisme de prédiction et de correction pour mettre à jour les blocs désactivés ; cela élargit la représentation apprise tout en n’entraînant qu’une augmentation négligeable de la latence.
    > A method that makes it possible to take advantage of increasing scale and capacity in transformer models without increasing the computational cost; achieved by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks; it widens the learn representation while only incurring a negligible increase in latency.

Résumé de l’article

  • Il est désormais bien établi qu’augmenter l’échelle des réseaux de transformeurs profonds améliore la qualité et les performances. Cependant, cette montée en échelle s’accompagne souvent d’une hausse prohibitive du coût de calcul et de la latence d’inférence. Pure Storage présente Alternating Updates (AltUp), une méthode simple à implémenter pour accroître la capacité d’un modèle sans charge computationnelle supplémentaire significative. AltUp permet d’élargir la représentation apprise, c’est-à-dire l’embedding des tokens, tout en n’entraînant qu’une augmentation négligeable de la latence. AltUp y parvient en travaillant, à chaque couche, sur un sous-bloc de la représentation élargie et en utilisant un mécanisme de prédiction et de correction pour mettre à jour les blocs désactivés. Nous présentons des extensions d’AltUp, notamment son applicabilité à la dimension de séquence, et montrons comment AltUp peut se combiner de manière synergique avec des approches existantes, comme les modèles Sparse Mixture-of-Experts, afin d’obtenir des modèles efficaces à la capacité encore plus élevée. Nos expériences sur des modèles de transformeurs de référence et des tâches de langage démontrent l’efficacité constante d’AltUp dans une grande variété de scénarios. En particulier, sur les benchmarks SuperGLUE et SQuAD, AltUp permet jusqu’à $87%$ d’accélération par rapport aux baselines denses à précision égale.
    > It has been well established that increasing scale in deep transformer networks leads to improved quality and performance. However, this increase in scale often comes with prohibitive increases in compute cost and inference latency. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation, i.e., the token embedding, while only incurring a negligible increase in latency. AltUp achieves this by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks. We present extensions of AltUp, such as its applicability to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity. Our experiments on benchmark transformer models and language tasks demonstrate the consistent effectiveness of AltUp on a diverse set of scenarios. Notably, on SuperGLUE and SQuAD benchmarks, AltUp enables up to $87%$ speedup relative to the dense baselines at the same accuracy.

Lien vers l’article

https://arxiv.org/abs/2301.13310

Pour aller plus loin

https://x.com/GoogleAI/status/1722004366201418132


Reformuler et répondre : laisser les grands modèles de langage se poser de meilleures questions à eux-mêmes / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves

Présentation de l’article

  • Une méthode de prompting efficace qui utilise les LLM pour reformuler et développer les questions posées par les humains afin d’améliorer les performances globales ; elle peut améliorer les performances de différents modèles sur un large éventail de tâches ; cette approche peut être combinée au chain-of-thought pour améliorer encore davantage les performances.
    > An effective prompting method that uses llms to rephrase and expand questions posed by humans to improve overall performance; it can improve the performance of different models across a wide range of tasks; the approach can be combined with chain-of-thought to improve performance further.

Résumé de l’article

  • Les malentendus ne surviennent pas seulement dans la communication interpersonnelle, mais aussi entre les humains et les grands modèles de langage (LLM). Ces décalages peuvent conduire les LLM à interpréter de manière inattendue des questions apparemment non ambiguës, et donc à produire des réponses erronées. S’il est largement admis que la qualité d’un prompt, comme une question, influence fortement la qualité de la réponse fournie par les LLM, une méthode systématique pour formuler des questions que les LLM comprennent mieux reste encore peu développée. Cet article présente une méthode appelée Rephrase and Respond (RaR), qui permet aux LLM de reformuler et d’enrichir les questions posées par les humains, puis d’y répondre dans un seul prompt. Cette approche constitue une méthode de prompting simple mais efficace pour améliorer les performances. Les auteurs introduisent également une variante en deux étapes de RaR, dans laquelle un premier LLM reformule la question, puis transmet ensemble la question originale et la question reformulée à un autre LLM chargé de répondre. Cela permet d’exploiter efficacement, dans un LLM, les reformulations générées par un autre. Les expériences montrent que cette méthode améliore significativement les performances de plusieurs modèles sur un large éventail de tâches. L’article propose aussi une comparaison approfondie entre RaR et la populaire méthode Chain-of-Thought (CoT), à la fois sur le plan théorique et empirique. Il montre que RaR est complémentaire à CoT et qu’il peut être combiné à CoT pour obtenir des résultats encore meilleurs. Ce travail contribue non seulement à améliorer les performances des LLM de manière efficace et efficiente, mais met également en lumière la question d’une évaluation équitable des capacités des LLM. Les données et le code sont disponibles sur https://github.com/uclaml/Rephrase-and-Respond.
    > Misunderstandings arise not only in interpersonal communication but also between humans and Large Language Models (LLMs). Such discrepancies can make LLMs interpret seemingly unambiguous questions in unexpected ways, yielding incorrect responses. While it is widely acknowledged that the quality of a prompt, such as a question, significantly impacts the quality of the response provided by LLMs, a systematic method for crafting questions that LLMs can better comprehend is still underdeveloped. In this paper, we present a method named `Rephrase and Respond' (RaR), which allows LLMs to rephrase and expand questions posed by humans and provide responses in a single prompt. This approach serves as a simple yet effective prompting method for improving performance. We also introduce a two-step variant of RaR, where a rephrasing LLM first rephrases the question and then passes the original and rephrased questions together to a different responding LLM. This facilitates the effective utilization of rephrased questions generated by one LLM with another. Our experiments demonstrate that our methods significantly improve the performance of different models across a wide range to tasks. We further provide a comprehensive comparison between RaR and the popular Chain-of-Thought (CoT) methods, both theoretically and empirically. We show that RaR is complementary to CoT and can be combined with CoT to achieve even better performance. Our work not only contributes to enhancing LLM performance efficiently and effectively but also sheds light on a fair evaluation of LLM capabilities. Data and codes are available at https://github.com/uclaml/Rephrase-and-Respond.

Lien vers l’article

https://arxiv.org/abs/2311.04205

Pour aller plus loin

https://x.com/QuanquanGu/status/1722364144379396513


Prendre la route avec GPT-4V(ision) : premières explorations des modèles vision-langage pour la conduite autonome / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

Présentation de l’article

  • Évalue de manière exhaustive le dernier modèle vision-langage de pointe, GPT-4V(ision), ainsi que son application à la conduite autonome ; le modèle montre des performances supérieures en compréhension de scène et en raisonnement causal par rapport aux systèmes autonomes existants.
    > Provides an exhaustive evaluation of the latest state-of-the-art visual language model, gpt-4v(ision), and its application in autonomous driving; the model demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems.

Résumé de l’article

  • La concrétisation de la technologie de conduite autonome repose sur une intégration sophistiquée des systèmes de perception, de prise de décision et de contrôle. Les approches traditionnelles, qu’elles soient fondées sur les données ou sur des règles, se heurtaient à leur incapacité à saisir les nuances des environnements de conduite complexes et les intentions des autres usagers de la route. Cela constituait un obstacle majeur, en particulier pour développer le raisonnement de bon sens et la compréhension fine des scènes nécessaires à une conduite autonome sûre et fiable. L’émergence des modèles vision-langage (VLM) ouvre une nouvelle frontière vers une conduite entièrement autonome. Ce rapport propose une évaluation approfondie des VLM les plus avancés du moment et de leur application aux scénarios de conduite autonome. Il examine la capacité du modèle à comprendre et raisonner sur des scènes de conduite, à prendre des décisions et, au final, à agir comme un conducteur. Des tests complets ont été menés, allant de la reconnaissance élémentaire de scènes au raisonnement causal complexe, jusqu’à la prise de décision en temps réel dans des conditions variées. Les résultats montrent que le « nom du modèle » surpasse les systèmes de conduite autonome existants en compréhension de scène et en raisonnement causal. Cela met en évidence son potentiel pour traiter des scénarios hors distribution dans des situations réelles de conduite, reconnaître les intentions et prendre des décisions éclairées. Toutefois, des défis subsistent, notamment pour l’identification de la direction, la reconnaissance des feux de circulation, l’ancrage visuel et les tâches de raisonnement spatial. Ces limites soulignent la nécessité de poursuivre la recherche et le développement. Ce projet est actuellement accessible à tous sur GitHub : URL{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
    > The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model's abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}

Lien vers l’article

https://arxiv.org/abs/2311.05332

Pour aller plus loin

https://x.com/arankomatsuzaki/status/1722795897359139057


GPT4All : écosystème open source de modèles de langage compressés / GPT4All: An Ecosystem of Open Source Compressed Language Models

Présentation de l’article

  • Présente brièvement les détails techniques de la famille de modèles GPT4All ainsi que du dépôt open source visant à démocratiser l’accès aux LLM.
    > Outlines technical details of the gpt4all model family along with the open-source repository that aims to democratize access to llms.

Résumé de l’article

  • Ces derniers temps, les grands modèles de langage (LLM) ont atteint des performances de niveau humain sur un large éventail de benchmarks professionnels et académiques. L’accessibilité de ces modèles n’a pas suivi le rythme de leurs performances. Les LLM les plus avancés nécessitent une infrastructure coûteuse, ne sont accessibles qu’au travers d’interfaces web soumises à des limitations de débit, à des restrictions géographiques et à de la censure, et ne disposent pas de code ni de rapports techniques accessibles publiquement. Dans cet article, nous racontons l’histoire de GPT4All, un dépôt open source populaire qui vise à démocratiser l’accès aux LLM. Nous présentons également les détails techniques de la famille de modèles GPT4All d’origine, ainsi que l’évolution du projet GPT4All, passé d’un modèle unique à un véritable écosystème open source. Nous espérons que cet article servira à la fois de vue d’ensemble technique des modèles GPT4All d’origine et d’étude de cas sur la croissance ultérieure de l’écosystème open source GPT4All.
    > Large language models (LLMs) have recently achieved human-level performance on a range of professional and academic benchmarks. The accessibility of these models has lagged behind their performance. State-of-the-art LLMs require costly infrastructure; are only accessible via rate-limited, geo-locked, and censored web interfaces; and lack publicly available code and technical reports. In this paper, we tell the story of GPT4All, a popular open source repository that aims to democratize access to LLMs. We outline the technical details of the original GPT4All model family, as well as the evolution of the GPT4All project from a single model into a fully fledged open source ecosystem. It is our hope that this paper acts as both a technical overview of the original GPT4All models as well as a case study on the subsequent growth of the GPT4All open source ecosystem.

Lien vers l’article

https://arxiv.org/abs/2311.04931

Pour aller plus loin

https://x.com/_akhaliq/status/1722833378590793915


S-LoRA : servir des milliers d’adaptateurs LoRA simultanés / S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Présentation de l’article

  • Il s’agit d’une approche qui permet le serving scalable d’un grand nombre d’adaptateurs LoRA ; elle stocke tous les adaptateurs en mémoire principale, charge en mémoire GPU les adaptateurs des requêtes en cours d’exécution, et utilise une nouvelle stratégie de parallélisme tensoriel ainsi que des kernels CUDA personnalisés hautement optimisés pour le batching hétérogène des calculs LoRA, avec un débit jusqu’à 4 fois supérieur à celui d’autres solutions et un nombre d’adaptateurs servis accru de plusieurs ordres de grandeur.
    > An approach that enables the scalable serving of many lora adapters; it stores all adapters in main memory and fetches adapters of currently running queries to the gpu memory; employs novel tensor parallelism strategy and highly optimized custom cuda kernels for heterogenous batching of lora computation; improves throughput by 4x, when compared to other solutions, and increases the number of served adapters by several orders of magnitude.

Résumé de l’article

  • Le paradigme « préentraînement puis fine-tuning » est couramment adopté dans le déploiement des grands modèles de langage. Low-Rank Adaptation (LoRA), une méthode de fine-tuning économe en paramètres, est souvent utilisée pour adapter un modèle de base à une multitude de tâches, ce qui produit une collection importante d’adaptateurs LoRA dérivés d’un même modèle de base. Nous observons que ce paradigme offre d’importantes opportunités pour l’inférence par lots en phase de serving. Pour exploiter ces opportunités, nous présentons S-LoRA, un système conçu pour le serving scalable d’un grand nombre d’adaptateurs LoRA. S-LoRA stocke tous les adaptateurs dans la mémoire principale et charge en mémoire GPU les adaptateurs utilisés par les requêtes en cours. Pour utiliser efficacement la mémoire GPU et réduire la fragmentation, S-LoRA propose Unified Paging. Unified Paging utilise un pool mémoire unifié pour gérer les poids dynamiques des adaptateurs de rangs différents ainsi que les tenseurs de cache KV de longueurs de séquence variables. En outre, S-LoRA s’appuie sur une nouvelle stratégie de parallélisme tensoriel et sur des kernels CUDA personnalisés hautement optimisés afin de prendre en charge le batching hétérogène des calculs LoRA. Ensemble, ces caractéristiques permettent à S-LoRA de servir des milliers d’adaptateurs LoRA sur un seul GPU ou sur plusieurs GPU avec un faible surcoût. Par rapport à des bibliothèques de pointe telles que HuggingFace PEFT et vLLM (avec une prise en charge naïve du serving LoRA), S-LoRA peut améliorer le débit jusqu’à 4 fois et augmenter le nombre d’adaptateurs servis de plusieurs ordres de grandeur. En conséquence, S-LoRA permet le serving scalable de nombreux modèles fine-tunés spécifiques à une tâche et ouvre la voie à des services de fine-tuning personnalisés à grande échelle. Le code est disponible sur https://github.com/S-LoRA/S-LoRA
    > The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA

Lien vers l’article

https://arxiv.org/abs/2311.03285v2

Pour aller plus loin

https://x.com/ai_database/status/1722190708797592013


FreshLLM : rafraîchir les grands modèles de langage grâce à l’augmentation par moteur de recherche / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Présentation de l’article

  • Propose un benchmark QA dynamique (FreshQA) pour tester la factualité du texte généré par les LLM, présente FreshPrompt, une méthode simple de prompting few-shot qui améliore fortement les performances d’un LLM sur FreshQA en intégrant au prompt des informations pertinentes et récentes récupérées depuis un moteur de recherche, et montre qu’indiquer au LLM de produire des réponses concises et directes aide à réduire les hallucinations par rapport à des réponses plus verbeuses.
    > Proposes a dynamic qa benchmark (freshqa) to test the factuality of llm-generated text; proposes freshprompt, a simple few-shot prompting method that substantially boosts the performance of an llm on freshqa by incorporating relevant and up-to-date information retrieved from a search engine into the prompt; finds that instructing the llm to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers.

Résumé de l’article

  • La plupart des grands modèles de langage (LLM) sont entraînés une seule fois puis ne sont plus mis à jour ; ils manquent donc de la capacité à s’adapter dynamiquement à un monde en perpétuelle évolution. Cette étude propose une analyse détaillée de la factualité des textes générés par les LLM dans le cadre de réponses à des questions testant les connaissances actuelles sur le monde. Plus précisément, elle présente FreshQA, un nouveau benchmark dynamique de QA couvrant une grande diversité de types de questions et de réponses, notamment des questions nécessitant des connaissances du monde qui évoluent rapidement ainsi que des questions reposant sur de fausses prémisses qu’il faut réfuter. Les auteurs évaluent un large éventail de LLM propriétaires et open source selon une procédure en deux modes permettant de mesurer à la fois la justesse et les hallucinations. Grâce à une évaluation humaine comprenant plus de 50 000 jugements, ils mettent en lumière les limites de ces modèles et montrent qu’il existe une importante marge de progression. Ils constatent par exemple que tous les modèles, quelle que soit leur taille, ont des difficultés avec les questions impliquant des connaissances qui changent vite et des prémisses erronées. À partir de ces résultats, ils présentent FreshPrompt, une méthode simple de prompting few-shot qui améliore nettement les performances d’un LLM sur FreshQA en intégrant dans le prompt des informations pertinentes et récentes récupérées via un moteur de recherche. Les expériences montrent que FreshPrompt surpasse à la fois des méthodes concurrentes de prompting enrichi par moteur de recherche comme Self-Ask (Press et al., 2022) et des systèmes commerciaux comme Perplexity.AI. Une analyse complémentaire de FreshPrompt révèle que le nombre d’éléments de preuve récupérés ainsi que leur ordre jouent un rôle clé dans l’exactitude des réponses générées par les LLM. En outre, demander au LLM de produire des réponses concises et directes aide à réduire les hallucinations par rapport à des consignes encourageant des réponses plus verbeuses. Pour faciliter les travaux futurs, FreshQA est publié sur github.com/freshllms/freshqa et sera mis à jour régulièrement.
    > Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.

Lien vers l’article

https://arxiv.org/abs/2310.03214

Pour aller plus loin

https://x.com/_akhaliq/status/1710108355157487635


Texte original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-fc8

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.