4 points par ninebow 2024-03-19 | 6 commentaires | Partager sur WhatsApp

[2024/03/11 ~ 03/17] Principaux articles ML de la semaine (Top ML Papers of the Week)

  • Nous avons automatiquement traduit l’article hebdomadaire de DAIR.AI sur les publications ML.

  • Cette semaine, les articles sur les grands modèles de langage (Large Language Models, LLMs) se sont imposés comme la tendance principale. Plusieurs travaux reflètent cette orientation en cherchant à résoudre ou à mieux comprendre divers problèmes en se concentrant sur les LLMs. Par exemple, des articles comme "SIMA", "Retrieval Augmented Thoughts", "LMs Can Teach Themselves to Think Before Speaking", "Knowledge Conflicts for LLMs" et "LLMs Predict Neuroscience Results" utilisent les grands modèles de langage ou traitent de questions liées à leurs performances. Par ailleurs, un article comme "Stealing Part of a Production Language Model" montre que la recherche sur les modèles de langage s’intéresse aussi aux aspects de sécurité.

  • Cette tendance semble refléter les transformations majeures provoquées par les grands modèles de langage et leur influence au sein de la communauté de recherche en intelligence artificielle ces dernières années. Les grands modèles de langage s’imposent désormais comme des foundation models efficaces non seulement pour le traitement automatique du langage naturel (Natural Language Processing, NLP), mais aussi dans de nombreux autres domaines. Les LLMs affichent ainsi de très bonnes performances sur diverses tâches de compréhension et de génération du langage, et font en outre l’objet d’une exploration approfondie dans la recherche appliquée. En complément, des articles comme "Multimodal LLM Pre-training" illustrent les tendances les plus récentes, où les LLMs sont combinés à d’autres formes de données, comme les images ou l’audio, afin de renforcer leurs capacités d’apprentissage multimodal.

  • Sur la base de cette analyse, on peut s’attendre à ce que la recherche sur les LLMs continue d’améliorer la compréhension du langage naturel, de s’étendre à de nouveaux domaines d’application et de jouer un rôle important dans les progrès de l’intelligence artificielle. Au-delà de l’amélioration de leurs performances, un large éventail de questions devrait être exploré, couvrant aussi bien la recherche appliquée que la sécurité et les enjeux éthiques.


SIMA / SIMA

Présentation de l’article

  • Un agent IA généraliste pour les environnements virtuels 3D qui suit des instructions en langage naturel dans un large éventail d’environnements virtuels 3D et de jeux vidéo ; SIMA est évalué sur 600 compétences de base couvrant la navigation, l’interaction avec les objets et l’utilisation des menus. Le langage semble être un facteur majeur de performance.

    A generalist ai agent for 3d virtual environments that follows natural-language instructions in a broad range of 3d virtual environments and video games; sima is evaluated across 600 basic skills, spanning navigation, object interaction, and menu use. language seems to be a huge factor in performance.

Résumé de l’article (Abstract)

Construire des systèmes d’IA incarnée capables de suivre des instructions linguistiques arbitraires dans n’importe quel environnement 3D constitue un défi central pour la création d’une IA générale. Atteindre cet objectif nécessite d’apprendre à ancrer le langage dans la perception et dans les actions incarnées afin d’accomplir des tâches complexes. Le projet Scalable, Instructable, Multiworld Agent (SIMA) s’attaque à ce problème en entraînant des agents à suivre des instructions en langage libre dans un ensemble diversifié d’environnements virtuels 3D, incluant à la fois des environnements de recherche sélectionnés et des jeux vidéo commerciaux ouverts. L’objectif est de développer un agent pilotable par instruction capable d’accomplir tout ce qu’un humain peut faire dans n’importe quel environnement 3D simulé. L’approche met l’accent sur une généralité guidée par le langage tout en imposant un minimum d’hypothèses. Les agents interagissent avec les environnements en temps réel à l’aide d’une interface générique de type humain : les entrées sont des observations visuelles et des instructions en langage, et les sorties sont des actions clavier-souris. Cette approche générale est difficile, mais elle permet aux agents d’ancrer le langage dans de nombreux environnements visuellement complexes et riches sur le plan sémantique, tout en nous permettant d’exécuter facilement les agents dans de nouveaux environnements. Dans cet article, nous décrivons notre motivation et notre objectif, les premiers progrès accomplis, ainsi que des résultats préliminaires prometteurs obtenus sur plusieurs environnements de recherche variés et sur différents jeux vidéo commerciaux.

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as openended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

Lien vers l’article

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

Pour aller plus loin

https://discuss.pytorch.kr/t/gn-google-sima-3d-ai/3764

https://x.com/GoogleDeepMind/status/1767918515585994818


RAT : génération à long horizon par unités grâce à des raisonnements augmentés par la recherche contextuelle / RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

Présentation de l’article

  • Montre que la révision itérative d’une chaîne de pensée via la recherche d’informations peut améliorer de manière significative le raisonnement et la génération des LLM dans les tâches de génération à long horizon. L’idée clé est que chaque étape de réflexion est révisée à l’aide d’informations récupérées pertinentes pour la requête de la tâche ainsi que pour les étapes de réflexion actuelles et passées. Les retrieval-augmented thoughts (RAT) peuvent être appliquées à différents modèles comme GPT-4 et CodeLLaMA-7b pour améliorer des tâches de génération à longue portée (par ex. l’écriture créative et la planification de tâches incarnées) ; RAT est une approche de prompting zero-shot et améliore nettement des références telles que le zero-shot CoT prompting, le RAG vanilla et d’autres baselines.

    Shows that iteratively revising a chain of thoughts with information retrieval can significantly improve llm reasoning and generation in long-horizon generation tasks; the key idea is that each thought step is revised with relevant retrieved information to the task query, the current and past thought steps; retrieval augmented thoughts (rat) can be applied to different models like gpt-4 and codellama-7b to improve long-horizon generation tasks (e.g., creative writing and embodied task planning); rat is a zero-shot prompting approach and provides significant improvements to baselines that include zero-shot cot prompting, vanilla rag, and other baselines.

Résumé de l’article (Abstract)

  • Nous explorons comment la révision itérative d’une chaîne de pensée à l’aide de la recherche d’informations améliore significativement les capacités de raisonnement et de génération des grands modèles de langage dans les tâches de génération à long horizon, tout en atténuant fortement les hallucinations. Plus précisément, la méthode proposée, retrieval-augmented thoughts (RAT), révise chaque étape de réflexion une par une à partir d’informations récupérées pertinentes pour la requête de la tâche ainsi que pour les étapes de réflexion actuelles et passées, après la génération d’un CoT initial en zero-shot. L’application de RAT à GPT-3.5, GPT-4 et CodeLLaMA-7b améliore substantiellement leurs performances sur diverses tâches de génération à long horizon, avec une hausse relative moyenne des scores d’évaluation de 13,63 % en génération de code, 16,96 % en raisonnement mathématique, 19,2 % en écriture créative et 42,78 % en planification de tâches incarnées. La page de démonstration est disponible à l’adresse https://craftjarvis.github.io/RAT

    We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- retrieval-augmented thoughts (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT

Lien vers l’article

https://arxiv.org/abs/2403.05313

Pour aller plus loin

https://x.com/omarsar0/status/1767251740443746435


Quiet-STaR : les modèles de langage peuvent apprendre à réfléchir par eux-mêmes avant de parler / Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Présentation de l’article

  • Présente une généralisation de STaR, appelée Quiet-STaR, afin de permettre aux modèles de langage (LM) d’apprendre à raisonner de manière plus générale et plus scalable ; Quiet-STaR permet aux LM de générer, pour chaque token, des justifications expliquant le texte futur ; l’article propose un algorithme d’échantillonnage parallèle token par token qui aide à améliorer les prédictions du LM en générant efficacement des pensées internes ; la génération de justifications est améliorée à l’aide de REINFORCE.

    Presents a generalization of star, called quiet-star, to enable language models (lms) to learn to reason in more general and scalable ways; quiet-star enables lms to generate rationales at each token to explain future text; it proposes a token-wise parallel sampling algorithm that helps improve lm predictions by efficiently generating internal thoughts; the rationale generation is improved using reinforce.

Résumé de l’article (Abstract)

  • Quand les gens écrivent ou parlent, ils s’arrêtent parfois un instant pour réfléchir. Bien que les travaux centrés sur le raisonnement présentent souvent celui-ci comme une méthode pour répondre à des questions ou accomplir des tâches agentiques, le raisonnement est implicite dans presque tous les textes écrits. Cela s’applique par exemple aux étapes non explicitées entre les lignes d’une démonstration, ou à la théorie de l’esprit qui sous-tend une conversation. Dans Self-Taught Reasoner (STaR, Zelikman et al. 2022), une réflexion utile est apprise en inférant des justifications à partir de quelques exemples en question-réponse, puis en apprenant à partir de celles qui mènent à la bonne réponse. Il s’agit toutefois d’un cadre très contraint. Idéalement, un modèle de langage devrait plutôt pouvoir apprendre à inférer des justifications implicites dans un texte arbitraire. Nous présentons Quiet-STaR, une version généralisée de STaR dans laquelle les LM apprennent à générer des justifications à chaque token pour expliquer le texte à venir et améliorer leurs prédictions. Nous relevons plusieurs défis majeurs, notamment 1) le coût de calcul nécessaire pour générer des continuations, 2) le fait qu’au départ, le LM ne sait pas comment générer ni utiliser des pensées internes, et 3) la nécessité de prédire au-delà du simple token suivant. Pour y répondre, nous proposons un algorithme d’échantillonnage parallèle token par token, utilisant des tokens apprenables indiquant le début et la fin d’une pensée, ainsi qu’une technique étendue de teacher forcing. Fait encourageant, les justifications générées aident de manière disproportionnée à modéliser les tokens difficiles à prédire et améliorent la capacité du LM à répondre directement à des questions difficiles. En particulier, après la poursuite du pré-entraînement d’un LM sur un corpus de textes issus d’Internet avec Quiet-STaR, nous observons des gains en zero-shot sur GSM8K (5.9% $\rightarrow$ 10.9%) et CommonsenseQA (36.3% $\rightarrow$ 47.2%), ainsi qu’une amélioration de la perplexité sur les tokens difficiles dans le texte naturel. Point crucial, ces améliorations ne nécessitent aucun fine-tuning sur ces tâches. Quiet-STaR marque une étape vers des LM capables d’apprendre à raisonner de manière plus générale et plus scalable.

    When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.

Lien vers l’article

https://arxiv.org/abs/2403.09629

Pour aller plus loin

https://x.com/omarsar0/status/1768681638009975088


Conflits de connaissances pour les LLM : enquête / Knowledge Conflicts for LLMs: A Survey

Présentation de l’article

  • Cet article de synthèse classe les problèmes de conflits de connaissances, fréquents lors du travail avec des LLM, en conflits contexte-mémoire, inter-contextes et intra-mémoire, et fournit des éclairages sur leurs causes ainsi que sur des méthodes potentielles pour atténuer ces problèmes de conflits de connaissances.

    An overview of the common issue of knowledge conflict when working with llms; the survey paper categorizes these conflicts into context-memory, inter-context, and intra-memory conflict; it also provides insights into causes and potential ways to mitigate these knowledge conflict issues.

Résumé(Abstract)

  • Cette enquête propose une analyse approfondie des conflits de connaissances dans les grands modèles de langage (LLM), en mettant en lumière les défis complexes auxquels ils sont confrontés lorsqu’ils combinent connaissances contextuelles et paramétriques. Elle se concentre sur trois catégories de conflits de connaissances : contexte-mémoire, inter-contexte et intra-mémoire. Ces conflits peuvent affecter de manière significative la fiabilité et les performances des LLM, en particulier dans des applications réelles où le bruit et la désinformation sont fréquents. En classant ces conflits, en explorant leurs causes, en examinant le comportement des LLM dans ces situations et en passant en revue les solutions disponibles, cette enquête vise à éclairer les stratégies permettant d’améliorer la robustesse des LLM, et à servir de ressource précieuse pour faire progresser la recherche dans ce domaine en évolution.

    This survey provides an in-depth analysis of knowledge conflicts for large language models (LLMs), highlighting the complex challenges they encounter when blending contextual and parametric knowledge. Our focus is on three categories of knowledge conflicts: context-memory, inter-context, and intra-memory conflict. These conflicts can significantly impact the trustworthiness and performance of LLMs, especially in real-world applications where noise and misinformation are common. By categorizing these conflicts, exploring the causes, examining the behaviors of LLMs under such conflicts, and reviewing available solutions, this survey aims to shed light on strategies for improving the robustness of LLMs, thereby serving as a valuable resource for advancing research in this evolving area.

Lien vers l’article

https://arxiv.org/abs/2403.08319

Pour aller plus loin

https://x.com/omarsar0/status/1768288774532858003


Voler une partie d’un modèle de langage en production / Stealing Part of a Production Language Model

Présentation de l’article

  • Présente la première attaque de model stealing permettant d’extraire des informations de modèles de langage en production comme ChatGPT ou PaLM-2, et montre qu’il est possible de récupérer la couche de projection d’embedding d’un modèle basé sur un transformer via un accès API classique ; à titre d’exemple, l’intégralité de la matrice de projection a été extraite des modèles OpenAI Ada et Babbage pour moins de 20 dollars.

    Presents the first model-stealing attack that extracts information from production language models like chatgpt or palm-2; shows that it's possible to recover the embedding projection layer of a transformer-based model through typical api access; as an example, the entire projection matrix was extracted from the openai ada and babbage models for under $20.

Résumé(Abstract)

  • Présente la première attaque de model stealing capable d’extraire des informations précises et non triviales à partir de modèles de langage en production en boîte noire tels que ChatGPT d’OpenAI ou PaLM-2 de Google. Plus précisément, cette attaque permet de récupérer la couche de projection d’embedding d’un modèle transformer (à symétries près) à partir d’un accès API classique. Pour moins de 20 dollars, il est possible d’extraire l’intégralité de la matrice de projection des modèles de langage Ada et Babbage d’OpenAI. Cela a permis de confirmer pour la première fois que ces modèles en boîte noire ont respectivement une dimension cachée de 1024 et 2048. Les auteurs récupèrent également la taille exacte de la dimension cachée du modèle gpt-3.5-turbo et estiment qu’il en coûterait moins de 2 000 dollars en requêtes pour récupérer l’intégralité de la matrice de projection. Enfin, ils présentent des défenses et mesures d’atténuation potentielles, et discutent des implications de futurs travaux susceptibles d’étendre cette attaque.

    We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under $20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.

Lien vers l’article

https://arxiv.org/abs/2403.06634

Pour aller plus loin

https://x.com/omarsar0/status/1767641831079067694


Branch-Train-MiX: mélanger des LLM experts dans un LLM Mixture-of-Experts / Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Présentation de l’article

  • Propose de mélanger des LLM experts dans un entraînement de type Mixture-of-Experts comme approche plus efficace en calcul pour entraîner des LLM. Cette méthode se montre plus efficace que l’entraînement d’un LLM généraliste plus grand ou de plusieurs LLM spécialisés distincts ; l’approche, BTX, consiste d’abord à entraîner en parallèle plusieurs copies d’un LLM de base spécialisées dans différents domaines (c’est-à-dire des LLM experts), puis à les fusionner dans un LLM unique à l’aide de couches feed-forward MoE, avant de procéder au fine-tuning du modèle unifié dans son ensemble.

    Proposes mixing expert llms into a mixture-of-experts llm as a more compute-efficient approach for training llms; it's shown to be more efficient than training a larger generalist llm or several separate specialized llms; the approach, btx, first trains (in parallel) multiple copies of a seed llm specialized in different domains (i.e., expert llms) and merges them into a single llm using moe feed-forward layers, followed by fine-tuning of the overall unified model.

Résumé(Abstract)

  • Nous étudions des méthodes efficaces pour entraîner des grands modèles de langage (LLM) afin qu’ils acquièrent des capacités dans plusieurs domaines spécialisés, comme le code, le raisonnement mathématique et les connaissances du monde. Cette méthode, baptisée BTX (Branch-Train-MiX), part d’un modèle de base ramifié afin d’entraîner des experts avec un haut débit et des coûts de communication réduits. Une fois les experts individuels entraînés de manière asynchrone, BTX regroupe les paramètres feedforward en tant qu’experts dans des couches Mixture-of-Experts (MoE), moyenne les paramètres restants, puis passe par une étape de fine-tuning MoE pour apprendre le routage au niveau des tokens. BTX généralise deux cas particuliers : la méthode Branch-Train-Merge, qui ne comporte pas d’étape de fine-tuning MoE pour apprendre le routage, et le sparse upcycling, qui omet l’étape d’entraînement asynchrone des experts. Par rapport aux autres approches, BTX obtient le meilleur compromis entre précision et efficacité.

    We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.

Lien vers l’article

https://arxiv.org/abs/2403.07816

Pour aller plus loin

https://x.com/jaseweston/status/1767727740952682667


Les grands modèles de langage surpassent les experts humains pour prédire les résultats en neurosciences / Large language models surpass human experts in predicting neuroscience results

Présentation de l’article

  • Les auteurs proposent BrainBench, un benchmark destiné à évaluer la capacité du machine learning à prédire des résultats en neurosciences, constatent que le machine learning surpasse les experts dans la prédiction des résultats expérimentaux, et montrent qu’un modèle ajusté sur la littérature en neurosciences obtient des performances encore supérieures.

    Proposes a benchmark, brainbench, for evaluating the ability of llms to predict neuroscience results; finds that llms surpass experts in predicting experimental outcomes; an llm tuned on neuroscience literature was shown to perform even better.

Résumé de l’article (Abstract)

  • Les découvertes scientifiques dépendent souvent de la synthèse de plusieurs décennies de recherche, une tâche qui peut potentiellement dépasser les capacités humaines de traitement de l’information. Les grands modèles de langage (LLM) offrent une solution. Entraînés sur l’immense littérature scientifique, les LLM peuvent potentiellement intégrer des résultats bruités mais liés entre eux afin de mieux prédire de nouveaux résultats que les experts humains. Pour évaluer cette possibilité, les auteurs ont créé BrainBench, un benchmark prospectif pour la prédiction de résultats en neurosciences. Ils constatent que les LLM surpassent les experts dans la prédiction des résultats expérimentaux. BrainGPT, un LLM qu’ils ont ajusté sur la littérature en neurosciences, a obtenu de meilleures performances encore. Comme les experts humains, les LLM ont davantage de chances d’avoir raison lorsqu’ils sont confiants dans leurs prédictions, ce qui laisse entrevoir un avenir où humains et LLM collaboreront pour faire des découvertes. Cette approche n’est pas spécifique aux neurosciences et peut être transférée à d’autres domaines intensifs en connaissances.

    Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.

Lien vers l’article

https://arxiv.org/abs/2403.03230

Pour aller plus loin

https://x.com/ProfData/status/1765689739682754824


C4AI Command-R

Présentation de l’article

  • command-r, un modèle de 35b paramètres avec une fenêtre de contexte de 128k optimisé pour des cas d’usage comme le raisonnement, le résumé et les questions-réponses, doté de capacités de génération multilingue évaluées dans 10 langues ainsi que d’un usage d’outils et de fonctionnalités RAG performants, a été publié à des fins de recherche.

    A 35b parameter model, with a context length of 128k, optimized for use cases that include reasoning, summarization, and question answering; command-r has the capability for multilingual generation evaluated in 10 languages and performant tool use and rag capabilities; it has been released for research purposes.

Lien vers l’article

https://huggingface.co/CohereForAI/c4ai-command-r-v01

Pour aller plus loin

https://x.com/CohereForAI/status/1767275927505977455


La similarité cosinus des embeddings parle-t-elle vraiment de similarité ? / Is Cosine-Similarity of Embeddings Really About Similarity?

Présentation de l’article

  • Étudie les embeddings dérivés de modèles linéaires régularisés et montre analytiquement comment la similarité cosinus peut produire des similarités arbitraires et dénuées de sens ; montre aussi que, pour certains modèles linéaires, ces similarités ne sont même pas uniques, tandis que pour d’autres elles sont contrôlées par la régularisation ; les auteurs mettent en garde contre l’usage aveugle de la similarité cosinus et présentent des points d’attention ainsi que des alternatives.

    Studies embeddings derived from regularized linear models and derive analytically how cosine-similarity can yield arbitrary and meaningless similarities; also finds that for some linear models, the similarities are not even unique and others are controlled by regularization; the authors caution against blindly using cosine similarity and presents considerations and alternatives.

Résumé de l’article (Abstract)

  • La similarité cosinus est le cosinus de l’angle entre deux vecteurs, ou de manière équivalente le produit scalaire entre leurs normalisations. Une application courante consiste à quantifier la similarité sémantique entre des objets de grande dimension en appliquant la similarité cosinus à un embedding de caractéristiques appris en basse dimension. En pratique, cela peut mieux fonctionner, mais parfois aussi moins bien, que le produit scalaire non normalisé entre vecteurs projetés. Pour mieux comprendre cette observation empirique, nous étudions des embeddings dérivés de modèles linéaires régularisés, où des solutions en forme fermée facilitent l’analyse. Nous montrons analytiquement comment la similarité cosinus peut produire des « similarités » arbitraires et donc dénuées de sens. Pour certains modèles linéaires, les similarités ne sont même pas uniques, tandis que pour d’autres elles sont implicitement contrôlées par la régularisation. Nous discutons d’implications qui dépassent les modèles linéaires : lors de l’apprentissage de modèles profonds, différentes combinaisons de régularisations sont utilisées ; elles ont des effets implicites et involontaires lorsqu’on calcule la similarité cosinus des embeddings résultants, ce qui peut rendre les résultats opaques et possiblement arbitraires. À partir de ces constats, nous mettons en garde contre l’utilisation aveugle de la similarité cosinus et proposons des alternatives.

    Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.' For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.

Lien vers l’article

https://arxiv.org/abs/2403.05440

Pour aller plus loin

https://x.com/_reachsumit/status/1767045820384477575


MM1 : méthodes, analyse et enseignements du pré-entraînement des LLM multimodaux / MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Présentation de l’article

  • Fournit une vue d’ensemble complète des méthodes, analyses et enseignements autour du pré-entraînement des LLM multimodaux ; étudie différents composants d’architecture et constate que le mélange soigneux de données image-légende, image-texte entrelacées et texte seul est essentiel pour atteindre des performances de pointe ; propose également une famille de modèles multimodaux allant jusqu’à 30b paramètres, qui atteignent le sota sur les métriques de pré-entraînement et présentent des propriétés telles qu’un meilleur in-context learning, le raisonnement sur plusieurs images et la possibilité d’utiliser un prompt chain-of-thought en few-shot.

    Provides a comprehensive overview of methods, analysis, and insights into multimodal llm pre-training; studies different architecture components and finds that carefully mixing image-caption, interleaved image-text, and text-only data is key for state-of-the-art performance; it also proposes a family of multimodal models up to 30b parameters that achieve sota in pre-training metrics and include properties such as enhanced in-context learning, multi-image reasoning, enabling few-shot chain-of-thought prompting.

Résumé de l’article (Abstract)

  • Ce travail explique comment construire des modèles de langage multimodaux de grande taille (MLLM) performants. Il étudie en particulier l’importance de différents composants d’architecture et des choix de données. Grâce à des études d’ablation minutieuses et complètes sur l’encodeur d’images, le connecteur vision-langage et divers choix de données de pré-entraînement, plusieurs enseignements de conception cruciaux ont été identifiés. Par exemple, il montre qu’un mélange soigneusement dosé de données image-légende, image-texte entrelacées et texte seul pour le pré-entraînement multimodal à grande échelle est essentiel pour obtenir des résultats few-shot de pointe (SOTA) sur plusieurs benchmarks, en comparaison avec d’autres résultats de pré-entraînement publiés. Il montre également que l’encodeur d’images, ainsi que la résolution des images et le nombre de tokens d’image, ont un impact significatif, tandis que la conception du connecteur vision-langage est relativement moins importante. En faisant passer à l’échelle la recette proposée, les auteurs ont construit MM1, une famille de modèles multimodaux allant jusqu’à 30B de paramètres, composée à la fois de modèles denses et de variantes mixture-of-experts (MoE), qui atteignent l’état de l’art sur les métriques de pré-entraînement et obtiennent des performances compétitives après fine-tuning supervisé sur une gamme de benchmarks multimodaux établis. Grâce au pré-entraînement à grande échelle, MM1 présente des propriétés intéressantes comme un apprentissage in-context amélioré et un raisonnement multi-image, permettant un prompting chain-of-thought en few-shot.

    In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

Lien vers l’article

https://arxiv.org/abs/2403.09611

Pour aller plus loin

https://discuss.pytorch.kr/t/apple-llm-mm1-x/3772

https://x.com/DrJimFan/status/1769053019939967080


Texte original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-6a6


Cet article a été résumé à l’aide d’un modèle GPT et peut contenir des erreurs, veuillez donc également consulter le texte original en bas de page. Si vous remarquez un passage maladroit ou incorrect pendant votre lecture, merci de nous le signaler en commentaire.

⚠️Publicité⚠️ : Cet article compilé par le groupe d’utilisateurs PyTorch Corée vous a été utile ? Inscrivez-vous comme membre et nous vous enverrons les principaux articles par e-mail ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer à Daily.)

6 commentaires

 
prelude9903 2024-03-19

Pourriez-vous me dire quel outil de traduction automatique vous avez utilisé ?

 
ninebow 2024-03-19

Oui, j’utilise DeepL haha.
Récemment, il est devenu possible de créer aussi un glossaire de traduction pour le coréen, donc j’ai essayé, mais il y a un problème orz...

 
libner 2024-03-19

Il semble que, dans la présentation de l’article sur la partie RAT, rat et rag aient été traduits respectivement par souris et chiffon. J’imagine que le modèle a simplement lu les minuscules telles quelles.

 
ninebow 2024-03-20

J’ai apporté les modifications suivantes. Merci ! :D

  • Cela montre qu’en révisant de manière itérative la chaîne de pensée (CoT) via la recherche d’information, on peut considérablement améliorer le raisonnement et la génération des LLM pour des tâches de génération à long horizon. L’idée clé est que chaque étape de réflexion est révisée à l’aide d’informations récupérées pertinentes pour la requête de la tâche, ainsi que pour les étapes de réflexion présentes et passées. Retrieval-Augmented Thoughts (RAT) peut être appliqué à d’autres modèles comme GPT-4 et CodeLlama-7b pour des tâches de génération à long horizon (par ex. écriture créative et planification détaillée de tâches) ; RAT est une méthode de prompting zero-shot et surpasse largement des baselines incluant le zero-shot chain-of-thought prompting, le RAG de base et d’autres références.
 
ninebow 2024-03-19

Ah oui, en effet ; je vais corriger le texte original haha.
Merci !

 
ninebow 2024-03-19

Oups, le titre... merci de le remplacer par « Principaux articles ML de la semaine » ; ;