7 points par ninebow 2024-01-01 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Aperçu

  • Nous avons automatiquement traduit l’article hebdomadaire de DAIR.AI consacré aux publications ML.

  • À la lecture des articles sélectionnés cette semaine, on constate que la majorité des recherches s’articulent autour des grands modèles de langage (Large Language Models, LLMs) comme GPT-4. Ces travaux se concentrent notamment sur l’exploitation des nouvelles API de GPT-4, sur les capacités de rappel factuel des LLM, ainsi que sur la manière de leur conférer de meilleures capacités de recherche denses. S’y ajoutent également des sujets liés à la résolution de problèmes mathématiques à l’aide de modèles de langage et à la façon dont ces modèles peuvent effectuer du raisonnement.

  • Cette tendance peut s’expliquer par le fait que les LLM restent un sujet de recherche majeur dans le domaine de l’IA. Des modèles comme GPT-4, grâce à leurs excellentes capacités de compréhension et de génération du langage, élargissent leur potentiel d’usage dans de nombreux domaines d’application, et les recherches visant à améliorer ces capacités ou à les exploiter de nouvelles façons se poursuivent activement. Les travaux méthodologiques concrets destinés à améliorer les performances réelles, ainsi que l’analyse de cas d’usage appliqués, émergent comme des axes de recherche importants, et les articles retenus cette semaine semblent refléter cette dynamique.

  • Par ailleurs, les recherches visant à évaluer et à améliorer la compréhension et les capacités de raisonnement des LLM semblent elles aussi très populaires. Explorer, à travers cela, la manière dont des agents intelligents peuvent interagir avec les humains de façon plus naturelle et plus efficace constitue sans doute un enjeu majeur pour le domaine de l’IA. L’étude des gains d’efficacité et des possibilités d’application dans la vie réelle devrait ainsi occuper une place importante dans les tendances de recherche à venir.


CogAgent : un modèle de langage visuel pour les agents GUI / CogAgent: A Visual Language Model for GUI Agents

Présentation de l’article

  • Présente un modèle de langage visuel de 18 milliards de paramètres spécialisé dans la compréhension et la navigation GUI, prenant en charge des entrées haute résolution (1120x1120), performant sur des tâches comme les questions-réponses visuelles, le grounding visuel et les agents GUI, et atteignant l’état de l’art sur 5 benchmarks riches en texte et 4 benchmarks VQA généraux.
    > Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.

Résumé de l’article (Abstract)

  • Les utilisateurs passent un temps considérable sur les appareils numériques via des interfaces utilisateur graphiques (GUI), comme les écrans d’ordinateur ou de smartphone. Les grands modèles de langage (LLM) tels que ChatGPT peuvent aider dans des tâches comme la rédaction d’e-mails, mais ils peinent à comprendre et à manipuler les GUI, ce qui limite leur potentiel pour accroître le niveau d’automatisation. Cet article présente CogAgent, un modèle de langage visuel (VLM) de 18 milliards de paramètres spécialisé dans la compréhension et la navigation GUI. En utilisant à la fois des encodeurs d’images basse et haute résolution, CogAgent prend en charge des entrées en 11201120, ce qui lui permet de reconnaître de très petits éléments de page et du texte. En tant que modèle de langage visuel généraliste, CogAgent atteint l’état de l’art sur cinq benchmarks riches en texte et quatre benchmarks VQA généraux, dont VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet et POPE. CogAgent, qui utilise uniquement des captures d’écran en entrée, surpasse, pour les tâches de navigation GUI sur PC comme sur Android, les approches basées sur des LLM qui exploitent du texte HTML extrait — Mind2Web et AITW — et fait progresser l’état de l’art. Le modèle et le code sont disponibles sur https://github.com/THUDM/CogVLM .
    > People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120
    1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .

Lien vers l’article

https://arxiv.org/abs/2312.08914

Pour aller plus loin

https://x.com/cenyk1230/status/1739916469272789222


De Google Gemini à OpenAI Q* (Q-Star) : enquête sur la recomposition du paysage de la recherche en IA générative / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

Présentation de l’article

  • Ce rapport, qui passe en revue plus de 300 articles et résume les avancées de recherche à suivre dans le domaine de l’IA générative, aborde les défis computationnels, la scalabilité, les implications concrètes et le potentiel de l’IA générative pour stimuler les progrès dans des secteurs comme la santé, la finance et l’éducation.
    > Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.

Résumé de l’article (Abstract)

  • Cette enquête exhaustive a exploré le paysage en évolution de l’intelligence artificielle générative (IA), en mettant particulièrement l’accent sur les effets transformateurs du Mixture of Experts (MoE), de l’apprentissage multimodal et des avancées supposées vers l’intelligence artificielle générale (AGI). Le rapport a examiné de manière critique l’état actuel et la trajectoire future de l’IA générative, en analysant comment des innovations comme Gemini de Google et le projet Q* attendu d’OpenAI redéfinissent les priorités de recherche et les applications dans divers domaines, y compris leur impact sur la taxonomie de la recherche en IA générative. Il a évalué les défis de calcul, la scalabilité et les implications concrètes de ces technologies, tout en soulignant leur potentiel pour stimuler des avancées majeures dans des secteurs comme la santé, la finance et l’éducation. Il a également traité les nouveaux défis académiques soulevés par la prolifération de preprints à la fois consacrés à l’IA et générés par l’IA, en examinant leur impact sur le processus d’évaluation par les pairs et la communication scientifique. L’étude a mis en avant l’importance d’intégrer des méthodes éthiques et centrées sur l’humain dans le développement de l’IA, afin de garantir leur alignement avec les normes sociales et le bien-être collectif, et a présenté une stratégie de recherche future axée sur un usage équilibré et responsable du MoE, de la multimodalité et de l’AGI dans l’IA générative.
    > This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.

Lien vers l’article

https://arxiv.org/abs/2312.10868

Pour aller plus loin

https://x.com/omarsar0/status/1740119485011390558


PromptBench : une bibliothèque unifiée pour l’évaluation des grands modèles de langage / PromptBench: A Unified Library for Evaluation of Large Language Models

Présentation de l’article

  • Une bibliothèque unifiée prenant en charge l’évaluation et l’analyse complètes des LLM, avec des fonctionnalités de construction de prompts, de prompt engineering, de chargement des jeux de données et des modèles, d’attaques adversariales sur les prompts, de protocoles d’évaluation dynamiques et d’outils d’analyse.
    > A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.

Résumé de l’article (Abstract)

  • L’évaluation des grands modèles de langage (LLM) est essentielle pour mesurer leurs performances et atténuer les risques potentiels en matière de sécurité. Dans cet article, les auteurs présentent PromptBench, une bibliothèque unifiée pour l’évaluation des LLM. Elle se compose de plusieurs éléments clés, faciles à utiliser et à étendre par les chercheurs : construction de prompts, prompt engineering, chargement des jeux de données et des modèles, attaques adversariales sur les prompts, protocoles d’évaluation dynamiques et outils d’analyse. PromptBench est conçue comme une base de code ouverte, générale et flexible à des fins de recherche, capable de favoriser des travaux originaux sur la création de nouveaux benchmarks, le déploiement d’applications downstream et la conception de nouveaux protocoles d’évaluation. Le code est disponible sur https://github.com/microsoft/promptbench et continuera à être maintenu.
    > The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.

Lien vers l’article

https://arxiv.org/abs/2312.07910v1

Pour aller plus loin

https://x.com/omarsar0/status/1739360426134028631


Exploiter les nouvelles API de GPT-4 / Exploiting Novel GPT-4 APIs

Présentation de l’article

  • Un red-teaming a été mené sur trois fonctionnalités exposées dans les API GPT-4 — le fine-tuning, l’appel de fonctions et la recherche de connaissances — avec les principaux résultats suivants : 1) un fine-tuning sur seulement 15 exemples nuisibles ou 100 exemples bénins peut supprimer les garde-fous fondamentaux de GPT-4, 2) les assistants GPT-4 peuvent divulguer le schéma d’appel de fonctions et être amenés à exécuter des appels de fonctions arbitraires, 3) la recherche de connaissances peut être détournée en injectant des instructions dans les documents de recherche.
    > Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.

Résumé de l’article (Abstract)

  • Les attaques contre les modèles de langage supposent généralement l’un de deux modèles de menace extrêmes : soit un accès white-box complet aux poids du modèle, soit un accès black-box limité à une API de génération de texte. Cependant, les API du monde réel sont souvent plus flexibles que la simple génération de texte : elles exposent un accès « gray-box », ouvrant ainsi de nouveaux vecteurs de menace. Pour explorer cela, nous avons mené un red-teaming sur trois nouvelles fonctionnalités exposées dans les API GPT-4 : le fine-tuning, l’appel de fonctions et la recherche de connaissances. Nous constatons qu’un fine-tuning du modèle sur seulement 15 exemples nuisibles ou 100 exemples bénins peut supprimer les garde-fous fondamentaux de GPT-4, permettant une variété de sorties nuisibles. Nous constatons également que les assistants GPT-4 divulguent facilement le schéma d’appel de fonctions et peuvent être amenés à exécuter des appels de fonctions arbitraires. Enfin, nous constatons que la recherche de connaissances peut être détournée en injectant des instructions dans les documents de recherche. Ces vulnérabilités soulignent que tout ajout aux fonctionnalités exposées par une API peut créer de nouvelles vulnérabilités.
    > Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

Lien vers l’article

https://arxiv.org/abs/2312.14302

Pour aller plus loin

https://x.com/omarsar0/status/1739677995747450964


Rappel de faits dans les LLM / Fact Recalling in LLMs

Présentation de l’article

  • Étudie la manière dont les couches MLP implémentent une table de correspondance pour le rappel factuel ; élargit le champ de l’étude à la manière dont les premiers MLP de pythia 2.8b déterminent, parmi trois sports différents, celui que pratiquent divers athlètes ; suggère que les premières couches MLP jouent le rôle d’une table de correspondance et recommande de considérer le rappel des connaissances factuelles dans le modèle comme des embeddings multi-tokens.
    > Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.

Lien vers l’article

https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB

Pour aller plus loin

https://x.com/NeelNanda5/status/1738559368361349122


IA générative pour les mathématiques : 1re partie -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

Présentation de l’article

  • Présente un corpus centré sur les mathématiques, diversifié et de haute qualité, composé d’environ 9,5 milliards de tokens, pour entraîner des foundation models.
    > Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.

Résumé de l’article (Abstract)

  • Les corpus de grande taille et de haute qualité sont la pierre angulaire de la construction des foundation models. Dans ce travail, nous présentons ${MathPile}$, un corpus diversifié et de haute qualité centré sur les mathématiques, composé d’environ 9,5 milliards de tokens. Tout au long de sa création, nous avons suivi le principe selon lequel « less is more », avec la conviction ferme que la qualité des données prime sur la quantité, même lors de la phase de pré-entraînement. Nos efforts minutieux de collecte et de traitement des données ont inclus un ensemble complexe de prétraitement, préfiltrage, identification de la langue, nettoyage, filtrage et déduplication, afin de garantir la haute qualité du corpus. Nous avons en outre effectué une détection de contamination des données sur les jeux de test de benchmarks downstream afin d’éliminer les doublons. Nous espérons que ${MathPile}$ contribuera à améliorer les capacités de raisonnement mathématique des modèles de langage. Nous prévoyons d’open sourcer différentes versions de $MathPile$, ainsi que les scripts utilisés pour le traitement, afin de favoriser les développements futurs dans ce domaine.
    > High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce ${MathPile}$, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of {less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our ${MathPile}$ can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.

Lien vers l’article

https://arxiv.org/abs/2312.17120

Pour aller plus loin

https://x.com/arankomatsuzaki/status/1740564961032556942


Des instructions fondées sur des principes suffisent pour interroger LLaMA-1/2, GPT-3.5/4 / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Présentation de l’article

  • Présente 26 principes directeurs conçus pour simplifier le processus d’interrogation et de prompting des grands modèles de langage ; applique ces principes à une vaste série d’expériences sur llama-1/2 (7b, 13b, 70b), gpt-3.5/4 afin de vérifier leur efficacité pour la conception d’instructions et de prompts.
    > Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.

Résumé de l’article (Abstract)

  • Cet article présente 26 principes fondamentaux conçus pour simplifier le processus d’interrogation et de prompting des grands modèles de langage. Notre objectif est de simplifier les concepts sous-jacents à la formulation de questions pour des grands modèles de langage de différentes tailles, à l’examen de leurs capacités et à l’amélioration de la compréhension par les utilisateurs du comportement de modèles de différentes tailles lorsqu’ils sont soumis à différents prompts. De vastes expériences ont été menées sur LLaMA-1/2 (7B, 13B, 70B) et GPT-3.5/4 afin de vérifier l’efficacité des principes proposés pour la conception d’instructions et de prompts. Nous espérons que ce travail offrira un meilleur guide aux chercheurs travaillant sur le prompting des grands modèles de langage. La page du projet est disponible sur https://github.com/VILA-Lab/ATLAS.
    > This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.

Lien vers l’article

https://arxiv.org/abs/2312.16171v1

Pour aller plus loin

https://x.com/_akhaliq/status/1739857456161759455


Enquête sur le raisonnement avec les foundation models / A Survey of Reasoning with Foundation Models

Présentation de l’article

  • Fournit une enquête complète sur les foundation models majeurs pour le raisonnement, en mettant en avant les avancées les plus récentes dans diverses tâches, méthodes, benchmarks et orientations futures potentielles ; discute également de la manière dont d’autres développements comme l’apprentissage multimodal, les agents autonomes et la super-alignment accélèrent et étendent la recherche sur le raisonnement.
    > Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.

Résumé de l’article (Abstract)

  • Le raisonnement, capacité cruciale pour résoudre des problèmes complexes, joue un rôle central dans divers contextes réels comme la négociation, le diagnostic médical et l’enquête criminelle. Il constitue une méthodologie fondamentale dans le domaine de l’intelligence artificielle générale (AGI). Avec le développement continu des foundation models, l’intérêt pour l’exploration de leurs capacités sur les tâches de raisonnement ne cesse de croître. Cet article présente des foundation models majeurs proposés ou adaptables pour le raisonnement, en mettant en avant les dernières avancées sur diverses tâches, méthodes et benchmarks de raisonnement. Les auteurs examinent ensuite les orientations futures potentielles derrière l’émergence des capacités de raisonnement au sein des foundation models. Ils discutent également de la pertinence de l’apprentissage multimodal, des agents autonomes et de la super alignment dans le contexte du raisonnement. En abordant ces futures pistes de recherche, ils espèrent inspirer les chercheurs à explorer ce domaine, stimuler de nouvelles avancées du raisonnement avec les foundation models et contribuer au développement de l’AGI.
    > Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.

Lien vers l’article

https://arxiv.org/abs/2312.11562v4

Pour aller plus loin

https://x.com/omarsar0/status/1740729489661874632


Faire des grands modèles de langage une meilleure base pour la recherche dense / Making Large Language Models A Better Foundation For Dense Retrieval

Présentation de l’article

  • Proposition de LLaRA pour adapter les LLM à la recherche dense. L’approche repose sur deux tâches prétextes, EBAE (embedding-based auto-encoding) et EBAR (embedding-based auto-regression), qui utilisent respectivement les embeddings textuels du LLM pour reconstruire les tokens de la phrase d’entrée et prédire les tokens de la phrase suivante ; LLaMA-2-7B a été amélioré sur des benchmarks comme MSMARCO et BEIR.
    > Proposes llara which adapts an llm for dense retrieval; it consists of two pretext tasks: ebae (embedding-based auto-encoding) and ebar (embedding-based auto-regression), where the text embeddings from llm are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively; a llama-2-7b was improved on benchmarks like msmarco and beir.

Résumé de l’article (Abstract)

  • La recherche dense doit apprendre des embeddings textuels discriminants afin de représenter la relation sémantique entre une requête et un document. Elle peut tirer parti des LLM (grands modèles de langage), compte tenu de leurs fortes capacités de compréhension sémantique. Cependant, les LLM sont préentraînés sur des tâches de génération de texte, dont le mode de fonctionnement est totalement différent de la représentation des textes sous forme d’embeddings. Il est donc essentiel d’étudier comment adapter correctement les LLM afin qu’ils puissent être efficacement initialisés comme encodeur backbone pour la recherche dense. Cet article propose une nouvelle approche, appelée LLaRA (LLM adapted for dense RetrievAl), qui fonctionne comme une adaptation a posteriori d’un LLM pour les applications de recherche dense. LLaRA se compose de deux tâches prétextes : EBAE (Embedding-Based Auto-Encoding) et EBAR (Embedding-Based Auto-Regression), dans lesquelles les embeddings textuels du LLM sont utilisés respectivement pour reconstruire les tokens de la phrase d’entrée et prédire les tokens de la phrase suivante. LLaRA s’avère simple, légère et très efficace. Elle est appliquée pour adapter LLaMA-2-7B (base) sur le corpus Wikipédia, où elle améliore substantiellement les performances du modèle après fine-tuning sur une variété de benchmarks de recherche dense, comme MSMARCO et BEIR. Le modèle et le code seront rendus publics dans le dépôt BGE.
    > Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository.

Lien vers l’article

https://arxiv.org/abs/2312.15503v1


Gemini et GPT-4V : comparaison préliminaire et combinaison de modèles vision-langage à travers des cas qualitatifs / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases

Présentation de l’article

  • À travers quelques cas qualitatifs, les auteurs ont mené une comparaison préliminaire complète et une combinaison de modèles vision-langage comme Gemini et GPT-4V, et ont constaté que GPT-4V fournit des réponses précises et concises, tandis que Gemini excelle à fournir des réponses détaillées et étendues, accompagnées d’images et de liens pertinents.
    > Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.

Résumé de l’article (Abstract)

  • Le secteur en évolution rapide des Multi-modal Large Language Models (MLLMs) est à l’avant-garde de l’intégration du traitement du langage et de la vision dans l’intelligence artificielle. Cet article présente une étude comparative approfondie de deux modèles pionniers : Gemini de Google et GPT-4V(ision) d’OpenAI. L’étude propose une évaluation multidimensionnelle des deux modèles sur des axes clés tels que les capacités vision-langage, l’interaction avec les humains, la compréhension temporelle, ainsi que des évaluations du quotient intellectuel et du quotient émotionnel. Le cœur de l’analyse explore les capacités distinctes de compréhension visuelle de chaque modèle. Une série d’expériences structurées a été menée pour évaluer leurs performances dans divers scénarios d’application industrielle, offrant une perspective complète sur leur utilité pratique. Au-delà d’une comparaison directe des performances, l’étude inclut également des ajustements de prompts et de scénarios afin de garantir une analyse équilibrée et équitable. Les résultats mettent en lumière les forces propres et les niches respectives des deux modèles. GPT-4V se distingue par la précision et la concision de ses réponses, tandis que Gemini excelle dans la fourniture de réponses détaillées et étendues, accompagnées d’images et de liens pertinents. Ces observations éclairent non seulement les avantages comparatifs de Gemini et GPT-4V, mais soulignent aussi l’évolution du paysage des modèles fondamentaux multimodaux, ouvrant la voie à de futures avancées dans ce domaine. Après la comparaison, les auteurs ont tenté d’obtenir de meilleurs résultats en combinant les deux modèles. Enfin, ils expriment leur profonde gratitude aux équipes de GPT-4V et Gemini pour leurs contributions pionnières dans ce domaine. Ils adressent également leurs remerciements à l’analyse qualitative exhaustive présentée dans « Dawn » par Yang et al. Ce travail, avec sa vaste collection d’échantillons d’images, de prompts et de résultats liés à GPT-4V, a fourni une base fondamentale à leur analyse.
    > The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.

Lien vers l’article

https://arxiv.org/abs/2312.15011v1

Pour aller plus loin

https://x.com/omarsar0/status/1741177994377330895


Texte original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-1d3

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.