7 points par ninebow 2023-10-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Aperçu

  • Nous avons traduit automatiquement un article de DAIR.AI qui présente chaque semaine des articles de recherche en ML.

  • Les principales tendances des articles sélectionnés cette semaine se répartissent en deux grands axes : d’une part, les systèmes de dialogue en domaine ouvert (open domain dialog systems), et d’autre part, les travaux visant à permettre à l’IA de générer ses propres explications ou de résoudre des problèmes par elle-même.

  • Les systèmes de dialogue en domaine ouvert sont des technologies qui permettent aux systèmes d’IA d’échanger naturellement avec les utilisateurs. Ce thème était abordé dans des articles comme "OpenAgents", "LLMs for Software Engineering" et "Eliciting Human Preferences with LLMs". Ces travaux étudient des moyens permettant aux systèmes d’IA d’apprendre et de progresser par eux-mêmes grâce aux interactions avec les utilisateurs.

  • Les recherches sur la capacité de l’IA à produire ses propres explications ou à résoudre des problèmes étaient également traitées dans des articles comme "A Study of LLM-Generated Self-Explanations", "Self-RAG" et "Retrieval-Augmentation for Long-form Question Answering". L’objectif principal de ces travaux est de rendre transparent, pour l’utilisateur, le processus par lequel l’IA résout un problème ou génère une explication. Cette tendance semble naturelle au regard de l’importance croissante des recherches visant à faire de l’IA une technologie plus transparente et plus largement utilisable.


Llemma : un modèle de langage ouvert pour les mathématiques / Llemma: An Open Language Model For Mathematics

Présentation de l’article

  • Modèle Llemma pour les mathématiques, obtenu par poursuite du préentraînement de Code Llama sur le jeu de données Proof-Pile-2. Il surpasse, sur des articles scientifiques, des données web contenant des mathématiques, des jeux de données incluant du code mathématique et des benchmarks mathématiques, les modèles open de base ainsi que Minerva, non publié. Le modèle est publié avec le jeu de données et le code permettant de reproduire les expériences. #mathglm #

    An llm for mathematics which is based on continued pretraining from code llama on the proof-pile-2 dataset; the dataset involves scientific paper, web data containing mathematics, and mathematical code; llemma outperforms open base models and the unreleased minerva on the math benchmark; the model is released, including dataset and code to replicate experiments.

Résumé de l’article

  • Nous présentons Llemma, un grand modèle de langage dédié aux mathématiques. Nous avons poursuivi le préentraînement de Code Llama sur Proof-Pile-2, un mélange d’articles scientifiques, de données web contenant des mathématiques et de code mathématique, afin d’obtenir Llemma. Sur le benchmark MATH, Llemma surpasse tous les modèles open de base connus ainsi que la famille de modèles Minerva, non publiée, à nombre de paramètres équivalent. De plus, Llemma est capable d’utiliser des outils et d’effectuer des démonstrations formelles de théorèmes sans aucun finetuning supplémentaire. Nous publions ouvertement tous les artefacts, y compris les modèles de 7 et 34 milliards de paramètres, Proof-Pile-2 et le code permettant de reproduire nos expériences.

    We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

Lien vers l’article

https://arxiv.org/abs/2310.10631

Pour aller plus loin

https://x.com/zhangir_azerbay/status/1714098025956864031


Grands modèles de langage pour l’ingénierie logicielle : état de l’art et problèmes ouverts / Large Language Models for Software Engineering: Survey and Open Problems

Présentation de l’article

  • Un article de synthèse complet sur les LLM pour l’ingénierie logicielle, incluant les défis techniques et les questions de recherche ouvertes

    A comprehensive survey of llms for software engineering, including open research and technical challenges.

Résumé de l’article

  • Cet article propose une étude de l’émergence des grands modèles de langage (LLM) pour l’ingénierie logicielle (SE). Il présente également des questions de recherche ouvertes concernant l’application des LLM aux problèmes techniques rencontrés par les ingénieurs logiciels. Les propriétés émergentes des LLM apportent nouveauté et créativité dans tout le spectre des activités de software engineering, notamment le codage, la conception, les exigences, la réparation, le refactoring, l’amélioration des performances, la documentation et l’analytique. Cependant, ces mêmes propriétés émergentes posent aussi d’importants défis techniques ; nous avons besoin de techniques capables d’écarter de manière fiable les solutions incorrectes, comme les hallucinations. Cette étude montre le rôle central que doivent jouer les approches hybrides (SE traditionnelle + LLM) dans le développement et le déploiement d’une ingénierie logicielle fondée sur les LLM, fiable, efficace et performante.

    This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.

Lien vers l’article

https://arxiv.org/abs/2310.03533

Pour aller plus loin

https://x.com/omarsar0/status/1713940983199506910


Self-RAG : apprendre à rechercher, générer et critiquer par auto-réflexion / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Présentation de l’article

  • Présente un nouveau framework de retrieval-augmented generation qui améliore la qualité et la factualité des LM grâce à la recherche et à l’auto-réflexion ; entraîne un LM capable de récupérer des passages de manière adaptative selon les besoins, puis de générer et de réfléchir sur ces passages ainsi que sur ses propres générations à l’aide de tokens de réflexion spéciaux ; surpasse largement les LLM SOTA (ChatGPT et Llama2-chat avec augmentation par recherche) sur les tâches d’open-domain QA, de raisonnement et de vérification des faits, y compris en matière d’amélioration de la factualité. #rag
    > Presents a new retrieval-augmented framework that enhances an lm’s quality and factuality through retrieval and self-reflection; trains an lm that adaptively retrieves passages on demand, and generates and reflects on the passages and its own generations using special reflection tokens; it significantly outperforms sota llms (chatgpt and retrieval-augmented llama2-chat) on open-domain qa, reasoning, and fact verification tasks, including factuality improvements.

Résumé de l’article

  • Malgré leurs capacités remarquables, les grands modèles de langage (LLM) produisent souvent des réponses contenant des inexactitudes factuelles, car ils s’appuient uniquement sur les connaissances paramétriques qu’ils encapsulent. La Retrieval-Augmented Generation (RAG), une approche ad hoc qui augmente les LM via la recherche de connaissances pertinentes, permet de réduire ces problèmes. Cependant, récupérer et intégrer de manière indiscriminée un nombre fixe de passages, qu’une recherche soit nécessaire ou non, et que ces passages soient pertinents ou non, réduit la polyvalence du LM ou peut conduire à la génération de réponses peu utiles. Nous introduisons un nouveau framework appelé Self-Reflective Retrieval-Augmented Generation (Self-RAG), qui améliore la qualité et la factualité d’un LM grâce à la recherche et à l’auto-réflexion. Le framework de Facebook entraîne un LM arbitraire unique à récupérer des passages de manière adaptative à la demande, puis à générer et à réfléchir sur les passages récupérés ainsi que sur ses propres générations à l’aide de tokens spéciaux appelés tokens de réflexion. La génération de tokens de réflexion permet de contrôler le LM pendant la phase d’inférence, afin d’adapter son comportement à des exigences de tâche variées. Les expériences montrent que Self-RAG (7B et 13B de paramètres) surpasse nettement les LLM de pointe et les modèles augmentés par recherche sur un ensemble diversifié de tâches. Plus précisément, Self-RAG dépasse ChatGPT et Llama2-chat augmenté par recherche sur les tâches d’open-domain QA, de raisonnement et de vérification des faits, et montre des gains significatifs pour améliorer la factualité et la précision des citations dans les générations longues par rapport à ces modèles.
    > Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.

Lien vers l’article

https://arxiv.org/abs/2310.11511

Pour aller plus loin

https://x.com/AkariAsai/status/1715110277077962937


Comprendre l’augmentation par recherche pour la question-réponse en format long / Understanding Retrieval Augmentation for Long-Form Question Answering

Présentation de l’article

  • Étudie les modèles de langage augmentés par recherche pour la question-réponse en format long, et constate que la recherche est un composant important, mais que les documents de preuve doivent être ajoutés avec soin au LLM ; observe que les erreurs d’attribution surviennent plus fréquemment lorsque les documents récupérés ne contiennent pas suffisamment d’informations ou de preuves pour répondre à la question.
    > Explores retrieval-augmented language models on long-form question answering; finds that retrieval is an important component but evidence documents should be carefully added to the llm; finds that attribution error happens more frequently when retrieved documents lack sufficient information/evidence for answering the question.

Résumé de l’article

  • Présente une étude des modèles de langage (LM) à augmentation par récupération pour la réponse longue à des questions. L’analyse compare les réponses générées par différents modèles à partir des mêmes documents de preuve afin d’évaluer l’impact de l’augmentation par récupération selon les LM, ainsi que l’effet de la qualité des ensembles de documents récupérés sur les réponses produites par un même LM. L’étude examine diverses propriétés des réponses générées (par ex. fluidité, longueur, variance), en mettant particulièrement l’accent sur l’attribution des réponses longues aux documents de preuve présents dans le contexte. Des annotations humaines sur l’attribution des réponses sont collectées, et des méthodes automatiques d’évaluation de cette attribution sont examinées. Cette recherche apporte de nouveaux éclairages sur l’effet de l’augmentation par récupération dans la génération par LM de textes longs riches en connaissances. Elle identifie également des schémas d’attribution dans la génération de textes longs et analyse les principales causes des erreurs d’attribution. Ensemble, ces analyses montrent comment l’augmentation par récupération influence la génération de textes longs riches en connaissances et ouvrent des pistes pour de futurs travaux.
    > We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.

Lien vers l’article

https://arxiv.org/abs/2310.12150

Pour aller plus loin

https://x.com/omarsar0/status/1714986431859282144


GenBench

Présentation de l’article

  • Présente un framework pour caractériser et comprendre les recherches sur la généralisation en NLP, avec une méta-analyse de 543 articles et un ensemble d’outils pour explorer et mieux comprendre ces travaux sur la généralisation.
    > Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.

Lien vers l’article

https://nature.com/articles/s42256-023-00729-y/…

Pour aller plus loin

https://x.com/AIatMeta/status/1715041427283902793


Les grands modèles de langage peuvent-ils s’expliquer eux-mêmes ? Étude des auto-explications générées par les LLM / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations

Présentation de l’article

  • Évalue la capacité d’un LLM à générer lui-même des explications d’attribution de fonctionnalités. L’auto-explication est utile pour améliorer les performances et la véracité des LLM, et cette capacité peut être utilisée avec le prompting chain-of-thought. #chain-of-thought
    > Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.

Résumé de l’article

  • Les grands modèles de langage (LLM) comme ChatGPT ont démontré des performances supérieures sur une grande variété de tâches de traitement du langage naturel (NLP), notamment l’analyse de sentiment, le raisonnement mathématique et le résumé. En outre, comme ces modèles sont ajustés via des instructions à partir de conversations humaines afin de produire des réponses « utiles », ils peuvent produire — et produisent souvent — des explications en même temps que la réponse, que l’on appelle auto-explications. Par exemple, lors de l’analyse du sentiment d’une critique de film, le modèle peut produire non seulement la polarité positive du sentiment, mais aussi une explication (par exemple en listant des mots chargés affectivement tels que « fantastique » et « mémorable » présents dans la critique). Quelle est la qualité de ces auto-explications générées automatiquement ? Cet article étudie cette question dans le cadre d’une tâche d’analyse de sentiment et d’explication par attribution de caractéristiques, l’un des contextes les plus fréquemment étudiés dans la littérature sur l’interprétabilité (pour les modèles antérieurs à ChatGPT). Plus précisément, nous étudions différentes façons de faire émerger ces auto-explications, évaluons leur fidélité à l’aide d’un ensemble de métriques, et les comparons à des méthodes d’explication traditionnelles comme l’occlusion ou les cartes de saillance LIME. À travers une vaste série d’expériences, nous constatons que les auto-explications de ChatGPT offrent des performances comparables à celles des méthodes classiques, tout en étant très différentes selon diverses métriques de concordance, et bien moins coûteuses à produire puisqu’elles sont générées en même temps que la prédiction. Nous avons également identifié plusieurs caractéristiques intéressantes qui nous amènent à repenser nombre des pratiques actuelles d’interprétabilité des modèles à l’ère des LLM de type ChatGPT.
    > Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.

Lien vers l’article

https://arxiv.org/abs/2310.11207

Pour aller plus loin

https://x.com/omarsar0/status/1714665747752923620


OpenAgents (Open Agent) : une plateforme ouverte pour les agents de langage dans le monde réel / OpenAgents: An Open Platform for Language Agents in the Wild

Présentation de l’article

  • Il s’agit d’une plateforme ouverte pour utiliser et héberger des agents de langage en conditions réelles, comprenant trois types d’agents : un data agent pour l’analyse de données, un plugins agent avec plus de 200 outils API mis à jour quotidiennement, et un web agent pour la navigation web autonome.
    > An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.

Résumé de l’article

  • Les agents de langage montrent qu’ils ont le potentiel d’utiliser le langage naturel pour accomplir des tâches variées et complexes dans des environnements divers, en particulier lorsqu’ils sont construits sur de grands modèles de langage (LLM). Les frameworks actuels d’agents de langage visent à faciliter la création d’agents de langage de preuve de concept, mais négligent l’accès des non-spécialistes à ces agents et accordent peu d’attention à la conception au niveau applicatif. Nous présentons OpenAgents, une plateforme ouverte permettant d’utiliser et d’héberger des agents de langage dans la vie quotidienne. OpenAgents comprend trois agents : (1) un Data Agent pour l’analyse de données avec Python/SQL et des outils de données, (2) un Plugins Agent intégrant plus de 200 outils API du quotidien, (3) un Web Agent pour la navigation web autonome. Les utilisateurs peuvent interagir avec les fonctionnalités des agents via une interface web optimisée pour des réponses rapides et les pannes courantes, tandis que les développeurs et chercheurs bénéficient d’une expérience de déploiement fluide en environnement local, offrant une base pour créer des agents de langage innovants et faciliter leur évaluation en conditions réelles. Nous explicitons les défis et les opportunités, avec l’ambition de poser les bases des futures recherches et développements sur les agents de langage du monde réel.
    > Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.

Lien vers l’article

https://arxiv.org/abs/2310.10634v1

Pour aller plus loin

https://x.com/ChengZhoujun/status/1714343204148113860


Faire émerger les préférences humaines avec des modèles de langage / Eliciting Human Preferences with Language Models

Présentation de l’article

  • Utilise des modèles de langage pour guider le processus de spécification des tâches et un framework d’apprentissage pour aider les modèles à faire émerger et à inférer le comportement attendu via des interactions libres, fondées sur le langage, avec les utilisateurs ; montre qu’en générant des questions ouvertes, le système produit des réponses plus informatives que les prompts rédigés par les utilisateurs.
    > Uses language models to guide the task specification process and a learning framework to help models elicit and infer intended behavior through free-form, language-based interaction with users; shows that by generating open-ended questions, the system generates responses that are more informative than user-written prompts.

Résumé de l’article

  • Les modèles de langage (LM) peuvent être orientés vers l’exécution de tâches cibles à l’aide d’exemples annotés ou de prompts en langage naturel. Mais sélectionner les exemples ou rédiger les prompts peut s’avérer difficile, en particulier pour les tâches qui impliquent des cas limites inhabituels, exigent d’exprimer précisément des préférences floues ou nécessitent un modèle mental précis du comportement des LM. Nous proposons d’utiliser les LM eux-mêmes pour guider le processus de spécification des tâches. Dans cet article, nous présentons Generative Active Task Elicitation (GATE), un cadre d’apprentissage dans lequel les modèles suscitent et infèrent le comportement attendu au moyen d’interactions libres, basées sur le langage, avec les utilisateurs. Nous étudions GATE dans trois domaines : la validation d’e-mails, la recommandation de contenu et le raisonnement moral. Dans des expériences préenregistrées, nous montrons que des LM incités à réaliser GATE — par exemple en générant des questions ouvertes ou en synthétisant des cas limites informatifs — obtiennent souvent des réponses plus riches en informations que des prompts ou des labels rédigés par les utilisateurs. Les utilisateurs indiquent que l’élicitation interactive des tâches demande moins d’effort que le prompting ou l’annotation d’exemples, et qu’elle fait émerger de nouvelles considérations auxquelles ils n’avaient pas pensé au départ. Nos résultats suggèrent que l’élicitation pilotée par des LM peut constituer un outil puissant pour aligner les modèles sur des préférences et des valeurs humaines complexes.
    > Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.

Lien vers l’article

https://arxiv.org/abs/2310.11589

Pour aller plus loin

https://x.com/AlexTamkin/status/1715040019520569395


AutoMix : mélange automatique de modèles de langage / AutoMix: Automatically Mixing Language Models

Présentation de l’article

  • Une approche qui route les requêtes vers des llms en fonction de l’exactitude des petits modèles de langage (via une auto-vérification en few-shot) ; un méta-vérificateur est introduit pour contrôler la sortie du vérificateur (généralement un modèle plus petit) et, si nécessaire, router la requête vers un modèle de langage plus grand. Des expériences sur cinq jeux de données de raisonnement fondé sur le contexte avec llama2-13/70b montrent qu’AutoMix surpasse les références existantes, en améliorant le bénéfice incrémental par coût jusqu’à 89 %.
    > An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.

Résumé de l’article

  • Les grands modèles de langage (LLM) sont désormais disponibles dans différentes tailles et configurations auprès des fournisseurs d’API cloud. Si cette diversité offre un large éventail de choix, exploiter efficacement ces options pour optimiser les coûts de calcul et les performances reste un défi. Dans ce travail, nous présentons AutoMix, une approche qui route stratégiquement les requêtes vers des LM plus grands en se basant sur la justesse approximative des sorties d’un LM plus petit. Au cœur d’AutoMix se trouve un mécanisme d’auto-vérification en few-shot, qui estime la fiabilité de ses propres sorties sans nécessiter d’entraînement. Comme les vérifications peuvent être bruitées, AutoMix utilise un méta-vérificateur pour affiner la précision de ces évaluations. Les résultats expérimentaux obtenus avec LLAMA2-13/70B sur cinq jeux de données de raisonnement fondé sur le contexte montrent qu’AutoMix dépasse les références existantes, en améliorant le bénéfice incrémental par coût jusqu’à 89 %. Le code et les données sont disponibles sur https://github.com/automix-llm/automix.
    > Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.

Lien vers l’article

https://arxiv.org/abs/2310.12963

Pour aller plus loin

https://x.com/omarsar0/status/1715385477627334718


Planification vidéo-langage / Video Language Planning

Présentation de l’article

  • L’algorithme proposé permet de synthétiser des plans vidéo complexes à long horizon dans différents domaines de la robotique grâce à une procédure de recherche arborescente qui entraîne des modèles vision-langage comme politiques et fonctions de valeur, et des modèles texte-vers-vidéo comme modèles dynamiques.
    > Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.

Résumé de l’article

  • Nous nous intéressons à la possibilité d’effectuer une planification visuelle pour des tâches complexes à long horizon dans l’espace des vidéos générées et du langage, en tirant parti des avancées récentes des grands modèles génératifs préentraînés sur des données à l’échelle d’Internet. À cette fin, nous présentons Video Language Planning (VLP), un algorithme composé d’une procédure de recherche arborescente dans laquelle nous entraînons (i) des modèles vision-langage pour servir à la fois de politiques et de fonctions de valeur, et (ii) des modèles texte-vers-vidéo comme modèles de dynamique. VLP prend en entrée une instruction de tâche à long horizon et l’observation d’image courante, puis produit un long plan vidéo fournissant des spécifications multimodales détaillées (vidéo et langage) décrivant comment accomplir la tâche finale. VLP passe à l’échelle avec l’augmentation du budget de calcul, davantage de temps de calcul produisant de meilleurs plans vidéo, et il est capable de synthétiser des plans vidéo à long horizon dans différents domaines de la robotique, du réagencement multi-objets à la manipulation dextre bi-bras multi-caméra. Les plans vidéo générés peuvent être convertis en actions robotiques réelles via des politiques conditionnées par objectif, conditionnées sur chaque image intermédiaire de la vidéo générée. Les expériences montrent que VLP améliore nettement les taux de réussite sur des tâches à long horizon par rapport aux méthodes précédentes, à la fois sur des robots simulés et sur des robots réels (sur 3 plateformes matérielles).
    > We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).

Lien vers l’article

https://arxiv.org/abs/2310.10625

Pour aller plus loin

https://x.com/du_yilun/status/1714297584842318157

Article original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ff8

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.