[18/03/2024 ~ 24/03/2024] Les principaux articles ML de la semaine (Top ML Papers of the Week)
(discuss.pytorch.kr)- Nous avons traduit automatiquement les articles sur les publications ML publiés chaque semaine par DAIR.AI.
-
Les articles sélectionnés cette semaine semblent, dans l’ensemble, porter largement sur des recherches exploitant les grands modèles de langage (LLMs). Comme le suggèrent en particulier des titres tels que 'Tool Use in LLMs', 'Step-by-Step Comparisons Make LLMs Better Reasoners', 'LLM4Decompile', 'Agent-FLAN', 'LLMs Leak Proprietary Information' et 'Retrieval-Augmented Fine-Tuning', ces travaux semblent couvrir à la fois la diversité des cas d’usage des LLMs, les méthodes d’amélioration de leurs performances, ainsi que des questions de sécurité.
-
Cette tendance peut être vue comme le résultat des efforts menés ces dernières années pour explorer le champ d’application des LLMs dans divers domaines de recherche, à mesure qu’ils ont attiré l’attention dans le domaine de l’IA. En particulier, non seulement les méthodologies visant à traiter plus efficacement des tâches existantes, mais aussi l’amélioration des capacités de raisonnement dans l’usage d’outils ou les processus de résolution de problèmes, l’exploration de nouveaux domaines d’application comme l’ingénierie inverse logicielle, ainsi que les recherches sur la fiabilité et la sécurité des modèles, élargissent les perspectives d’évolution des LLMs. En outre, ces recherches jouent un rôle important pour approfondir la compréhension de la manière dont les LLMs peuvent être utilisés en conditions réelles, ainsi que des problèmes potentiels qui y sont liés.
-
Par ailleurs, des articles comme 'Evolutionary Model Merge' et 'DROID' proposent des recherches sur l’intégration et le processus d’évolution des modèles, montrant qu’un intérêt croissant existe aussi pour les méthodes permettant d’améliorer et d’optimiser en continu les performances des modèles. Cela suggère une orientation importante non seulement pour les LLMs, mais aussi pour le développement et l’intégration de diverses technologies d’IA, et devrait rester un sujet majeur dans les recherches à venir. Ainsi, les articles sélectionnés cette semaine apportent de précieuses perspectives sur les tendances actuelles et les orientations futures de la recherche liée aux LLMs.
Grok-1
Présentation de l’article
- Modèle mixture-of-experts de 314B paramètres, incluant une publication ouverte des poids du modèle de base et de l’architecture réseau ; le modèle MoE active 25 % des poids pour un token donné, et sa date de coupure de préentraînement est octobre 2023.
a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.
Lien vers l’article
Pour aller plus loin
https://discuss.pytorch.kr/t/x-ai-grok/3793/1
https://x.com/ibab_ml/status/1769447989192675748
Optimisation évolutive des recettes de fusion de modèles / Evolutionary Optimization of Model Merging Recipes
Présentation de l’article
- Une approche qui automatise le développement de foundation models en utilisant l’évolution pour combiner des modèles open source ; elle facilite la fusion inter-domaines, permettant à un LLM japonais pour les mathématiques d’atteindre l’état de l’art sur des benchmarks japonais de LLM, et même de surpasser des modèles disposant de bien plus de paramètres, bien qu’il n’ait pas été explicitement entraîné pour ces tâches.
an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.
Résumé(Abstract)
- Cet article présente une nouvelle application des algorithmes évolutionnaires pour automatiser la création de foundation models puissants. Si la fusion de modèles s’est imposée comme une approche prometteuse pour le développement des LLM grâce à son efficacité en coûts, elle repose aujourd’hui sur l’intuition humaine et les connaissances métier, ce qui limite son potentiel. Les auteurs proposent ici une approche évolutive qui dépasse cette limite en découvrant automatiquement des combinaisons efficaces de modèles open source variés, en exploitant leur intelligence collective sans nécessiter d’importantes données d’entraînement supplémentaires ni de ressources de calcul massives. Cette approche opère à la fois dans l’espace des paramètres et dans l’espace des flux de données, ce qui permet une optimisation allant au-delà des seuls poids des modèles individuels. Elle facilite même les fusions inter-domaines, en générant par exemple des modèles comme un LLM japonais doté de capacités de raisonnement mathématique. Fait remarquable, ce Japanese Math LLM a atteint l’état de l’art sur une variété de benchmarks japonais de LLM bien établis, et a même surpassé des modèles disposant de bien plus de paramètres, alors même qu’il n’avait pas été explicitement entraîné pour ce type de tâches. En outre, un VLM japonais sensible aux spécificités culturelles, généré grâce à cette approche, a démontré son efficacité pour décrire des contenus propres à la culture japonaise, en surpassant les précédents VLM japonais. Ce travail ne se contente pas de reverser de nouveaux modèles state-of-the-art à la communauté open source ; il introduit aussi un nouveau paradigme de composition automatisée de modèles, ouvrant la voie à l’exploration d’approches alternatives et efficaces pour le développement de foundation models.
We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.
Lien vers l’article
https://arxiv.org/abs/2403.13187
Pour aller plus loin
https://x.com/SakanaAILabs/status/1770613032198279663
TacticAI : un assistant IA pour les tactiques de football / TacticAI: an AI assistant for football tactics
Présentation de l’article
- Système d’assistance par IA pour les tactiques de football, développé et évalué en collaboration avec des experts métier du Liverpool FC, qui offre aux entraîneurs un moyen d’échantillonner et d’explorer des configurations alternatives de joueurs pour les routines de corner afin de sélectionner la tactique ayant la plus forte probabilité de succès ; les propositions du modèle de TacticAI sont préférées aux tactiques existantes dans 90 % des cas et fournissent un système efficace de recherche de corners.
an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.
Résumé de l’article (Abstract)
- Identifier les schémas clés des tactiques mises en œuvre par les équipes adverses et développer des réponses efficaces est au cœur du football moderne. Cependant, le faire de manière algorithmique reste un défi de recherche non résolu. Pour répondre à ce besoin non satisfait, Unity propose TacticAI, un assistant IA pour les tactiques de football développé et évalué en étroite collaboration avec des experts métier du Liverpool FC. Les travaux se concentrent sur l’analyse des corners, car ils offrent aux entraîneurs les occasions les plus directes d’intervention et d’amélioration. TacticAI intègre à la fois une composante prédictive et une composante générative, permettant aux entraîneurs d’échantillonner et d’explorer efficacement des configurations alternatives de joueurs pour chaque routine de corner, puis de sélectionner celles présentant la plus forte probabilité de succès. Unity valide TacticAI sur plusieurs tâches de référence pertinentes : prédiction des receveurs et des tentatives de tir, ainsi que recommandation d’ajustements de position des joueurs. L’utilité de TacticAI a été validée par une étude qualitative menée avec des experts du football au Liverpool FC. Les résultats montrent que les propositions du modèle de TacticAI sont non seulement indiscernables des tactiques réelles, mais aussi préférées aux tactiques existantes dans 90 % des cas, tout en offrant un système efficace de recherche de corners. TacticAI a pu obtenir ces résultats malgré la disponibilité limitée de données de référence gold standard, en atteignant une bonne efficacité des données grâce au geometric deep learning.
Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.
Lien vers l’article
https://www.nature.com/articles/s41467-024-45965-x
Pour aller plus loin
https://discuss.pytorch.kr/t/tacticai-ai-feat-deepmind-fc/3841
https://x.com/GoogleDeepMind/status/1770121564085707082
Utilisation d’outils dans les LLM / Tool Use in LLMs
Présentation de l’article
- Fournit une vue d’ensemble de l’utilisation d’outils dans les LLM, y compris une définition formelle du paradigme de tool use, les scénarios dans lesquels les LLM exploitent l’usage d’outils, ainsi que les types de tâches pour lesquels cette approche fonctionne bien ; l’article propose également une analyse de l’utilisation complexe d’outils et résume les bancs d’essai ainsi que les métriques d’évaluation dans l’ensemble des travaux sur l’outillage des LM.
provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.
Résumé de l’article (Abstract)
Les modèles de langage (LM) sont puissants, mais servent principalement à la génération de texte. Les outils ont considérablement amélioré leurs performances pour les tâches qui exigent des compétences complexes. Cependant, de nombreux travaux emploient le terme « outil » de façons différentes, ce qui soulève une question : qu’est-ce qu’un outil, au juste ? Ensuite, où et comment les outils aident-ils les LM ? Dans cette enquête, nous proposons une définition unifiée des outils en tant que programmes externes utilisés par les LM, et menons une revue systématique des scénarios et approches d’outillage des LM. Sur cette base, nous étudions empiriquement l’efficacité de diverses méthodes d’outillage en mesurant les ressources de calcul requises et les gains de performance sur différents benchmarks, et mettons en avant plusieurs défis ainsi que des pistes de recherche futures dans ce domaine.
Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.
Lien vers l’article
https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf
Pour aller plus loin
https://x.com/omarsar0/status/1770497515898433896
RankPrompt : faire des modèles de langage de meilleurs raisonneurs grâce à des comparaisons étape par étape / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners
Présentation de l’article
- Proposition de RankPrompt, une méthode de prompting qui permet aux LLM d’auto-classer leurs réponses sans ressources supplémentaires. Cette approche d’auto-classement ordonne les candidats via une évaluation comparative systématique, étape par étape. Elle semble bien fonctionner car elle exploite la capacité des LLM à générer des chaînes de comparaisons comme démonstrations. RankPrompt améliore fortement les performances de raisonnement de ChatGPT et GPT-4 sur de nombreuses tâches de raisonnement arithmétique et de bon sens.
proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.
Résumé de l’article (Abstract)
- Les grands modèles de langage (LLM) ont atteint des performances impressionnantes sur diverses tâches de raisonnement. Cependant, même les LLM les plus avancés comme ChatGPT restent sujets à des erreurs logiques pendant leur processus de raisonnement. Les solutions existantes, comme le déploiement de vérificateurs spécifiques à une tâche ou le vote entre plusieurs trajectoires de raisonnement, nécessitent soit un important volume d’annotations humaines, soit échouent dans des scénarios où les réponses sont incohérentes. Pour répondre à ces défis, les auteurs introduisent RankPrompt, une nouvelle méthode de prompting qui permet aux LLM d’auto-classer leurs réponses sans ressources supplémentaires. RankPrompt décompose le problème de classement en une série de comparaisons entre des réponses variées, en exploitant les capacités intrinsèques des LLM à générer des chaînes de comparaison comme exemples contextuels. Les expériences menées sur 11 tâches de raisonnement arithmétique et de bon sens montrent que RankPrompt améliore significativement les performances de raisonnement de ChatGPT et GPT-4, avec des gains pouvant atteindre 13 %. En outre, RankPrompt excelle dans les évaluations automatiques basées sur des LLM pour des tâches ouvertes, avec un alignement sur les jugements humains dans 74 % des cas sur le jeu de données AlpacaEval. Il montre également une bonne robustesse face aux variations de l’ordre et de la cohérence des réponses. Dans l’ensemble, ces résultats valident RankPrompt comme une méthode efficace pour obtenir des retours de haute qualité à partir de modèles de langage.
Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.
Lien vers l’article
https://arxiv.org/abs/2403.12373
Pour aller plus loin
https://x.com/omarsar0/status/1770492690129359135
LLM4Decompile : décompiler du code binaire avec de grands modèles de langage / LLM4Decompile: Decompiling Binary Code with Large Language Models
Présentation de l’article
- Une famille de LLM de décompilation en accès ouvert, allant de 1 à 33 milliards de paramètres ; ces modèles sont entraînés sur 4 milliards de tokens de code source C et le code assembleur correspondant ; les auteurs présentent également Decompile-Eval, un jeu de données destiné à évaluer la recompilabilité et la réexécutabilité pour la décompilation, ainsi qu’une évaluation sous l’angle de la sémantique des programmes ; LLM4Decompile démontre la capacité à décompiler 21 % du code assembleur, soit une amélioration de 50 % par rapport à GPT-4.
a family of open-access decompilation LLMs ranging from 1B to 33B parameters; these models are trained on 4 billion tokens of C source code and corresponding assembly code; the authors also introduce Decompile-Eval, a dataset for assessing re-compatibility and re-executability for decompilation and evaluating with a perspective of program semantics; LLM4Decompile demonstrates the capability to decompile 21% of the assembly code, achieving a 50% improvement over GPT-4.
Résumé de l’article (Abstract)
- La décompilation vise à restaurer du code compilé en code source lisible par l’humain, mais se heurte à des difficultés liées à des détails comme les noms et la structure. Les grands modèles de langage (LLM) montrent un fort potentiel pour les tâches de programmation, ce qui motive leur application à la décompilation. Cependant, il n’existe aucun LLM open source pour la décompilation. En outre, les systèmes existants d’évaluation de la décompilation considèrent principalement la précision au niveau des tokens et ignorent largement l’exécutabilité du code, qui constitue pourtant la caractéristique la plus importante d’un programme. Nous publions donc les premiers LLM de décompilation en accès ouvert, de 1 à 33 milliards de paramètres, préentraînés sur 4 milliards de tokens de code source C et le code assembleur correspondant. Ces LLM open source peuvent servir de références pour les développements futurs dans le domaine. Afin d’assurer une évaluation pratique des programmes, nous introduisons Decompile-Eval, le premier jeu de données qui prend en compte la recompilabilité et la réexécutabilité pour la décompilation. Ce benchmark souligne l’importance d’évaluer les modèles de décompilation du point de vue de la sémantique des programmes. Les expériences indiquent que notre LLM4Decompile a démontré la capacité à décompiler correctement 21 % du code assembleur, ce qui représente une amélioration de 50 % par rapport à GPT-4. Notre code, notre jeu de données et nos modèles sont publiés sur https://github.com/albertan017/LLM4Decompile
Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile
Lien vers l’article
https://arxiv.org/abs/2403.05286v1
Pour aller plus loin
https://discuss.pytorch.kr/t/llm4decompile-llm-decompile/3809
https://github.com/albertan017/LLM4Decompile
https://x.com/omarsar0/status/1771218791399092351
Agent-FLAN : conception des données et méthodes de tuning efficace d’agents pour les grands modèles de langage / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
Présentation de l’article
- Conçoit des données et des méthodes pour affiner efficacement des modèles de langage destinés à des agents, sous le nom d’Agent-FLAN ; cela permet à Llama2-7B de surpasser de 3,5 % les meilleures approches précédentes sur divers jeux de données d’évaluation d’agents ; Agent-FLAN atténue fortement les problèmes d’hallucination et améliore de façon constante les capacités d’agent des LLM lors du passage à l’échelle de la taille des modèles, tout en améliorant globalement le LLM ;
Designs data and methods to effectively fine-tune language models for agents, referred to as Agent-FLAN; this enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets; Agent-FLAN greatly alleviates the hallucination issues and consistently improves the agent capability of LLMs when scaling model sizes while generally improving the LLM;
Résumé de l’article (Abstract)
- Les grands modèles de langage (LLM) open source ont remporté un grand succès dans diverses tâches de NLP, mais ils restent nettement inférieurs aux modèles basés sur API lorsqu’ils agissent comme agents. La manière d’intégrer des capacités d’agent dans des LLM généralistes est devenue un problème crucial et urgent. Cet article présente d’abord trois observations clés : (1) le corpus actuel d’entraînement des agents mêle à la fois le suivi de format et le raisonnement d’agent, ce qui l’éloigne fortement de la distribution des données de pré-entraînement ; (2) les LLM présentent des vitesses d’apprentissage différentes selon les capacités requises par les tâches d’agent ; et (3) les approches actuelles ont des effets secondaires lorsqu’elles améliorent les capacités d’agent en introduisant des hallucinations. Sur la base de ces constats, les auteurs proposent Agent-FLAN afin d’affiner efficacement des modèles de langage pour les agents. Grâce à une décomposition soignée et à une refonte du corpus d’entraînement, Agent-FLAN permet d’obtenir des performances supérieures de 3,5% aux précédents meilleurs résultats sur divers jeux de données d’évaluation d’agents. Grâce à des échantillons négatifs construits de manière exhaustive, Agent-FLAN atténue fortement les problèmes d’hallucination sur la base de benchmarks d’évaluation établis. En outre, il améliore continuellement les capacités d’agent des LLM à mesure que la taille des modèles augmente, tout en améliorant légèrement leurs capacités générales. Le code est disponible sur https://github.com/InternLM/Agent-FLAN.
Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.
Lien vers l’article
https://arxiv.org/abs/2403.12881v1
Pour aller plus loin
https://github.com/InternLM/Agent-FLAN
https://x.com/_akhaliq/status/1770302813152690259
Divulgation d’informations propriétaires via les logits de LLM protégés par API / Logits of API-Protected LLMs Leak Proprietary Information
Présentation de l’article
- Montre qu’il est possible d’apprendre une grande quantité d’informations non publiques sur un LLM protégé par API à l’aide des logits. Avec un nombre relativement faible de requêtes API, cette approche estime la taille de l’embedding de
gpt-3.5-turbod’OpenAI à environ 4096, et l’article propose également des garde-fous contre les attaques utilisées.shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.
Résumé de l’article (Abstract)
- La commercialisation des grands modèles de langage (LLM) a généralisé une pratique consistant à n’offrir qu’un accès de haut niveau via API à des modèles propriétaires. Cette étude montre que, même avec des hypothèses prudentes sur l’architecture du modèle, il est possible d’apprendre une quantité étonnamment importante d’informations non publiques sur un LLM protégé par API avec un nombre relativement faible de requêtes API (par exemple, pour moins de 1 000 dollars dans le cas de
gpt-3.5-turbod’OpenAI). Le point central de ces résultats est que la plupart des LLM modernes souffrent d’un goulot d’étranglement softmax, qui restreint les sorties du modèle à un sous-espace linéaire de l’espace de sortie complet. Les auteurs montrent que cela se prête à la construction d’une image du modèle ou d’une signature du modèle, ce qui permet, à coût raisonnable, plusieurs capacités : découvrir efficacement la taille cachée du LLM, obtenir les sorties sur l’ensemble du vocabulaire, détecter et distinguer différentes mises à jour du modèle, identifier le LLM source à partir d’une seule sortie complète du LLM, et même estimer les paramètres de la couche de sortie. Les investigations empiriques confirment l’efficacité de ces méthodes, qui ont notamment permis d’estimer la taille d’embedding degpt-3.5-turbod’OpenAI à environ 4 096. Enfin, les auteurs discutent des moyens pour les fournisseurs de LLM de se prémunir contre ces attaques, ainsi que de la manière dont ces capacités pourraient être considérées comme une fonctionnalité plutôt qu’un bug, en renforçant la transparence et la responsabilité.The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.
Lien vers l’article
https://arxiv.org/abs/2403.09539
Pour aller plus loin
https://x.com/DimitrisPapail/status/1768654579254579385
DROID : jeu de données à grande échelle pour la manipulation robotique en conditions réelles / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset
Présentation de l’article
- Un jeu de données open source à grande échelle pour entraîner et concevoir des politiques de manipulation robotique plus performantes et plus robustes, comprenant 76 000 trajectoires de démonstration collectées dans 564 scènes et 86 tâches ; l’entraînement avec DROID peut conduire à des politiques plus performantes et à une meilleure généralisation.
an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.
Résumé de l’article (Abstract)
- La création de jeux de données de manipulation robotique vastes, diversifiés et de haute qualité constitue une étape clé vers des politiques de manipulation robotique plus performantes et plus robustes. Cependant, produire de tels jeux de données reste difficile : collecter des données de manipulation robotique dans des environnements variés pose des problèmes logistiques et de sécurité et exige des investissements importants en matériel et en main-d’œuvre. En conséquence, même les politiques de manipulation robotique les plus générales aujourd’hui sont majoritairement entraînées sur des données recueillies dans un petit nombre d’environnements, avec une diversité limitée de scènes et de tâches. Cette étude présente DROID (Distributed Robot Interaction Dataset), un jeu de données diversifié de manipulation robotique comprenant 76 000 trajectoires de démonstration, soit 350 heures de données d’interaction, collectées dans 564 scènes et 84 tâches par 50 collecteurs de données en Amérique du Nord, en Asie et en Europe sur une période de 12 mois. Les auteurs démontrent qu’un entraînement avec DROID conduit à des politiques offrant de meilleures performances et une capacité de généralisation améliorée. L’ensemble complet du jeu de données, le code d’apprentissage des politiques et un guide détaillé pour reproduire leur configuration matérielle robotique sont publiés en open source.
The creation of large, diverse, high-quality robot manipulation datasets is an important stepping stone on the path toward more capable and robust robotic manipulation policies. However, creating such datasets is challenging: collecting robot manipulation data in diverse environments poses logistical and safety challenges and requires substantial investments in hardware and human labour. As a result, even the most general robot manipulation policies today are mostly trained on data collected in a small number of environments with limited scene and task diversity. In this work, we introduce DROID (Distributed Robot Interaction Dataset), a diverse robot manipulation dataset with 76k demonstration trajectories or 350 hours of interaction data, collected across 564 scenes and 84 tasks by 50 data collectors in North America, Asia, and Europe over the course of 12 months. We demonstrate that training with DROID leads to policies with higher performance and improved generalization ability. We open source the full dataset, policy learning code, and a detailed guide for reproducing our robot hardware setup.
Lien vers l’article
https://arxiv.org/abs/2403.12945
Pour aller plus loin
https://x.com/chelseabfinn/status/1770311755140575413
RAFT : adapter les modèles de langage au RAG spécifique à un domaine / RAFT: Adapting Language Model to Domain Specific RAG
Présentation de l'article
- En combinant les avantages du RAG et du fine-tuning, on améliore la capacité d’un modèle à répondre à des questions dans des contextes « open-book » intradomaine ; l’associer à des réponses de style CoT de RAFT aide aussi à améliorer le raisonnement.
combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.
Résumé de l'article (Abstract)
- Le pré-entraînement de grands modèles de langage (LLM) sur de vastes corpus de données textuelles est désormais un paradigme standard. Lorsqu’on utilise ces LLM pour de nombreuses applications en aval, il est courant d’y intégrer en plus de nouvelles connaissances (par exemple des actualités urgentes ou des connaissances de domaine privées) dans le modèle pré-entraîné, soit via des prompts basés sur le RAG, soit via le fine-tuning. Cependant, la méthodologie optimale permettant au modèle d’acquérir ces nouvelles connaissances reste une question ouverte. Dans cet article, nous présentons Retrieval Augmented FineTuning (RAFT), une recette d’entraînement qui améliore la capacité du modèle à répondre à des questions dans des contextes « open-book » intradomaine. Dans RAFT, étant donné une question et un ensemble de documents récupérés, nous entraînons le modèle à ignorer les documents qui n’aident pas à répondre à la question, que nous appelons des documents distracteurs. RAFT y parvient en citant textuellement la bonne séquence issue du document pertinent qui aide à répondre à la question. Combiné à des réponses de style chain-of-thought de RAFT, cela contribue à améliorer la capacité de raisonnement du modèle. Dans le cadre du RAG spécifique à un domaine, RAFT améliore de manière constante les performances du modèle sur les jeux de données PubMed, HotpotQA et Gorilla, et propose une recette de post-entraînement pour améliorer des LLM pré-entraînés vers un RAG intradomaine. Le code et la démo de RAFT sont disponibles en open source sur github.com/ShishirPatil/gorilla.
Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.
Lien vers l'article
https://arxiv.org/abs/2403.10131
Pour aller plus loin
https://discuss.pytorch.kr/t/raft-rag-llm-rag-finetuning/3842
https://x.com/cwolferesearch/status/1770912695765660139
Texte original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-01b
Ce texte a été compilé à l’aide d’un modèle GPT et peut donc contenir des erreurs ; merci de consulter également le texte original en bas de l’article. Si vous remarquez un passage maladroit ou incorrect pendant votre lecture, merci de nous le signaler en commentaire.
⚠️Publicité⚠️ : Ce texte compilé par le groupe d’utilisateurs coréen de PyTorch vous a-t-il été utile ? Si vous vous inscrivez comme membre, nous vous enverrons les principaux articles par e-mail ! (Le réglage par défaut est Weekly, mais il est aussi possible de passer à Daily.)
Aucun commentaire pour le moment.