[2023/09/04 ~ 09/10] Principaux articles ML de la semaine (Top ML Papers of the Week)
(discuss.pytorch.kr)Vue d’ensemble
J’ai traduit automatiquement l’article hebdomadaire de DAIR.AI consacré aux publications ML.
Cette semaine, les articles portent principalement sur des technologies d’IA centrées sur les Transformers et le Reinforcement Learning.
Les transformers en tant que machines à vecteurs de support / Transformers as Support Vector Machines
Présentation de l’article
- Les auteurs montrent que la géométrie d’optimisation de l’auto-attention dans les transformers est liée à des problèmes de SVM à marge dure, et constatent que la descente de gradient appliquée sans arrêt anticipé conduit à une régularisation implicite et à la convergence de l’auto-attention ; ce travail pourrait approfondir la compréhension des modèles de langage.
Finds that the optimization geometry of self-attention in transformers exhibits a connection to hard-margin svm problems; also finds that gradient descent applied without early-stopping leads to implicit regularization and convergence of self-attention; this work has the potential to deepen the understanding of language models.
Résumé de l’article
- Depuis son apparition dans "Attention Is All You Need", l’architecture transformer a conduit à des avancées révolutionnaires en NLP. La couche d’attention au sein du transformer prend en entrée une séquence de tokens $X$ et les fait interagir via des similarités par paires calculées comme softmax $(XQK^\top X^\top)$, où $(K,Q)$ sont les paramètres clé-requête entraînables. Dans ce travail, les auteurs établissent une équivalence formelle entre la géométrie d’optimisation de l’auto-attention et un problème de SVM à marge dure qui sépare les tokens d’entrée optimaux des tokens non optimaux à l’aide de contraintes linéaires sur les produits externes des paires de tokens. Ce formalisme permet de caractériser le biais implicite des transformers à une couche optimisés par descente de gradient : (1) l’optimisation de la couche d’attention avec une régularisation tendant vers zéro, paramétrée par $(K,Q)$, converge en direction vers une solution de SVM minimisant la norme nucléaire du paramètre combiné $W=KQ^\top$. À l’inverse, un paramétrage direct par $W$ minimise un objectif en norme de Frobenius. Les auteurs caractérisent cette convergence en soulignant qu’elle peut se produire vers des directions localement optimales plutôt que globales. (2) En complément, ils démontrent la convergence directionnelle locale/globale de la descente de gradient sous des conditions géométriques appropriées. Surtout, ils montrent que la surparamétrisation favorise la convergence globale en garantissant la faisabilité du problème de SVM et un paysage d’optimisation favorable, dépourvu de points stationnaires. (3) Bien que leur théorie s’applique principalement aux têtes de prédiction linéaires, ils proposent une équivalence plus générale avec les SVM qui permet de prédire le biais implicite avec des têtes non linéaires. Leurs résultats s’appliquent à des jeux de données arbitraires et leur validité est vérifiée expérimentalement. Ils présentent également plusieurs problèmes ouverts et pistes de recherche. Selon eux, ces résultats invitent à interpréter les transformers comme une hiérarchie de SVM séparant et sélectionnant les tokens optimaux.
Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax $(XQK^\top X^\top)$ , where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.
Lien vers l’article
https://arxiv.org/abs/2308.16898
RLAIF : étendre le Reinforcement Learning from Human Feedback avec le feedback de l’IA / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
Présentation de l’article
- Les auteurs testent si RLAIF constitue une alternative pertinente à RLHF en comparant l’efficacité du feedback humain et du feedback IA ; ils utilisent différentes techniques pour générer des labels IA et mènent des études de passage à l’échelle afin d’identifier les meilleurs réglages pour produire des préférences alignées. Leur principal résultat est que, pour la tâche de résumé, les évaluateurs humains préfèrent les générations de RLAIF et de RLHF à celles d’un modèle SFT de référence dans environ 70 % des cas. #rlhf
Tests whether rlaif is a suitable alternative to rlhf by comparing the efficacy of human vs. ai feedback; uses different techniques to generate ai labels and conduct scaling studies to report optimal settings for generating aligned preferences; the main finding is that on the task of summarization, human evaluators prefer generations from both rlaif and rlhf over a baseline sft model in ∼70% of cases.
Résumé de l’article
- Le reinforcement learning from human feedback (RLHF) est efficace pour aligner les grands modèles de langage (LLM) sur les préférences humaines, mais la collecte de labels de préférences humaines de haute qualité constitue un goulot d’étranglement majeur. Une comparaison directe entre le RLHF et le RLAIF (RL from AI Feedback), une technique où les préférences sont annotées par un LLM prêt à l’emploi à la place d’humains, montre que les deux approches apportent des améliorations similaires. Sur la tâche de résumé, les évaluateurs humains ont préféré les générations issues du RLAIF et du RLHF au modèle de base supervisé fine-tuné dans environ 70 % des cas. En outre, lorsqu’on leur a demandé d’évaluer des résumés RLAIF face à des résumés RLHF, les humains ont préféré les deux à taux égal. Ces résultats suggèrent que le RLAIF peut atteindre des performances de niveau humain et offrir une solution potentielle aux limites de passage à l’échelle du RLHF.
> Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.
Lien vers l’article
https://arxiv.org/abs/2309.00267
Pour aller plus loin
https://twitter.com/omarsar0/status/1699102486928265530
GPT peut résoudre des problèmes mathématiques sans calculatrice / GPT Can Solve Mathematical Problems Without a Calculator
Présentation de l’article
- Les auteurs montrent qu’avec suffisamment de données d’entraînement, un modèle de langage 2b peut effectuer des opérations arithmétiques à plusieurs chiffres avec une précision de 100 % sans fuite de données, et qu’après fine-tuning de GLM-10b sur un dataset incluant des opérations arithmétiques multi-étapes supplémentaires et des problèmes de mathématiques détaillés, il peut rivaliser avec GPT-4 sur un jeu de test de 5 000 problèmes de mathématiques en chinois. #mathematical-reasoning #wizardmath
> Shows that with sufficient training data, a 2b language model can perform multi-digit arithmetic operations with 100% accuracy and without data leakage; it’s also competitive with gpt-4 on 5k samples chinese math problem test set when fine-tuned from glm-10b on a dataset containing additional multi-step arithmetic operations and detailed math problems.
Résumé de l’article
- Les travaux précédents supposaient généralement que les grands modèles de langage étaient incapables d’effectuer avec précision des opérations arithmétiques sans recourir à des outils de calculatrice, en particulier les multiplications de plus de 8 chiffres ainsi que les opérations impliquant des décimaux et des fractions. Cet article vise à remettre en cause cette idée reçue. Avec suffisamment de données d’entraînement, un modèle de langage de 2 milliards de paramètres peut exécuter avec précision des opérations arithmétiques à plusieurs chiffres avec une exactitude proche de 100 % sans fuite de données, surpassant largement GPT-4, dont la précision sur les multiplications à plusieurs chiffres n’est que de 4,3 %. Les auteurs montrent également que leur MathGLM, fine-tuné à partir de GLM-10B sur un dataset enrichi d’opérations arithmétiques multi-étapes et de problèmes de mathématiques décrits en texte, atteint des performances similaires à GPT-4 sur un jeu de test chinois de 5 000 problèmes de mathématiques.
> Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.
Lien vers l’article
https://arxiv.org/abs/2309.03241
Pour aller plus loin
https://twitter.com/_akhaliq/status/1699951105927512399
Les grands modèles de langage comme optimiseurs / Large Language Models as Optimizers
Présentation de l’article
- Une approche dans laquelle le problème d’optimisation est décrit en langage naturel, puis un LLM reçoit l’instruction de générer itérativement de nouvelles solutions à partir du problème défini et des solutions déjà trouvées ; à chaque étape d’optimisation, l’objectif est de produire de nouveaux prompts qui augmentent la précision en test en s’appuyant sur la trajectoire des prompts générés précédemment ; les prompts optimisés surpassent les prompts conçus par des humains sur GSM8K et Big-Bench Hard, parfois de plus de 50 %. #optimizing
> An approach where the optimization problem is described in natural language; an llm is then instructed to iteratively generate new solutions based on the defined problem and previously found solutions; at each optimization step, the goal is to generate new prompts that increase test accuracy based on the trajectory of previously generated prompts; the optimized prompts outperform human-designed prompts on gsm8k and big-bench hard, sometimes by over 50%
Résumé de l’article
- L’optimisation est omniprésente. Si les algorithmes fondés sur les dérivées ont été des outils puissants pour divers problèmes, l’absence de gradient pose des difficultés dans de nombreuses applications du monde réel. Cette étude propose OPRO (Optimization by PROmpting), une approche simple et efficace qui utilise les grands modèles de langage (LLM) comme outils d’optimisation, en décrivant la tâche d’optimisation en langage naturel. À chaque étape de l’optimisation, le LLM génère de nouvelles solutions à partir d’un prompt contenant les solutions précédemment générées et leurs valeurs, puis ces nouvelles solutions sont évaluées et ajoutées au prompt pour l’étape suivante. Les auteurs présentent d’abord OPRO sur la régression linéaire et le problème du voyageur de commerce, avant de passer à l’optimisation de prompts, dont l’objectif est de trouver les instructions maximisant la précision de la tâche. À l’aide de différents LLM, ils montrent que les meilleurs prompts optimisés par OPRO surpassent les prompts conçus manuellement, avec jusqu’à 8 % de mieux sur GSM8K et jusqu’à 50 % sur les tâches Big-Bench Hard.
> Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.
Lien vers l’article
https://arxiv.org/abs/2309.03409
Pour aller plus loin
https://twitter.com/omarsar0/status/1700249035456598391
ImageBind-LLM: réglage d’instructions multimodal / ImageBind-LLM: Multi-modality Instruction Tuning
Présentation de l’article
- Présentation de imagebind-llm, une méthode de réglage d’instructions multimodal pour les LLM via ImageBind. Ce modèle peut répondre à des instructions issues de modalités variées, comme l’audio, les nuages de points 3D et la vidéo, tout en conservant une haute qualité de génération de langage ; cela est rendu possible en alignant l’encodeur visuel d’ImageBind avec un LLM via un réseau de liaison entraînable. #imagebind
> Presents imagebind-llm, a multimodality instruction tuning method of llms via imagebind; this model can respond to instructions of diverse modalities such as audio, 3d point clouds, and video, including high language generation quality; this is achieved by aligning imagebind’s visual encoder with an llm via learnable bind network.
Résumé de l’article
- Présentation d’ImageBind-LLM, une méthode d’instruction tuning multimodal pour les grands modèles de langage (LLM) via ImageBind. Alors que les travaux précédents se concentraient surtout sur l’instruction tuning du langage et de l’image, ImageBind-LLM peut répondre à des conditions multimodales — notamment l’audio, les nuages de points 3D, la vidéo et les opérations dans l’espace d’embedding — en s’appuyant uniquement sur un apprentissage d’alignement image-texte. Pendant l’apprentissage, un réseau de liaison entraînable est adopté pour aligner l’espace d’embedding entre LLaMA et l’encodeur d’images d’ImageBind. Les caractéristiques d’image transformées par ce réseau sont ensuite ajoutées aux tokens de mots dans toutes les couches de LLaMA, ce qui injecte progressivement des instructions visuelles via un mécanisme de gating sans attention et initialisé à zéro. Grâce à l’embedding conjoint d’ImageBind, un simple apprentissage image-texte permet au modèle de démontrer d’excellentes capacités de suivi d’instructions multimodales. Lors de l’inférence, les entrées multimodales sont envoyées vers les encodeurs ImageBind correspondants, puis traitées par le modèle de cache visuel proposé pour renforcer davantage les embeddings intermodaux. Ce modèle de cache, qui ne nécessite pas d’apprentissage, effectue une recherche parmi 3 millions de caractéristiques d’image extraites par ImageBind, ce qui atténue efficacement l’écart de modalité entre apprentissage et inférence. Cette approche permet notamment à ImageBind-LLM de répondre à des instructions issues de formats variés tout en affichant une qualité de génération de langage significative. Le code est disponible sur https://github.com/OpenGVLab/LLaMA-Adapter.
> We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
Lien vers l’article
https://arxiv.org/abs/2309.03905
Pour aller plus loin
https://twitter.com/arankomatsuzaki/status/1699947731333345750
Expliquer le grokking par l’efficacité des circuits / Explaining grokking through circuit efficiency
Présentation de l’article
- Cet article vise à expliquer le comportement de grokking dans les réseaux de neurones, et prédit notamment deux nouveaux comportements qu’il met en évidence. Le premier est l’ungrokking, où un modèle passe d’une généralisation parfaite à la mémorisation lorsqu’il continue d’être entraîné sur un jeu de données plus petit que le seuil critique. Le second est le semi-grokking, où un réseau montre une transition de type grokking lorsqu’on entraîne un réseau initialisé aléatoirement sur une taille de jeu de données critique. #grokking
> Aims to explain grokking behavior in neural networks; specifically, it predicts and shows two novel behaviors: the first is ungrokking where a model goes from perfect generalization to memorization when trained further on a smaller dataset than the critical threshold; the second is semi-grokking where a network demonstrates grokking-like transition when training a randomly initialized network on the critical dataset size.
Résumé de l’article
- L’un des casse-tête les plus surprenants de la généralisation des réseaux de neurones est le grokking : un réseau avec une précision d’entraînement parfaite mais une faible capacité de généralisation finit, avec un entraînement supplémentaire, par atteindre une généralisation parfaite. Nous proposons que le grokking survienne lorsqu’une tâche admet à la fois une solution de généralisation et une solution de mémorisation, la solution de généralisation étant plus lente à apprendre mais plus efficace, en produisant des logits plus grands avec la même norme des paramètres. Nous formulons l’hypothèse que les circuits de mémorisation deviennent plus inefficaces à mesure que le jeu de données d’entraînement grandit, contrairement aux circuits de généralisation, ce qui suggère l’existence d’une taille critique du jeu de données où mémorisation et généralisation sont aussi efficaces l’une que l’autre. Nous formulons et confirmons quatre nouvelles prédictions sur le grokking, apportant des preuves importantes en faveur de notre explication. Plus frappant encore, nous démontrons deux comportements nouveaux et surprenants : l’ungrokking, dans lequel un réseau régresse d’une précision de test parfaite à une faible précision de test, et le semi-grokking, dans lequel un réseau présente une généralisation retardée vers une précision de test partielle plutôt que parfaite.
> One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.
Lien vers l’article
https://arxiv.org/abs/2309.02390
Pour aller plus loin
https://twitter.com/VikrantVarma_/status/1699823229307699305
Tromperie de l’IA : enquête sur les exemples, les risques et les solutions potentielles / AI Deception: A Survey of Examples, Risks, and Potential Solutions
Présentation de l’article
- Propose une enquête sur des exemples empiriques de tromperie de l’IA. #survey paper
> Provides a survey of empirical examples of ai deception.
Résumé de l’article
- Cet article soutient qu’un éventail de systèmes d’IA actuels a appris à tromper les humains. Nous définissons la tromperie comme l’induction systématique de fausses croyances dans la poursuite d’un résultat autre que la vérité. Nous examinons d’abord des exemples empiriques de tromperie de l’IA, en abordant à la fois des systèmes d’IA spécialisés (y compris CICERO de Meta) conçus pour des situations compétitives spécifiques, et des systèmes d’IA à usage général (comme les grands modèles de langage). Nous détaillons ensuite plusieurs risques liés à la tromperie de l’IA, tels que la fraude, la manipulation électorale et la perte de contrôle sur les systèmes d’IA. Enfin, nous présentons brièvement plusieurs solutions potentielles aux problèmes posés par la tromperie de l’IA. Premièrement, les cadres réglementaires devraient imposer de solides exigences d’évaluation des risques aux systèmes d’IA capables de tromper ; deuxièmement, les décideurs publics devraient mettre en place des lois de type bot-or-not ; enfin, ils devraient faire du financement des recherches pertinentes une priorité, notamment pour des outils permettant de détecter la tromperie de l’IA et de rendre les systèmes d’IA moins trompeurs. Les décideurs, les chercheurs et le grand public doivent agir de manière proactive pour empêcher que la tromperie de l’IA ne déstabilise les fondements communs de notre société.
> This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.
Lien vers l’article
https://arxiv.org/abs/2308.14752
Pour aller plus loin
https://twitter.com/DanHendrycks/status/1699437800301752332
FLM-101B : un LLM ouvert et comment l’entraîner avec un budget de 100 000 $ / FLM-101B: An Open LLM and How to Train It with $100K Budget
Présentation de l’article
- Dans le cas de FLM-101B, un nouveau LLM open source doté de 101 milliards de paramètres et entraîné sur 0,31 To de tokens pour un budget de 100 000 dollars, les auteurs analysent différentes stratégies de croissance et adoptent une stratégie agressive consistant à augmenter progressivement le nombre de paramètres, d’un petit modèle vers un grand, ce qui permet au final de réduire les coûts de plus de 50 %. Autrement dit, trois modèles sont entraînés séquentiellement, chacun héritant des connaissances de son prédécesseur plus petit (16b -> 51b -> 101b) tout en obtenant des performances compétitives.
> A new open llm called flm-101b with 101b parameters and 0.31tb tokens which can be trained on a $100k budget; the authors analyze different growth strategies, growing the number of parameters from smaller sizes to large ones. they ultimately employ an aggressive strategy that reduces costs by >50%. in other words, three models are trained sequentially with each model inheriting knowledge from its smaller predecessor (16b -> 51b -> 101b) while achieving competitive performance.
Résumé de l’article
- Les grands modèles de langage (LLM) ont connu un succès remarquable en traitement du langage naturel et dans les tâches multimodales. Malgré ces succès, le développement de grands modèles de langage se heurte à deux défis majeurs : (i) un coût de calcul élevé ; (ii) la difficulté de mener des évaluations justes et objectives. Les LLM sont extrêmement coûteux à entraîner, au point que seules quelques grandes entreprises peuvent se le permettre, ce qui limite les opportunités de recherche et d’application. Cela souligne l’importance d’un entraînement des LLM rentable. Dans cet article, les auteurs utilisent une stratégie de croissance pour réduire significativement le coût d’entraînement des LLM. Ils montrent qu’un LLM doté de 101 milliards de paramètres et entraîné sur 0,31 To de tokens peut être formé avec un budget de 100 000 dollars. Ils adoptent également un paradigme d’évaluation systématique du QI des LLM, en complément des évaluations existantes davantage centrées sur les capacités liées aux connaissances. Ils introduisent un benchmark comprenant des évaluations de dimensions importantes de l’intelligence, notamment le mapping symbolique, la compréhension des règles, l’extraction de motifs et la résistance aux interférences. Ces évaluations minimisent l’impact potentiel de la mémorisation. Les résultats expérimentaux montrent que le modèle FLM-101B, entraîné avec un budget de 100 000 dollars, atteint des performances comparables à celles de modèles puissants et bien connus, comme GPT-3 et GLM-130B, en particulier sur les évaluations de benchmark de QI avec des contextes absents des données d’entraînement. Les checkpoints de FLM-101B seront publiés en open source à l’adresse https://huggingface.co/CofeAI/FLM-101B.
> Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.
Lien vers l’article
https://arxiv.org/abs/2309.03852
Pour aller plus loin
https://twitter.com/omarsar0/status/1700156132700963053
Architecture cognitive pour les agents de langage / Cognitive Architectures for Language Agents
Présentation de l’article
- En établissant des parallèles avec les systèmes de production et les architectures cognitives, l’article propose un cadre systématique pour comprendre et construire des agents de langage complets, et organise dans ce cadre diverses méthodes de raisonnement, d’ancrage, d’apprentissage et de prise de décision fondées sur le langage comme des instances d’agents de langage.
> Proposes a systematic framework for understanding and building fully-fledged language agents drawing parallels from production systems and cognitive architectures; it systematizes diverse methods for llm-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework.
Résumé de l’article
- Les efforts récents ont consisté à intégrer de grands modèles de langage (LLM) à des ressources externes (par ex. Internet) ou à des flux de contrôle internes (par ex. l’enchaînement de prompts) pour des tâches nécessitant un ancrage ou du raisonnement. Cependant, ces efforts sont restés en grande partie fragmentaires, faute d’un cadre systématique pour construire un agent de langage pleinement abouti. Pour répondre à ce défi, nous nous appuyons sur la riche histoire de la conception d’agents en intelligence artificielle symbolique afin d’élaborer un plan pour une nouvelle génération d’agents de langage cognitifs. Nous montrons d’abord que les LLM partagent de nombreuses propriétés avec les systèmes de production, et que les efforts récents visant à améliorer leur ancrage ou leur raisonnement reflètent l’évolution des architectures cognitives construites autour des systèmes de production. Nous proposons ensuite les architectures cognitives pour les agents de langage (Cognitive Architectures for Language Agents, CoALA), un cadre conceptuel destiné à systématiser les diverses méthodes de raisonnement, d’ancrage, d’apprentissage et de prise de décision fondées sur les LLM en tant qu’instanciations d’agents de langage dans ce cadre. Enfin, nous utilisons le cadre CoALA pour mettre en évidence les lacunes et proposer des pistes concrètes vers des agents de langage plus performants à l’avenir.
> Recent efforts have incorporated large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning. However, these efforts have largely been piecemeal, lacking a systematic framework for constructing a fully-fledged language agent. To address this challenge, we draw on the rich history of agent design in symbolic artificial intelligence to develop a blueprint for a new wave of cognitive language agents. We first show that LLMs have many of the same properties as production systems, and recent efforts to improve their grounding or reasoning mirror the development of cognitive architectures built around production systems. We then propose Cognitive Architectures for Language Agents (CoALA), a conceptual framework to systematize diverse methods for LLM-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework. Finally, we use the CoALA framework to highlight gaps and propose actionable directions toward more capable language agents in the future.
Lien vers l’article
https://arxiv.org/abs/2309.02427
Pour aller plus loin
https://twitter.com/ShunyuYao12/status/1699396834983362690
Q-Transformer
Présentation de l’article
- Une méthode de RL scalable pour entraîner des politiques multitâches à partir de grands jeux de données hors ligne, en exploitant des démonstrations humaines et des données collectées de manière autonome ; elle affiche de bonnes performances sur un vaste ensemble diversifié de tâches réelles de manipulation robotique.
> A scalable rl method for training multi-task policies from large offline datasets leveraging human demonstrations and autonomously collected data; shows good performance on a large diverse real-world robotic manipulation task suite.
Lien vers l’article
https://q-transformer.github.io/
Pour aller plus loin
https://twitter.com/YevgenChebotar/status/1699909244743815677
Article original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b88
- *Cet article est une présentation automatiquement résumée par un modèle GPT ; il peut contenir des erreurs, veuillez donc vous référer à l’article original ! *
- Si vous remarquez des passages maladroits ou des erreurs pendant votre lecture, merci de nous en informer dans les commentaires ! ♂️
Aucun commentaire pour le moment.