[2023/10/02 ~ 10/08] Les principaux articles ML de la semaine (Top ML Papers of the Week)
(discuss.pytorch.kr)Aperçu
-
Nous avons traduit automatiquement l’article hebdomadaire de DAIR.AI sur les publications ML.
-
En examinant les articles proposés cette semaine, nous avons constaté qu’un grand nombre portaient sur les modèles de langage (Language Models, LLM) capables de gérer un contexte long (Long Context). En particulier, des articles comme « LLMs Represent Space and Time », « Retrieval meets Long Context LLMs », « StreamingLLM », « The Dawn of LLMs » et « Training LLMs with Pause Tokens » mettent en lumière différents aspects des LLM.
-
Cette tendance illustre clairement l’importance croissante des modèles de langage dans le machine learning et le deep learning. Les LLM sont une technologie qui apprend à partir de grandes quantités de données textuelles et permet d’améliorer globalement les performances sur diverses tâches de compréhension du langage, comme la génération de phrases, la traduction automatique ou la correction orthographique. Cependant, le traitement des contextes longs reste encore très difficile. Il semble que diverses approches soient proposées pour résoudre ce problème.
-
Par ailleurs, des articles comme « Neural Developmental Programs », « Recursively Self-Improving Code Generation » et « Retrieval-Augmented Dual Instruction Tuning » explorent des thèmes tels que l’auto-apprentissage de l’IA, la génération de code et l’instruction tuning. Cela montre l’émergence de méthodologies toujours plus nouvelles en IA, et ces recherches devraient jouer un rôle très important dans l’amélioration des capacités d’auto-apprentissage et d’adaptabilité des technologies d’IA.
-
On peut donc dire que la tendance des articles de cette semaine met en évidence de nouvelles orientations de recherche autour du traitement du contexte long par les modèles de langage, ainsi que de l’auto-apprentissage de l’IA et de la génération de code.
Modèles de langage représentant l’espace et le temps / Language Models Represent Space and Time
Présentation de l’article
- Il montre que les modèles de langage apprennent des représentations linéaires de l’espace et du temps à plusieurs échelles, que ces représentations sont robustes face aux variations de formulation et unifiées entre différents types d’entités, et affirme ainsi que les modèles de langage apprennent des modèles du monde littéraux plutôt que de simples statistiques superficielles, démontrant qu’ils acquièrent des connaissances structurées fondamentales comme l’espace et le temps. #llm #llama2
> Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.
Résumé de l’article
- Les capacités des grands modèles de langage (LLM) alimentent le débat sur la question de savoir si ces systèmes apprennent simplement une immense collection de statistiques superficielles ou bien un modèle cohérent du processus générateur de données, autrement dit un modèle du monde. Nous avons trouvé des éléments en faveur de cette seconde hypothèse en analysant les représentations apprises de trois jeux de données spatiales (monde, États-Unis, lieux de New York) et de trois jeux de données temporelles (personnages historiques, œuvres d’art, titres d’actualité) dans la famille de modèles Llama-2. Nous avons constaté que les LLM apprennent des représentations linéaires de l’espace et du temps à plusieurs échelles. Ces représentations sont robustes aux variations de prompting et unifiées entre différents types d’entités (par exemple les villes et les monuments). Nous identifions également des « neurones de l’espace » et des « neurones du temps » individuels qui encodent de manière fiable des coordonnées spatiales et temporelles. Notre analyse montre que les LLM modernes acquièrent des connaissances structurées sur des dimensions fondamentales comme l’espace et le temps, ce qui soutient l’idée qu’ils n’apprennent pas seulement des statistiques superficielles, mais bien des modèles du monde littéraux.
> The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individualspace neurons'' andtime neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.
Lien vers l’article
https://arxiv.org/abs/2310.02207
Pour aller plus loin
https://x.com/wesg52/status/1709551516577902782
Quand la recherche rencontre les grands modèles de langage à long contexte / Retrieval meets Long Context Large Language Models
Présentation de l’article
- L’article compare l’augmentation par recherche et les fenêtres de contexte longues pour les tâches downstream afin d’étudier s’il est possible de combiner les deux approches pour obtenir le meilleur des deux mondes. Un llm avec une fenêtre de contexte de 4K utilisant un simple RAG peut atteindre des performances comparables à celles d’un llm fine-tuné avec 16K de contexte ; la recherche peut améliorer significativement les performances des llm indépendamment de la taille étendue de leur fenêtre de contexte ; un llama2-70b augmenté par recherche avec une fenêtre de contexte de 32K surpasse gpt-3.5-turbo-16k sur sept tâches à long contexte, notamment la question-réponse et le résumé basé sur requête. #llama #llama2-7b-32k-context #llama2-long #100k-context-window #streamingllm
> Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.
Résumé de l’article
- Alors que l’extension de la fenêtre de contexte des grands modèles de langage (LLM) gagne récemment en popularité, les solutions consistant à renforcer les LLM par la recherche existent depuis des années. Les questions naturelles sont : i) entre l’augmentation par recherche et une longue fenêtre de contexte, laquelle est la plus adaptée aux tâches aval ? ii) Peut-on combiner les deux approches pour obtenir le meilleur des deux mondes ? Cette étude répond à ces questions en examinant les deux solutions à l’aide de deux LLM préentraînés de pointe, à savoir un GPT propriétaire de 43B et LLaMA2-70B. Fait surprenant, les auteurs constatent qu’un LLM avec une fenêtre de contexte de 4K utilisant une simple augmentation par recherche lors de la génération peut atteindre des performances comparables à celles d’un LLM affiné avec une fenêtre de contexte de 16K via interpolation positionnelle sur des tâches à long contexte, tout en nécessitant bien moins de calcul. Plus important encore, ils montrent que la recherche peut améliorer significativement les performances des LLM, quelle que soit la taille de leur fenêtre de contexte étendue. Le meilleur modèle, un LLaMA2-70B augmenté par recherche avec une fenêtre de contexte de 32K, surpasse GPT-3.5-turbo-16k et Davinci003 en score moyen sur sept tâches à long contexte, dont la question-réponse et le résumé fondé sur des requêtes. Il surpasse également nettement la baseline non augmentée par recherche LLaMA2-70B-32k, tout en étant beaucoup plus rapide en génération. Cette étude fournit des enseignements généraux pour aider les praticiens à choisir entre l’augmentation par recherche et l’extension du long contexte des LLM.
> Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.
Lien vers l’article
https://arxiv.org/abs/2310.03025
Pour aller plus loin
https://x.com/omarsar0/status/1709749178199318545
Modèles de langage en streaming efficaces avec attention sinks / Efficient Streaming Language Models with Attention Sinks
Présentation de l’article
- Un framework qui permet des LLM de streaming efficaces avec des attention sinks, un phénomène où les états KV des tokens initiaux restaurent en grande partie les performances de l’attention fenêtrée ; l’apparition de l’attention sink est due à de forts scores d’attention dirigés vers les tokens initiaux ; cette approche permet à des LLM entraînés avec des fenêtres d’attention de longueur finie de se généraliser à des séquences de longueur infinie sans aucun fine-tuning supplémentaire. #streamingllm
> A framework that enables efficient streaming llms with attention sinks, a phenomenon where the kv states of initial tokens will largely recover the performance of window attention; the emergence of the attention sink is due to strong attention scores towards the initial tokens; this approach enables llms trained with finite length attention windows to generalize to infinite sequence length without any additional fine-tuning.
Résumé de l’article
- Déployer des grands modèles de langage (LLM) dans des applications en streaming comme les dialogues multi-tours, où de longues interactions sont attendues, est devenu urgent, mais cela pose deux défis majeurs. D’abord, pendant l’étape de décodage, la mise en cache des états Key et Value (KV) des tokens précédents consomme énormément de mémoire. Ensuite, les LLM largement utilisés ne peuvent pas généraliser à des textes plus longs que la longueur de séquence vue à l’entraînement. La window attention, qui consiste à ne mettre en cache que les KV les plus récents, est une approche naturelle, mais il a été montré qu’elle échoue lorsque la longueur du texte dépasse la taille du cache. Un phénomène intéressant a été observé, appelé attention sink : conserver les KV des tokens initiaux permet de restaurer en grande partie les performances de la window attention. Cet article montre d’abord que l’apparition de l’attention sink vient du fait que les tokens initiaux reçoivent des scores d’attention élevés en tant que « sink », même s’ils n’ont pas d’importance sémantique. Sur la base de cette analyse, les auteurs présentent StreamingLLM, un framework efficace qui permet à des LLM entraînés avec une fenêtre d’attention de longueur finie de généraliser à des séquences de longueur infinie sans aucun fine-tuning. Ils montrent que StreamingLLM permet à Llama-2, MPT, Falcon et Pythia d’effectuer une modélisation du langage stable et efficace sur jusqu’à plus de 4 millions de tokens. Ils découvrent également que l’ajout d’un token placeholder comme attention sink dédié pendant le pré-entraînement peut encore améliorer le déploiement en streaming. Dans des configurations de streaming, StreamingLLM est jusqu’à 22,2 fois plus rapide que la baseline de recomputation par fenêtre glissante. Le code et les jeux de données sont disponibles sur https://github.com/mit-han-lab/streaming-llm.
> Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.
Lien vers l’article
https://arxiv.org/abs/2309.17453
Pour aller plus loin
https://x.com/Guangxuan_Xiao/status/1708943505731801325
https://discuss.pytorch.kr/t/…
Vers des réseaux neuronaux artificiels auto-assemblés grâce à des programmes de développement neuronal / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs
Présentation de l’article
- Il est proposé d’utiliser des réseaux neuronaux qui s’auto-assemblent via un processus de développement reproduisant certaines propriétés du développement embryonnaire des organismes biologiques (appelé programme de développement neuronal) ; l’article montre la faisabilité de cette approche sur des problèmes de contrôle continu et des topologies en croissance.
> Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.
Résumé de l’article
- Les systèmes nerveux biologiques sont créés d’une manière fondamentalement différente des réseaux neuronaux artificiels actuels. Bien que le deep learning affiche des résultats impressionnants dans divers domaines, la conception d’architectures neuronales très performantes exige souvent un effort d’ingénierie considérable. À l’inverse, les systèmes nerveux biologiques se développent à travers un processus dynamique d’auto-organisation. Dans cet article, les auteurs franchissent une première étape vers des réseaux neuronaux qui croissent via un processus de développement reflétant les propriétés clés du développement embryonnaire chez les organismes biologiques. Le processus de croissance est guidé par un autre réseau neuronal, appelé Neural Developmental Program (NDP), qui fonctionne uniquement par communication locale. Les auteurs étudient le rôle de la croissance neuronale sur différents benchmarks de machine learning et avec diverses méthodes d’optimisation (apprentissage évolutif, RL en ligne, RL hors ligne et apprentissage supervisé). Ils mettent également en avant de futures pistes de recherche et les opportunités rendues possibles par une auto-organisation pilotant la croissance des réseaux neuronaux.
> Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.
Lien vers l’article
https://arxiv.org/abs/2307.08197
Pour aller plus loin
https://x.com/risi1979/status/1708888992224362742
L’aube des LMM : explorations préliminaires avec GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Présentation de l’article
- Afin d’approfondir la compréhension des grands modèles multimodaux (LMM), les auteurs analysent de manière approfondie gpt-4v, en se concentrant sur son exploration dans divers scénarios d’application, et proposent différents exemples allant des capacités de code avec vision jusqu’aux LMM enrichis par la recherche. #multimodal #gpt-4v
> A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.
Résumé de l’article
- Les grands modèles multimodaux (LMM) étendent les grands modèles de langage (LLM) avec des capacités multisensorielles, comme la compréhension visuelle, afin d’atteindre une intelligence générale plus puissante. Cet article analyse le dernier modèle, GPT-4V(ision), afin d’approfondir la compréhension des LMM. L’analyse se concentre sur les tâches intrigantes que GPT-4V peut accomplir et comprend des échantillons de test destinés à sonder la qualité et la généricité des capacités de GPT-4V, ses entrées et modes de fonctionnement pris en charge, ainsi que les moyens efficaces de le guider par prompt. Dans leur approche d’exploration de GPT-4V, les auteurs sélectionnent et organisent une collection d’échantillons qualitatifs soigneusement conçus couvrant une variété de domaines et de tâches. Les observations tirées de ces échantillons montrent que la capacité sans précédent de GPT-4V à traiter des entrées multimodales arbitrairement entrelacées, combinée à la généricité de ses capacités, en fait un puissant système généraliste multimodal. En outre, la capacité unique de GPT-4V à comprendre des marqueurs visuels dessinés sur les images d’entrée pourrait faire émerger de nouvelles méthodes d’interaction humain-machine, telles que le prompting de référence visuelle. Le rapport se conclut par une discussion approfondie sur les nouveaux scénarios d’application et les futures orientations de recherche pour les systèmes fondés sur GPT-4V. Les auteurs espèrent que cette exploration préliminaire inspirera de futurs travaux sur la prochaine génération de formulations de tâches multimodales, sur de nouvelles façons d’exploiter et d’améliorer les LMM pour résoudre des problèmes du monde réel, ainsi que sur une meilleure compréhension des modèles de fondation multimodaux.
> Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.
Lien vers l’article
https://arxiv.org/abs/2309.17421
Pour aller plus loin
https://x.com/omarsar0/status/1708860551110041871
https://discuss.pytorch.kr/t/gn-chatgpt/2543
Réfléchissez avant de parler : entraîner des modèles de langage avec des tokens de pause / Think before you speak: Training Language Models With Pause Tokens
Présentation de l’article
- Utilise un token
<pause>apprenable pour l’entraînement et l’inférence des LLM afin de retarder la génération de la réponse du modèle, ce qui aide à améliorer les performances sur des tâches de compréhension générale comme le question-réponse de bon sens et la résolution de problèmes de maths en langage naturel. Les expériences montrent que ce bénéfice n’apparaît que lorsque ce délai est introduit à la fois lors du pré-entraînement concerné et du fine-tuning en aval. #pause-for-thoughtPerforms training and inference on llms with a learnable
<pause>token which helps to delay the model's answer generation and attain performance gains on general understanding tasks of commonsense qa and math word problem-solving; experiments show that this is only beneficial provided that the delay is introduced in both pertaining and downstream fine-tuning.
Résumé de l’article
- Les modèles de langage génèrent des réponses en produisant une série de tokens en succession immédiate. Le $(K+1)^{th}$ token est le résultat de la manipulation de $K$ vecteurs cachés par couche, à raison d’un vecteur par token précédent. Et si, au lieu de cela, on laissait le modèle manipuler, disons, $K+10$ vecteurs cachés avant qu’il ne produise le $(K+1)^{th}$ token ? Cette idée est mise en œuvre en réalisant l’entraînement et l’inférence sur des modèles de langage avec un token $\textit{pause}$ (apprenable), dont une séquence est ajoutée au préfixe d’entrée. On retarde ensuite l’extraction des sorties du modèle jusqu’à l’apparition du dernier token de pause, ce qui permet au modèle d’effectuer un calcul supplémentaire avant de s’engager sur une réponse. Nous évaluons empiriquement le $\textit{pause-training}$ sur des modèles decoder-only de 1B et 130M de paramètres avec pré-entraînement causal sur C4, ainsi que sur des tâches en aval couvrant le raisonnement, le question-réponse, la compréhension générale et le rappel de faits. Notre principal constat est que les délais à l’inférence apportent des gains lorsque le modèle est à la fois pré-entraîné et affiné avec ces délais. Pour le modèle 1B, nous observons des gains sur 8 tâches sur 9, notamment une amélioration de $18%$ du score EM sur la tâche de QA de SQuAD, de $8%$ sur CommonSenseQA et de $1%$ de précision sur la tâche de raisonnement de GSM8k. Notre travail soulève toute une série de questions de recherche futures, conceptuelles et pratiques, afin de faire de la prédiction retardée du token suivant un nouveau paradigme largement applicable.
Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18%$ EM score on the QA task of SQuAD, $8%$ on CommonSenseQA and $1%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.
Lien vers l’article
https://arxiv.org/abs/2310.02226
Pour aller plus loin
https://x.com/omarsar0/status/1709573238123122959
Self-Taught Optimizer (STOP) : génération de code s’améliorant récursivement d’elle-même / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation
Présentation de l’article
- Propose d’utiliser un programme d’échafaudage enrichi par un modèle de langage pour s’améliorer récursivement lui-même ; un amélioreur initial améliore d’abord un programme d’entrée qui renvoie la meilleure solution, puis celui-ci reçoit à son tour la tâche de s’améliorer lui-même ; montre que les modèles gpt-4 peuvent écrire du code capable de s’appeler lui-même pour s’améliorer. #self-training-survey-paper
Proposes the use of a language model-infused scaffolding program to recursively improve itself; a seed improver first improves an input program that returns the best solution which is then further tasked to improve itself; shows that the gpt-4 models can write code that can call itself to improve itself.
Résumé de l’article
- Certaines avancées récentes des systèmes d’IA (par ex. Tree-of-Thoughts et les Program-Aided Language Models) résolvent des problèmes en fournissant un programme de « scaffolding » qui structure plusieurs appels à des modèles de langage afin de générer de meilleurs résultats. Un programme de scaffolding est écrit dans un langage de programmation comme Python. Dans ce travail, nous utilisons un programme de scaffolding enrichi par un modèle de langage pour s’améliorer lui-même. Nous partons d’un « improver » initial qui améliore un programme d’entrée selon une fonction d’utilité donnée en interrogeant plusieurs fois un modèle de langage et en renvoyant la meilleure solution. Nous exécutons ensuite cet improver initial pour qu’il s’améliore lui-même. Sur un petit ensemble de tâches downstream, l’improver ainsi amélioré génère des programmes aux performances nettement supérieures à celles de l’improver initial. Nous analysons ensuite la diversité des stratégies d’auto-amélioration proposées par le modèle de langage, notamment la beam search, les algorithmes génétiques et le recuit simulé. Comme les modèles de langage eux-mêmes ne sont pas modifiés, il ne s’agit pas d’une auto-amélioration récursive complète. Néanmoins, cela montre, dans des expériences de preuve de concept, qu’un modèle de langage moderne, GPT-4, est capable d’écrire du code pouvant s’appeler lui-même pour s’améliorer. Nous examinons de manière critique les préoccupations liées au développement de technologies auto-améliorantes et évaluons la fréquence à laquelle le code généré contourne un sandbox.
> Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.
Lien vers l’article
https://arxiv.org/abs/2310.02304
Pour aller plus loin
https://x.com/ericzelikman/status/1709721771937587541
RA-DIT: réglage par double instruction avec augmentation par recherche / RA-DIT: Retrieval-Augmented Dual Instruction Tuning
Présentation de l’article
- Propose une méthode légère de fine-tuning pour doter des réseaux neuronaux artificiels de capacités de recherche. Elle repose sur une approche en deux étapes : 1) mettre à jour un réseau neuronal préentraîné pour mieux exploiter les informations récupérées ; 2) mettre à jour le système de recherche pour qu’il renvoie des résultats plus pertinents. Les résultats montrent que, pour les tâches nécessitant à la fois l’exploitation des connaissances et la compréhension du contexte, le fine-tuning apporte des gains supplémentaires à chaque étape. Le modèle 65b atteint des résultats de pointe sur divers benchmarks de zero-shot et few-shot learning intensifs en connaissances, et surpasse les approches existantes de langage augmentées par recherche jusqu’à +8 %. En zero-shot : 9 %, et en 5-shot : +1,4 %. #rag #instruct-tuning
> Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.
Résumé de l’article
- Les modèles de langage augmentés par la recherche (RALM) améliorent les performances en accédant aux connaissances de longue traîne et aux informations récentes depuis des bases de données externes, mais ils sont difficiles à construire. Les approches existantes exigent soit des modifications spécifiques à la recherche, coûteuses, lors du pré-entraînement du LM, soit une intégration a posteriori de la base de données, ce qui conduit à des performances sous-optimales. Nous présentons Retrieval-Augmented Dual Instruction Tuning (RA-DIT), une méthodologie légère de fine-tuning qui offre une troisième option en dotant n’importe quel LLM de capacités de recherche. L’approche de l’équipe d’Unity fonctionne en deux étapes distinctes de fine-tuning : (1) l’une met à jour un LM pré-entraîné pour mieux exploiter les informations récupérées, et (2) l’autre met à jour le retriever afin qu’il renvoie des résultats plus pertinents, selon les préférences du LM. En effectuant le fine-tuning sur des tâches qui nécessitent à la fois l’exploitation des connaissances et la compréhension du contexte, ils montrent que chaque étape apporte des gains de performance significatifs, et que l’utilisation des deux ensemble procure des bénéfices supplémentaires. Leur meilleur modèle, RA-DIT 65B, atteint des performances de pointe sur une série de benchmarks zero-shot et few-shot intensifs en connaissances, dépassant nettement les approches RALM in-context existantes, avec en moyenne jusqu’à +8,9 % en configuration 0-shot et +1,4 % en configuration 5-shot.
> Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.
Lien vers l’article
https://arxiv.org/abs/2310.01352
Pour aller plus loin
https://x.com/omarsar0/status/1709204756013490494
Kosmos-G : génération d’images en contexte avec des grands modèles de langage multimodaux / Kosmos-G: Generating Images in Context with Multimodal Large Language Models
Présentation de l’article
- Un modèle capable d’effectuer une génération d’images zero-shot haute fidélité à partir d’entrées vision-langage généralisées couvrant plusieurs images, d’étendre la génération d’images zero-shot centrée sur le sujet à des scénarios multi-entités, et de remplacer CLIP pour ouvrir de nouvelles applications avec d’autres techniques U-Net comme ControlNet et LoRA. #multimodal
> A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.
Résumé de l’article
- Les avancées récentes dans la génération texte-vers-image (T2I) et vision-langage-vers-image (VL2I) ont été considérables. Cependant, la génération à partir d’entrées vision-langage généralisées, en particulier lorsqu’elles impliquent plusieurs images, reste encore peu explorée. Cet article présente Kosmos-G, un modèle qui exploite les capacités avancées de perception des Multimodal Large Language Models (MLLM) pour répondre à ce défi. Leur approche aligne l’espace de sortie du MLLM avec CLIP en utilisant la modalité textuelle comme ancrage, puis effectue un instruction tuning compositionnel sur des données sélectionnées. Kosmos-G démontre une capacité unique de génération zero-shot centrée sur le sujet dans des scénarios multi-entités. En particulier, le score distillation instruction tuning ne nécessite aucune modification du décodeur d’image. Cela permet de remplacer CLIP de manière fluide et de s’intégrer facilement à une multitude de techniques U-Net, allant du contrôle fin aux variantes personnalisées de décodeurs d’image. Ils présentent Kosmos-G comme une première tentative vers l’objectif de « l’image comme langue étrangère dans la génération d’images ».
> Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."
Lien vers l’article
https://arxiv.org/abs/2310.02992
Pour aller plus loin
https://x.com/omarsar0/status/1709934741158510625
Les grands modèles de langage comme raisonneurs analogiques / Large Language Models as Analogical Reasoners
Présentation de l’article
- Cette approche diffère du chain-of-thought en ce qu’elle ne nécessite pas d’exemples annotés du processus de raisonnement ; il s’agit d’une nouvelle approche de prompting inspirée du raisonnement analogique, qui incite le modèle à générer lui-même des exemples ou des connaissances pertinents dans le contexte. #llm-reasoning #chain-of-thought
A new prompting approach to automatically guide the reasoning process of llms; the approach is different from chain-of-thought in that it doesn’t require labeled exemplars of the reasoning process; the approach is inspired by analogical reasoning and prompts lms to self-generate relevant exemplars or knowledge in the context.
Résumé de l’article
- Le prompting en chain-of-thought (CoT) pour les modèles de langage montre des performances impressionnantes sur l’ensemble des tâches de raisonnement, mais il nécessite généralement des exemples annotés du processus de raisonnement. Dans cette étude, nous présentons une nouvelle approche de prompting, baptisée Analogical Prompting, conçue pour guider automatiquement le processus de raisonnement des grands modèles de langage. Inspirée du raisonnement analogique, un processus cognitif par lequel les humains mobilisent des expériences passées pertinentes pour résoudre de nouveaux problèmes, cette approche incite les modèles de langage à générer eux-mêmes des exemples ou des connaissances pertinents dans le contexte avant de résoudre le problème donné. Cette méthode présente plusieurs avantages : elle évite d’avoir à annoter ou à rechercher des exemples, offrant ainsi généralité et praticité ; elle permet également d’adapter les exemples et connaissances générés à chaque problème, ce qui lui confère une meilleure adaptabilité. Les résultats expérimentaux montrent que cette approche surpasse le CoT en 0-shot et le CoT manuel en few-shot sur une variété de tâches de raisonnement, notamment la résolution de problèmes mathématiques sur GSM8K et MATH, la génération de code sur Codeforces, ainsi que d’autres tâches de raisonnement sur BIG-Bench.
Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.
Lien vers l’article
https://arxiv.org/abs/2310.01714
Pour aller plus loin
https://x.com/michiyasunaga/status/1709582150025240854
Texte original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-9d9
Aucun commentaire pour le moment.