3 points par ninebow 2024-04-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Nous avons traduit automatiquement l’article hebdomadaire de DAIR.AI sur les publications ML.

  • En examinant les articles soumis cette semaine, on constate que la plupart semblent se concentrer sur les modèles de langage de nouvelle génération (Large Language Models, LLMs) et leurs domaines d’application. Plus précisément, « Make Your LLM Fully Utilize the Context », « Graph Machine Learning in the Era of LLMs », « Self-Evolution of LLMs » et « Naturalized Execution Tuning (NExT) » portent sur les avancées et les méthodes d’optimisation des LLMs, ainsi que sur de nouveaux cas d’usage. Cela reflète l’importance croissante des LLMs et l’élargissement de leur potentiel applicatif dans le domaine récent de l’IA.

  • Si les avancées des LLMs sont si importantes, c’est parce que ces modèles affichent d’excellentes performances non seulement en traitement automatique du langage naturel (Natural Language Processing, NLP), mais aussi dans diverses tâches multimodales. Par exemple, l’article « Make Your LLM Fully Utilize the Context » explore des méthodes permettant aux LLMs d’exploiter au maximum le contexte fourni afin d’extraire et d’interpréter des informations avec davantage de précision. De son côté, « Graph Machine Learning in the Era of LLMs » étudie comment l’apprentissage sur données structurées en graphe peut être amélioré grâce aux LLMs, ce qui aide grandement à comprendre des relations et des motifs complexes.

  • Cette tendance suggère que le rôle des LLMs dans l’IA ne se limite plus à la compréhension et à la génération du langage, mais s’étend à une résolution de problèmes plus large et à des domaines d’application plus variés. On peut y voir les efforts des chercheurs pour explorer les multiples facettes de l’intelligence artificielle, en particulier afin de développer des modèles capables de mieux comprendre et utiliser le langage humain. Elle vient également étayer la perspective d’une utilisation croissante des LLMs dans des secteurs toujours plus nombreux à l’avenir.

[IMG] [2024/04/22 ~ 04/28] Principaux articles ML de la semaine (Top ML Papers of the Week)|1028x618


Rapport technique de Phi-3 : un modèle de langage très performant, en local sur votre téléphone / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Présentation de l’article

phi-3-mini, un nouveau modèle de langage de 3.8B paramètres entraîné sur 3,3 billions de tokens, est présenté comme concurrent de Mixtral 8x7B et GPT-3.5 ; sa longueur de contexte par défaut est de 4K, mais il existe aussi une version étendue à 128K (phi-mini-128K) ; pour entraîner le modèle 3.8B, il combine des données web hautement filtrées et des données synthétiques ; l’article présente également des résultats sur des modèles 7B et 14B (phi-3-small et phi-3-medium) entraînés sur 4.8T tokens.

A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).

Résumé (Abstract)

Nous présentons phi-3-mini, un modèle de langage de 3,8 milliards de paramètres entraîné sur 3,3 billions de tokens. Ses performances globales, mesurées à la fois sur des benchmarks académiques et lors de tests internes, rivalisent avec celles de modèles comme Mixtral 8x7B et GPT-3.5 (par exemple, phi-3-mini atteint 69 % sur MMLU et 8.38 sur MT-bench), tout en étant suffisamment compact pour être déployé sur un téléphone. L’innovation réside entièrement dans notre jeu de données d’entraînement, une version étendue de celui utilisé pour phi-2, composé de données web fortement filtrées et de données synthétiques. Le modèle a également été davantage aligné pour la robustesse, la sécurité et le format conversationnel. Nous fournissons aussi des premiers résultats de montée en échelle des paramètres avec des modèles 7B et 14B entraînés sur 4.8T tokens, appelés phi-3-small et phi-3-medium, tous deux nettement plus performants que phi-3-mini (par exemple, respectivement 75 % et 78 % sur MMLU, et 8.7 et 8.9 sur MT-bench).

We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).

Lien vers l’article

https://arxiv.org/abs/2404.14219

Pour aller plus loin

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1782780923806699716


OpenELM : une famille efficace de modèles de langage avec un framework open source d’entraînement et d’inférence / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

Présentation de l’article

Nouveau modèle de langage ouvert qui emploie une stratégie de mise à l’échelle par couche pour allouer efficacement les paramètres, améliorant ainsi l’efficacité et la précision ; disponible en différentes tailles comme 270M, 450M, 1.1B et 3B ; il obtient une amélioration de 2,36 % de précision par rapport à OLMo tout en nécessitant 2× moins de tokens de pré-entraînement.

A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.

Résumé (Abstract)

La reproductibilité et la transparence des grands modèles de langage sont cruciales pour faire avancer la recherche ouverte, garantir la fiabilité des résultats et permettre d’étudier les biais des données et des modèles, ainsi que les risques potentiels. À cette fin, nous lançons OpenELM, un modèle de langage ouvert de pointe. OpenELM utilise une stratégie de mise à l’échelle par couche pour allouer efficacement les paramètres au sein de chaque couche du modèle Transformer, ce qui améliore la précision. Par exemple, avec un budget d’environ un milliard de paramètres, OpenELM affiche une amélioration de précision de 2,36 % par rapport à OLMo tout en nécessitant $2\times$ moins de tokens de pré-entraînement. Contrairement aux pratiques antérieures qui ne fournissaient que les poids du modèle et le code d’inférence, avec un pré-entraînement sur des jeux de données privés, cette version inclut un framework complet pour l’entraînement et l’évaluation du modèle de langage sur des jeux de données accessibles publiquement, y compris les journaux d’entraînement, plusieurs checkpoints et les configurations de pré-entraînement. Nous publions également le code permettant de convertir les modèles vers la bibliothèque MLX pour l’inférence et le fine-tuning sur les appareils Apple. Cette publication complète vise à donner plus de moyens à la communauté de la recherche ouverte et à la renforcer, en préparant le terrain pour de futurs travaux de recherche ouverte. Le code source, ainsi que les poids des modèles pré-entraînés et les recettes d’entraînement, sont disponibles sur \url{https://github.com/apple/corenet}. De plus, les modèles sont disponibles sur HuggingFace : \url{https://huggingface.co/apple/OpenELM}.

La reproductibilité et la transparence des grands modèles de langage sont cruciales pour faire avancer la recherche ouverte, garantir la fiabilité des résultats et permettre d’étudier les biais des données et des modèles, ainsi que les risques potentiels. À cette fin, nous lançons OpenELM, un modèle de langage ouvert de pointe. OpenELM utilise une stratégie de mise à l’échelle par couche pour allouer efficacement les paramètres au sein de chaque couche du modèle Transformer, ce qui améliore la précision. Par exemple, avec un budget d’environ un milliard de paramètres, OpenELM affiche une amélioration de précision de 2,36 % par rapport à OLMo tout en nécessitant $2\times$ moins de tokens de pré-entraînement. Contrairement aux pratiques antérieures qui ne fournissaient que les poids du modèle et le code d’inférence, avec un pré-entraînement sur des jeux de données privés, cette version inclut un framework complet pour l’entraînement et l’évaluation du modèle de langage sur des jeux de données accessibles publiquement, y compris les journaux d’entraînement, plusieurs checkpoints et les configurations de pré-entraînement. Nous publions également le code permettant de convertir les modèles vers la bibliothèque MLX pour l’inférence et le fine-tuning sur les appareils Apple. Cette publication complète vise à donner plus de moyens à la communauté de la recherche ouverte et à la renforcer, en préparant le terrain pour de futurs travaux de recherche ouverte. Le code source, ainsi que les poids des modèles pré-entraînés et les recettes d’entraînement, sont disponibles sur \url{https://github.com/apple/corenet}. De plus, les modèles sont disponibles sur HuggingFace : \url{https://huggingface.co/apple/OpenELM}.

Lien vers l’article

https://arxiv.org/abs/2404.14619

Pour aller plus loin

https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204

https://github.com/apple/corenet

https://huggingface.co/apple/OpenELM

https://x.com/rasbt/status/1783480053847736713


Snowflake Arctic

Présentation de l’article

LLM open source (licence Apache 2.0) utilisant une architecture Transformer hybride Dense-MoE unique, qui affirme offrir des performances comparables à celles de Llama3 70B sur des métriques d’entreprise comme le code (HumanEval+ et MBPP+), le SQL (Spider) et le suivi d’instructions (IFEval), tout en utilisant un budget de calcul 17 fois inférieur à celui de Llama3 70B ; le calcul d’entraînement serait inférieur à environ 2 millions de dollars (moins de 3K GPU-weeks).

Un LLM open source (licence Apache 2.0) qui utilise une architecture Transformer hybride Dense-MoE unique ; il atteint des performances comparables à Llama3 70B sur des métriques d’entreprise comme le code (HumanEval+ & MBPP+), le SQL (Spider) et le suivi d’instructions (IFEval) ; il affirme utiliser un budget de calcul 17 fois inférieur à celui de Llama 3 70B ; le coût de calcul pour l’entraînement est estimé à moins de 2 millions de dollars (moins de 3K GPU-weeks).

Lien vers l’article

https://snowflake.com/blog/…

Pour aller plus loin

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1783176059694821632


Créer un LLM qui exploite pleinement le contexte / Make Your LLM Fully Utilize the Context

Présentation de l’article

Cette approche vise à surmonter le problème de « lost in the middle », fréquent dans les LLM. Elle applique à Mistral-7B une procédure d’entraînement explicitement « information-intensive » afin de permettre au LLM d’exploiter pleinement le contexte. Le modèle s’appuie sur un jeu de données synthétique où la réponse exige 1) une perception fine de l’information sur un court segment (∼128 tokens) au sein d’un long contexte synthétique (4K–32K tokens), et 2) l’intégration et le raisonnement à partir d’informations issues de deux segments courts ou plus. Le modèle obtenu, FILM-7B (Fill-in-the-Middle), montre qu’il peut récupérer de manière robuste des informations situées à différentes positions dans sa fenêtre de contexte de 32K.

Présente une approche pour surmonter le problème de « lost in the middle », fréquent dans les LLM. Elle applique à Mistral-7B une procédure d’entraînement explicitement « information-intensive » afin de permettre au LLM d’exploiter pleinement le contexte. Elle s’appuie sur un jeu de données synthétique dans lequel la réponse exige une perception fine de l’information sur un court segment (∼128 tokens) au sein d’un long contexte synthétique (4K−32K tokens), ainsi que l’intégration et le raisonnement à partir d’informations provenant de deux segments courts ou plus. Le modèle obtenu, FILM-7B (Fill-in-the-Middle), montre qu’il peut récupérer de manière robuste des informations à différentes positions dans sa fenêtre de contexte de 32K.

Résumé(Abstract)

Si de nombreux grands modèles de langage (LLM) contemporains peuvent traiter de longues entrées, ils ont encore du mal à exploiter pleinement les informations présentes dans un long contexte, un problème connu sous le nom de lost in the middle. Nous formulons l’hypothèse que cela provient d’une supervision explicite insuffisante lors de l’entraînement sur de longs contextes, qui n’insiste pas assez sur le fait que n’importe quelle position dans un long contexte peut contenir une information cruciale. Sur la base de cette intuition, cette étude présente l’entraînement information-intensive (IN2), une solution purement fondée sur les données pour surmonter ce problème. Plus précisément, l’entraînement IN2 s’appuie sur un jeu de données synthétique de questions-réponses en long contexte, dans lequel la réponse nécessite (1) une perception fine de l’information sur un court segment (~128 tokens) au sein d’un long contexte synthétique (4K-32K tokens), et (2) l’intégration et le raisonnement à partir d’informations issues de deux segments courts ou plus. En appliquant cet entraînement intensif en information à Mistral-7B, nous présentons FILM-7B (FILl-in-the-Middle). Afin d’évaluer de manière approfondie la capacité de FILM-7B à exploiter de longs contextes, nous concevons trois tâches de probing couvrant différents styles de contexte (documents, code et données structurées) ainsi que différents schémas de récupération d’information (recherche avant, arrière et bidirectionnelle). Les résultats montrent que FILM-7B peut récupérer de manière robuste des informations situées à différentes positions dans sa fenêtre de contexte de 32K. Au-delà de ces tâches de probing, FILM-7B améliore nettement les performances sur des tâches réelles en long contexte (par exemple, score F1 de 23.5->26.9 sur NarrativeQA), tout en maintenant des performances comparables sur les tâches en contexte court (par exemple, précision de 59.3->59.2 sur MMLU). Lien GitHub : https://github.com/microsoft/FILM.

While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.

Lien vers l’article

https://arxiv.org/abs/2404.16811

Pour aller plus loin

https://github.com/microsoft/FILM

https://x.com/omarsar0/status/1783905514578980949


FineWeb

Présentation de l’article

Un jeu de données web à grande échelle contenant 15 billions de tokens pour l’entraînement des modèles de langage ; il filtre et déduplique CommonCrawl entre 2013 et 2024 avec pour objectif d’améliorer la qualité des données.

A large-scale web dataset containing 15 trillion tokens for training language models; filters and deduplicates CommonCrawl between 2013 and 2024 and the goal is to improve the quality of the data.

Lien vers l’article

https://huggingface.co/datasets/HuggingFaceFW/fineweb

Pour aller plus loin

https://x.com/gui_penedo/status/1781953413938557276


Éditeurs génétiques basés sur l’IA / AI-powered Gene Editors

Présentation de l’article

Un système d’IA alimenté par un LLM entraîné à grande échelle sur la diversité biologique, qui permet d’atteindre l’édition de précision du génome humain grâce à la conception d’éditeurs génétiques programmables.

Achieves precision editing of the human genome with a programmable gene editor design with an AI system powered by an LLM trained on biological diversity at scale.

Lien vers l’article

https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1

Pour aller plus loin

https://x.com/thisismadani/status/1782510590839406904


AutoCrawler : un agent web à compréhension progressive pour la génération de crawlers web / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

Présentation de l’article

Combine les LLM et les crawlers afin d’aider ces derniers à gérer plus efficacement des environnements web variés et changeants ; l’agent crawler web exploite la structure hiérarchique du HTML pour une compréhension progressive, utilise des opérations top-down et de recul, et s’appuie sur la structure en arbre du DOM pour générer un crawler complet et exécutable.

Combines LLMs with crawlers with the goal of helping crawlers handle diverse and changing web environments more efficiently; the web crawler agent leverages the hierarchical structure of HTML for progressive understanding; employs top-down and step-back operations, and leverages the DOM tree structure, to generate a complete and executable crawler.

Résumé(Abstract)

L’automatisation web est une technique essentielle pour exécuter des tâches web complexes en automatisant les actions web courantes, en améliorant l’efficacité opérationnelle et en réduisant le besoin d’intervention manuelle. Les méthodes traditionnelles, comme les wrappers, souffrent d’une adaptabilité et d’une scalabilité limitées lorsqu’elles sont confrontées à un nouveau site web. À l’inverse, les agents génératifs propulsés par de grands modèles de langage (LLM) affichent de faibles performances et une faible réutilisabilité dans des scénarios en monde ouvert. Cette étude introduit une tâche de génération de crawler pour des pages web d’information verticale, ainsi qu’un paradigme combinant LLM et crawlers afin de permettre à ces derniers de gérer plus efficacement des environnements web divers et changeants. Nous proposons AutoCrawler, un framework en deux étapes qui exploite la structure hiérarchique du HTML pour une compréhension progressive. Grâce à des opérations top-down et de retour en arrière, AutoCrawler peut apprendre de ses actions erronées et élaguer continuellement le HTML afin de mieux générer les actions. Des expérimentations approfondies menées avec plusieurs LLM démontrent l’efficacité du framework. Les ressources de cet article sont disponibles à l’adresse \url{https://github.com/EZ-hwh/AutoCrawler}

Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}

Lien vers l’article

https://arxiv.org/abs/2404.12753

Pour aller plus loin

https://github.com/EZ-hwh/AutoCrawler

https://x.com/omarsar0/status/1782462314983071757


Graph Machine Learning à l’ère des grands modèles de langage (LLM) / Graph Machine Learning in the Era of Large Language Models (LLMs)

Présentation de l’article

Tour d’horizon complet des avancées récentes du Graph ML à l’ère des LLM, notamment les évolutions récentes du Graph ML, la manière dont les LLM peuvent enrichir les caractéristiques de graphe, et la façon dont ils peuvent résoudre des problèmes comme l’OOD et l’hétérogénéité des graphes.

Provides a comprehensive overview of the latest advancements for Graph ML in the era of LLMs; covers the recent developments in Graph ML, how LLM can enhance graph features, and how it can address issues such as OOD and graph heterogeneity.

Résumé (Abstract)

Les graphes jouent un rôle important dans la représentation de relations complexes dans divers domaines comme les réseaux sociaux, les graphes de connaissances et la découverte moléculaire. Avec l’avènement du deep learning, les Graph Neural Networks (GNN) se sont imposés comme une pierre angulaire du Graph Machine Learning (Graph ML), en facilitant la représentation et le traitement des structures de graphes. Récemment, les LLM ont démontré des capacités sans précédent dans les tâches de langage et sont largement adoptés dans une variété d’applications telles que la computer vision et les systèmes de recommandation. Ce succès remarquable a également suscité de l’intérêt pour l’application des LLM au domaine des graphes. Les efforts visant à explorer le potentiel des LLM pour faire progresser la généralisation, la transférabilité et les capacités d’apprentissage en few-shot du Graph ML se multiplient. Par ailleurs, les graphes, en particulier les graphes de connaissances, regorgent de connaissances factuelles fiables, qui peuvent être exploitées pour améliorer les capacités de raisonnement des LLM et potentiellement atténuer leurs limites, comme les hallucinations ou le manque d’explicabilité. Compte tenu des progrès rapides de cet axe de recherche, une revue systématique résumant les dernières avancées du Graph ML à l’ère des LLM est nécessaire afin d’offrir une compréhension approfondie aux chercheurs comme aux praticiens. Dans cette étude de synthèse, nous passons donc d’abord en revue les développements récents du Graph ML. Nous examinons ensuite comment les LLM peuvent être utilisés pour améliorer la qualité des caractéristiques de graphe, réduire la dépendance aux données annotées et répondre à des défis tels que l’hétérogénéité des graphes et la généralisation out-of-distribution (OOD). Nous analysons ensuite comment les graphes peuvent améliorer les LLM, en mettant en avant leur capacité à renforcer le pré-entraînement et l’inférence des LLM. Enfin, nous étudions diverses applications et discutons des orientations futures potentielles dans ce domaine prometteur.

Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.

Lien vers l’article

https://arxiv.org/abs/2404.14928

Pour aller plus loin

https://x.com/omarsar0/status/1783171591020392886


Enquête sur l’auto-évolution des grands modèles de langage / A Survey on Self-Evolution of Large Language Models

Présentation de l’article

Fournit une enquête complète sur les approches d’auto-évolution dans les LLM.

Provides a comprehensive survey on self-evolution approaches in LLMs.

Résumé (Abstract)

Les grands modèles de langage (LLM) ont connu des avancées majeures dans de nombreux domaines et applications d’agents intelligents. Cependant, les LLM actuels, entraînés sous la supervision d’humains ou de modèles externes, sont coûteux et peuvent atteindre des plafonds de performance à mesure que la complexité et la diversité des tâches augmentent. Pour répondre à ce problème, les approches d’auto-évolution, qui permettent aux modèles d’acquérir, d’affiner et d’apprendre de manière autonome à partir d’expériences générées par eux-mêmes, connaissent une croissance rapide. Ce nouveau paradigme d’entraînement, inspiré du processus d’apprentissage expérientiel humain, offre le potentiel de faire évoluer les LLM vers une forme de superintelligence. Cet article présente une étude complète des approches d’auto-évolution appliquées aux LLM. Il propose d’abord un cadre conceptuel de l’auto-évolution et décrit le processus évolutif comme des cycles itératifs composés de quatre phases : acquisition d’expérience, raffinement de l’expérience, mise à jour et évaluation. Ensuite, il classe les objectifs d’évolution des LLM et des agents fondés sur des LLM, puis résume la littérature et fournit une taxonomie ainsi que des éclairages pour chaque module. Enfin, il identifie précisément les défis existants et propose des pistes futures pour améliorer les cadres d’auto-évolution, offrant ainsi aux chercheurs des insights essentiels pour accélérer le développement de LLM auto-évolutifs.

Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.

Lien vers l’article

https://arxiv.org/abs/2404.14387

Pour aller plus loin

https://x.com/omarsar0/status/1782777977526231440


NExT : apprendre aux grands modèles de langage à raisonner sur l’exécution du code / NExT: Teaching Large Language Models to Reason about Code Execution

Présentation de l’article

Cette méthode entraîne un LLM à inspecter les traces d’exécution des programmes et à raisonner sur leur comportement à l’exécution via des chaînes de pensée synthétiques ; elle améliore le taux de correction d’un modèle PaLM 2 de 26,1 % sur MBPP et de 14,3 % sur HumanEval, et montre également une capacité de généralisation à des scénarios inconnus.

Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.

Résumé(Abstract)

Une compétence fondamentale des développeurs humains est la capacité à comprendre et à raisonner sur l’exécution d’un programme. Par exemple, un programmeur peut simuler mentalement l’exécution du code en langage naturel afin de déboguer et réparer du code — ce qu’on appelle le rubber duck debugging. Cependant, les grands modèles de langage (LLM) pour le code sont généralement entraînés sur la forme textuelle de surface des programmes et peuvent donc manquer d’une compréhension sémantique de la manière dont les programmes s’exécutent à l’exécution. Pour remédier à ce problème, nous proposons NExT, une méthode qui apprend aux LLM à inspecter les traces d’exécution des programmes (les états des variables des lignes exécutées) et à raisonner sur leur comportement à l’exécution au moyen de raisonnements en chaîne de pensée (CoT). Plus précisément, NExT utilise l’auto-entraînement pour amorcer un ensemble d’apprentissage synthétique de raisonnements sensibles à l’exécution, menant à des solutions correctes pour la tâche (par exemple des programmes corrigés), sans nécessiter une annotation manuelle fastidieuse. Les résultats expérimentaux sur des tâches de réparation de programmes fondées sur MBPP et HumanEval montrent que NExT améliore le taux de correction d’un modèle PaLM 2 de 26,1 % et 14,3 % en valeur absolue, respectivement, tout en améliorant significativement la qualité des justifications, comme l’ont confirmé des métriques automatisées et des évaluateurs humains. Le modèle peut également se généraliser à des scénarios où aucune trace de programme n’est disponible au moment du test.

A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.

Lien vers l’article

https://arxiv.org/abs/2404.14662

Pour aller plus loin

https://x.com/AnsongNi/status/1783311827390070941


Article original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c


Cet article a été synthétisé à l’aide d’un modèle GPT ; il peut donc contenir des erreurs. Merci de consulter également l’article original en bas de page. Si vous remarquez un passage maladroit ou inexact pendant votre lecture, n’hésitez pas à le signaler en commentaire.

⚠️Publicité⚠️ : cet article compilé par le groupe d’utilisateurs coréen PyTorch vous a été utile ? Si vous devenez membre, nous vous enverrons les principaux articles par e-mail ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer à Daily.)

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.