[2023/09/11 ~ 09/17] Principaux articles ML de la semaine (Top ML Papers of the Week)
(discuss.pytorch.kr)Aperçu
- Nous avons traduit automatiquement un article de DAIR.AI qui présente chaque semaine des publications en ML.
- Les publications sélectionnées cette semaine se concentrent pour la plupart sur le thème des LLM (Large Language Model). Ce qui est particulièrement notable, c’est la diversité des approches pour traiter les LLM. Ces articles analysent les LLM sous différents angles, notamment les méthodes d’apprentissage des modèles de langage, le potentiel d’évolution des LLM fondés sur des agents, le raffinement des LLM et leurs capacités d’auto-apprentissage, ainsi qu’une série de recherches consacrées aux LLM.
- Cette tendance montre que les méthodes d’apprentissage des modèles de langage sont considérées comme importantes dans les domaines de l’intelligence artificielle et du machine learning, et que les LLM attirent tout particulièrement l’attention. De plus, la diversité des façons de les aborder suggère à quel point cette technologie peut être appliquée largement et met en évidence son potentiel.
Les manuels suffisent II : rapport technique sur PHI-1.5 / Textbooks Are All You Need II: phi-1.5 technical report
Présentation de l’article
- Nouveau modèle de 1,3 milliard de paramètres entraîné sur 30 milliards de tokens, jeu de données composé de données synthétiques de « qualité manuel scolaire », et performances de phi-1.5 sur les tâches de raisonnement qui rivalisent avec celles de modèles plus grands, voire les dépassent : tout cela suggère que la qualité des données joue un rôle plus important qu’on ne le pensait auparavant. #llm #llm-alignment
A new 1.3 billion parameter model trained on 30 billion tokens; the dataset consists of "textbook-quality" synthetically generated data; phi-1.5 competes or outperforms other larger models on reasoning tasks suggesting that data quality plays a more important role than previously thought.
Résumé de l’article
- Nous poursuivons l’étude de la puissance des petits modèles de langage basés sur des Transformer, initiée avec $TinyStories$, un modèle de 10 millions de paramètres capable de produire un anglais cohérent, puis prolongée par les travaux sur $phi-1$, un modèle de 1,3 milliard de paramètres dont les performances en codage Python sont proches de l’état de l’art. Ces travaux précédents proposaient d’utiliser des grands modèles de langage (LLM) existants pour générer des données de « qualité manuel scolaire » afin d’améliorer le processus d’apprentissage par rapport aux données web traditionnelles. Nous suivons l’approche « Textbooks Are All You Need », en nous concentrant cette fois sur le raisonnement de bon sens en langage naturel, et créons un nouveau modèle de 1,3 milliard de paramètres nommé \textbf{phi-1.5}, dont les performances sur les tâches en langage naturel sont comparables à celles de modèles 5 fois plus grands, et qui surpasse la plupart des LLM non frontier sur des tâches de raisonnement plus complexes comme les mathématiques de niveau primaire et le codage de base. Plus généralement, $phi-1.5$ présente de nombreuses caractéristiques de LLM bien plus grands, aussi bien les bonnes — comme la capacité à « penser étape par étape » ou à effectuer un apprentissage en contexte rudimentaire — que les mauvaises, notamment les hallucinations et le potentiel de générer des contenus toxiques ou biaisés. Fait encourageant, nous constatons toutefois une amélioration sur ce point grâce à l’absence de données web. Nous avons open sourcé $phi-1.5$ afin de favoriser de nouvelles recherches sur ces sujets urgents.
We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate
textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow theTextbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.
Lien vers l’article
https://arxiv.org/abs/2309.05463
Pour aller plus loin
https://x.com/omarsar0/status/1701590130270601422
L’essor et le potentiel des agents fondés sur les grands modèles de langage : article de synthèse / The Rise and Potential of Large Language Model Based Agents: A Survey
Présentation de l’article
- Vue d’ensemble complète des agents fondés sur les LLM, couvrant aussi bien la manière de les construire que celle de les exploiter utilement. #survey-paper
A comprehensive overview of llm based agents; covers from how to construct these agents to how to harness them for good.
Résumé de l’article
- L’humanité poursuit depuis longtemps une intelligence artificielle (IA) équivalente ou supérieure à l’humain, et les agents IA ont été considérés comme un moyen prometteur d’atteindre cet objectif. Les agents IA sont des entités artificielles qui perçoivent leur environnement, prennent des décisions et agissent. Depuis le milieu du XXe siècle, de nombreux efforts ont été déployés pour développer des agents IA intelligents. Cependant, ces efforts se sont principalement concentrés sur les avancées algorithmiques ou les stratégies d’entraînement visant à améliorer des capacités spécifiques ou les performances sur des tâches particulières. En réalité, ce qui manque à la communauté, c’est un modèle suffisamment général et puissant pour servir de point de départ à la conception d’agents IA capables de s’adapter à des scénarios variés. Grâce à leur polyvalence et à leurs capacités remarquables, les grands modèles de langage (LLM) sont considérés comme de potentielles étincelles vers l’intelligence artificielle générale (AGI), et offrent un espoir pour la construction d’agents IA généralistes. De nombreux travaux de recherche ont exploité les LLM comme fondation pour construire des agents IA et ont obtenu des avancées significatives. L’article commence par retracer le concept d’agent depuis ses origines philosophiques jusqu’à son développement en IA, puis explique pourquoi les LLM constituent une base adaptée aux agents IA. Sur cette base, il présente un cadre conceptuel pour les agents fondés sur les LLM, composé de trois éléments principaux : le cerveau, la perception et l’action, cadre qui peut être adapté à différentes applications. Il explore ensuite les vastes applications des agents fondés sur les LLM sous trois angles : les scénarios à agent unique, les scénarios multi-agents et la coopération entre humains et agents. Il se penche ensuite sur les sociétés d’agents, en examinant le comportement et la personnalité des agents fondés sur les LLM, les phénomènes sociaux qui émergent lorsqu’ils forment des sociétés, ainsi que les enseignements qu’ils apportent sur la société humaine. Enfin, il discute d’un ensemble de thèmes majeurs et de problèmes encore ouverts dans ce domaine.
For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.
Lien vers l’article
https://arxiv.org/abs/2309.07864
Pour aller plus loin
https://x.com/omarsar0/status/1702736490067890239
EvoDiff
Présentation de l’article
- Associe des données à l’échelle évolutive à des modèles de diffusion pour une génération contrôlable de protéines dans l’espace des séquences ; cela permet de générer des protéines inaccessibles aux modèles fondés sur la structure. #diffusion
Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.
Lien vers l’article
https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1
Pour aller plus loin
https://x.com/KevinKaichuang/status/1701953715312136302
RAIN : vos modèles de langage peuvent s’aligner eux-mêmes sans finetuning / RAIN: Your Language Models Can Align Themselves without Finetuning
Présentation de l’article
- En intégrant des mécanismes d’auto-évaluation et de retour en arrière, l’étude montre que des llms non alignés peuvent produire directement, via auto-renforcement, des réponses conformes aux préférences humaines.
Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.
Résumé de l’article
- Les grands modèles de langage (LLM) présentent souvent des divergences avec les préférences humaines. Les travaux antérieurs collectaient des données de préférences humaines, puis alignaient les modèles préentraînés à l’aide de l’apprentissage par renforcement ou de l’instruction tuning, c’est-à-dire l’étape de fine-tuning. À l’inverse, aligner des LLM figés sans données supplémentaires est plus séduisant. Cette étude explore le potentiel de cette seconde approche. Les auteurs montrent qu’en intégrant des mécanismes d’auto-évaluation et de rembobinage, des LLM non alignés peuvent produire directement des réponses conformes aux préférences humaines via un auto-renforcement. Unity introduit une nouvelle méthode d’inférence, Rewindable Auto-regressive INference (RAIN), qui permet à des LLM préentraînés d’évaluer leurs propres générations et d’utiliser ces évaluations pour guider le rembobinage en arrière et la génération vers l’avant dans une optique de sécurité de l’IA. En particulier, RAIN fonctionne sans données supplémentaires pour l’alignement du modèle et ne nécessite ni entraînement, ni calcul de gradient, ni mise à jour de paramètres ; pendant la phase d’auto-évaluation, le modèle reçoit via un prompt à modèle fixe des indications sur la préférence humaine à suivre, ce qui évite de modifier le prompt initial. Les résultats expérimentaux, évalués par GPT-4 et par des humains, démontrent l’efficacité de RAIN. Sur le jeu de données HH, RAIN améliore le taux d’innocuité de LLaMA 30B de 82 % à 97 % par rapport à l’inférence vanilla, tout en maintenant le taux d’utilité. Face à
llm-attacks, la principale attaque adversariale contre Vicuna 33B, RAIN établit une nouvelle référence défensive en réduisant le taux de réussite de l’attaque de 94 % à 19 %.Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.
Lien vers l’article
https://arxiv.org/abs/2309.07124
Pour aller plus loin
https://x.com/omarsar0/status/1702131444041011395
Apprentissage du parkour robotique / Robot Parkour Learning
Présentation de l’article
- Présente un système d’apprentissage d’une politique de parkour end-to-end basée sur la vision, transférée à un robot quadrupède à l’aide de sa caméra de profondeur égocentrée ; montre que des robots à faible coût peuvent sélectionner et exécuter automatiquement des compétences de parkour dans un environnement réel.
Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.
Résumé de l’article
- Le parkour constitue un grand défi pour la locomotion des robots à pattes, car il leur impose de franchir rapidement divers obstacles dans des environnements complexes. Les approches existantes permettent soit de générer des compétences locomotrices variées mais aveugles, soit des compétences spécialisées fondées sur la vision, en s’appuyant sur des données animales de référence ou sur des récompenses complexes. Cependant, pour réaliser un parkour autonome, les robots doivent apprendre des compétences généralisables à la fois fondées sur la vision et suffisamment diverses pour percevoir et réagir à des scénarios variés. Dans ce travail, les auteurs proposent un système capable d’apprendre une politique unique de parkour end-to-end fondée sur la vision, couvrant des compétences variées, à l’aide d’une récompense simple et sans aucune donnée de mouvement de référence. Ils développent une méthode d’apprentissage par renforcement inspirée de la collocation directe afin de générer des compétences de parkour, notamment l’escalade de hauts obstacles, le saut au-dessus de grands écarts, le passage en rampant sous des barrières basses, le franchissement de fentes étroites et la course. Ils distillent ensuite ces compétences dans une politique unique de parkour basée sur la vision, puis la transfèrent à un robot quadrupède à l’aide de sa caméra de profondeur égocentrée. Leur système montre que deux robots low cost différents peuvent sélectionner et exécuter de manière autonome les compétences de parkour appropriées pour traverser des environnements réels difficiles.
Parkour est un grand défi pour la locomotion des robots à pattes, car il leur impose de franchir rapidement divers obstacles dans des environnements complexes. Les méthodes existantes peuvent générer soit des compétences locomotrices diverses mais aveugles, soit des compétences spécialisées basées sur la vision, en utilisant des données animales de référence ou des récompenses complexes. Cependant, le parkour autonome exige que les robots apprennent des compétences généralisables, à la fois fondées sur la vision et diversifiées, afin de percevoir et de réagir à différents scénarios. Dans ce travail, nous proposons un système pour apprendre une politique unique de parkour end-to-end basée sur la vision, couvrant diverses compétences de parkour à l’aide d’une récompense simple et sans aucune donnée de mouvement de référence. Nous développons une méthode d’apprentissage par renforcement inspirée de la collocation directe pour générer des compétences de parkour, notamment grimper sur de hauts obstacles, sauter par-dessus de grands écarts, ramper sous des barrières basses, se faufiler dans de fines ouvertures et courir. Nous distillons ces compétences dans une politique unique de parkour basée sur la vision et la transférons à un robot quadrupède à l’aide de sa caméra de profondeur égocentrée. Nous montrons que notre système permet à deux robots low cost différents de sélectionner et d’exécuter de manière autonome les compétences de parkour appropriées pour traverser des environnements réels difficiles.
Lien vers l’article
https://arxiv.org/abs/2309.05665
Pour aller plus loin
https://x.com/zipengfu/status/1701316023612219445
Enquête sur les hallucinations dans les grands modèles de fondation / A Survey of Hallucination in Large Foundation Models
Présentation de l’article
- Classe différentes formes d’hallucination et fournit des critères d’évaluation ainsi que des stratégies d’atténuation. #survey-paper #foundation-model
Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.
Résumé de l’article
- Dans les modèles de fondation (FM), l’hallucination désigne la génération de contenus qui s’écartent de la réalité factuelle ou contiennent des informations fabriquées. Cet article de synthèse offre une vue d’ensemble approfondie des efforts récents visant à identifier, expliquer et traiter le problème des hallucinations, avec un accent particulier sur les « grands » modèles de fondation (LFM). L’article classe les différents types de phénomènes d’hallucination propres aux LFM et établit des critères d’évaluation pour mesurer l’ampleur de ces hallucinations. Il examine également les stratégies existantes pour atténuer les hallucinations dans les LFM et discute des orientations possibles pour les recherches futures dans ce domaine. En somme, il propose un examen complet des défis et des solutions liés aux hallucinations dans les LFM.
Hallucination dans un modèle de fondation (FM) désigne la génération de contenus qui s’écartent de la réalité factuelle ou incluent des informations fabriquées. Cet article de synthèse fournit une vue d’ensemble étendue des efforts récents visant à identifier, élucider et traiter le problème des hallucinations, avec un accent particulier sur les « Large » Foundation Models (LFM). L’article classe divers types de phénomènes d’hallucination propres aux LFM et établit des critères d’évaluation pour mesurer l’ampleur des hallucinations. Il examine également les stratégies existantes pour atténuer les hallucinations dans les LFM et discute des orientations potentielles de la recherche future dans ce domaine. En substance, il offre un examen complet des défis et des solutions liés aux hallucinations dans les LFM.
Lien vers l’article
https://arxiv.org/abs/2309.05922
Pour aller plus loin
https://x.com/omarsar0/status/1701970034711539839
Agents : un framework open source pour les agents de langage autonomes / Agents: An Open-source Framework for Autonomous Language Agents
Présentation de l’article
- Il s’agit d’une bibliothèque open source destinée à créer des agents de langage autonomes, avec des fonctionnalités telles que la planification, la mémoire, l’utilisation d’outils, la communication multi-agents, etc.
An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.
Résumé de l’article
- Les récents progrès des grands modèles de langage (LLM) permettent aux chercheurs et aux développeurs de créer des agents linguistiques autonomes capables de résoudre automatiquement diverses tâches et d’interagir avec des environnements, des humains et d’autres agents via des interfaces en langage naturel. Nous considérons les agents linguistiques comme une voie prometteuse vers l’intelligence artificielle générale et publions Agents, une bibliothèque open source visant à rendre ces avancées accessibles à un public plus large de non-spécialistes. Agents a été soigneusement conçu pour prendre en charge des fonctionnalités importantes, notamment la planification, la mémoire, l’utilisation d’outils, la communication multi-agents et le contrôle symbolique fin. Agents est convivial, car il permet à des non-spécialistes de créer, personnaliser, tester, ajuster et déployer des agents linguistiques autonomes de pointe avec peu de code. La bibliothèque est également adaptée à la recherche, grâce à sa conception modulaire qui la rend facilement extensible pour les chercheurs. Agents est disponible sur https://github.com/aiwaves-cn/agents.
Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.
Lien vers l’article
https://arxiv.org/abs/2309.07870
Pour aller plus loin
https://x.com/arankomatsuzaki/status/1702497897395396960
Radiology-Llama2 : grand modèle de langage de référence pour la radiologie / Radiology-Llama2: Best-in-Class Large Language Model for Radiology
Présentation de l’article
- Propose un LLM basé sur Llama 2, adapté à la radiologie ; il est ajusté sur un vaste jeu de données de rapports de radiologie afin de générer, à partir de constatations radiologiques, des conclusions cohérentes et cliniquement utiles.
Presents an llm based on llama 2 tailored for radiology; it's tuned on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiology findings.
Résumé de l’article
- Cet article présente Radiology-Llama2, un grand modèle de langage spécialisé pour la radiologie grâce à un processus appelé instruction tuning. Radiology-Llama2 repose sur l’architecture Llama2 et a été entraîné davantage sur un vaste jeu de données de rapports de radiologie afin de générer, à partir de constatations radiologiques, des conclusions cohérentes et cliniquement utiles. Les évaluations quantitatives à l’aide des métriques ROUGE sur les jeux de données MIMIC-CXR et OpenI montrent que Radiology-Llama2 atteint des performances de pointe par rapport aux autres modèles génératifs de langage, avec un score Rouge-1 de 0,4834 sur MIMIC-CXR et de 0,4185 sur OpenI. Des évaluations supplémentaires menées par des experts en radiologie soulignent les points forts du modèle en matière de compréhensibilité, de cohérence, de pertinence, de concision et d’utilité clinique. Ce travail illustre le potentiel de modèles de langage localisés, conçus et ajustés pour des domaines spécialisés comme la radiologie. Lorsqu’ils sont correctement évalués et déployés, de tels modèles peuvent transformer des domaines comme la radiologie en automatisant les tâches répétitives et en renforçant l’expertise humaine.
This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.
Lien vers l’article
https://arxiv.org/abs/2309.06419
Pour aller plus loin
https://x.com/omarsar0/status/1701774444052557965
Agents communicants pour le développement logiciel / Communicative Agents for Software Development
Présentation de l’article
- Présente chatdev, une entreprise virtuelle de développement logiciel alimentée par le chat et calquée sur le modèle en cascade ; elle montre l’efficacité de l’agent pour la génération de logiciels, en accomplissant même l’ensemble du processus de développement logiciel en moins de sept minutes pour moins d’un dollar.
Presents chatdev, a virtual chat-powered software development company mirroring the waterfall model; shows the efficacy of the agent in software generation, even completing the entire software development process in less than seven minutes for less than one dollar.
Résumé de l’article
- L’ingénierie logicielle est un domaine caractérisé par des processus décisionnels complexes, qui reposent souvent sur une intuition fine et la concertation. Les avancées récentes du deep learning ont commencé à révolutionner les pratiques d’ingénierie logicielle grâce à des conceptions sophistiquées mises en œuvre à différentes étapes du développement logiciel. Cet article présente un paradigme innovant qui exploite les grands modèles de langage (LLM) tout au long du processus complet de développement logiciel, en simplifiant et unifiant les processus clés via la communication en langage naturel, ce qui élimine le besoin de modèles spécialisés à chaque étape. Au cœur de ce paradigme se trouve ChatDev, une entreprise virtuelle de développement logiciel fondée sur le chat, qui reprend le modèle classique en cascade en divisant méticuleusement le processus de développement en quatre étapes chronologiques distinctes : conception, codage, test et documentation. Chaque étape mobilise une équipe d’agents, tels que des programmeurs, des relecteurs de code et des ingénieurs de test, afin de favoriser le dialogue collaboratif et un flux de travail fluide. La chaîne de chat agit comme un facilitateur, en décomposant chaque étape en sous-tâches atomiques. Cela permet de jouer un double rôle : proposer et valider des solutions grâce à une communication contextualisée, menant à une résolution efficace de sous-tâches spécifiques. L’analyse instrumentale de ChatDev met en évidence son efficacité remarquable pour la génération logicielle, permettant d’achever l’ensemble du processus de développement en moins de sept minutes pour un coût inférieur à un dollar. Le système identifie et atténue non seulement les vulnérabilités potentielles, mais corrige aussi les hallucinations potentielles, tout en conservant une excellente efficacité et un bon rapport coût-efficacité. Le potentiel de ChatDev ouvre de nouvelles possibilités pour l’intégration des LLM dans le domaine du développement logiciel.
Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
Lien vers l’article
https://arxiv.org/abs/2307.07924v3
Pour aller plus loin
https://x.com/KevinAFischer/status/1702355125418045860
MAmmoTH: construire des modèles généralistes en mathématiques grâce au réglage hybride par instructions / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning
Présentation de l’article
- Une série de modèles de machine learning open source conçus pour la résolution générale de problèmes mathématiques, entraînés sur un jeu de données de réglage par instructions soigneusement sélectionné, et qui surpassent les modèles open source existants sur plusieurs jeux de données de raisonnement mathématique. #mathglm
A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.
Résumé de l’article
- Présentation de MAmmoTH, une série de grands modèles de langage (LLM) open source spécialement adaptés à la résolution générale de problèmes de mathématiques. Les modèles MAmmoTH sont entraînés sur MathInstruct, un jeu de données d’instruction tuning soigneusement sélectionné. MathInstruct est compilé à partir de 13 jeux de données mathématiques avec des raisonnements intermédiaires, dont 6 incluent des raisonnements nouvellement curatorés par les auteurs. Cette solution propose un hybride unique entre chain-of-thought (CoT) et program-of-thought (PoT), tout en couvrant largement divers domaines des mathématiques. Le mélange de CoT et de PoT libère non seulement le potentiel de l’usage d’outils, mais permet aussi des processus de réflexion différents selon les problèmes mathématiques. En conséquence, la série MAmmoTH surpasse largement les modèles open source existants sur 9 jeux de données de raisonnement mathématique, toutes tailles confondues, avec un gain moyen de précision de 13 % à 29 %. Fait remarquable, sur MATH, un jeu de données de niveau compétition, le modèle MAmmoTH-7B atteint 35 %, dépassant de 25 % le meilleur modèle open source 7B (WizardMath), tandis que le modèle MAmmoTH-34B atteint 46 % de précision sur MATH, surpassant même le résultat CoT de GPT-4. Cette étude souligne l’importance d’une couverture variée des problèmes et de l’usage de raisonnements hybrides pour développer de meilleurs modèles généralistes en mathématiques.
We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 13% and 29%. Remarkably, our MAmmoTH-7B model reaches 35% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 25%, and the MAmmoTH-34B model achieves 46% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.
Lien vers l’article
https://arxiv.org/abs/2309.05653
Pour aller plus loin
https://x.com/xiangyue96/status/1701710215442309323
Texte original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461
Aucun commentaire pour le moment.