17] Les principaux articles ML de la semaine (Top ML Papers of the Week)

(discuss.pytorch.kr)

2 points par ninebow 2023-12-18 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Vue d’ensemble

Nous avons automatiquement traduit les articles sur les publications ML publiées chaque semaine par DAIR.AI.
En examinant les publications sélectionnées cette semaine, on remarque que la recherche sur les « LLM (Large Language Models) » domine largement. Plus précisément, des analyses semblent avoir été menées sur l’usage et l’amélioration des performances des LLM dans des domaines variés, allant des découvertes en mathématiques aux problèmes de généralisation, en passant par les applications médicales et les méthodes d’apprentissage au-delà des données humaines.
Cette tendance reflète l’attention portée au développement des LLM dans le domaine de l’intelligence artificielle ces dernières années. En particulier, l’émergence de grands modèles de langage comme GPT-3 d’OpenAI a considérablement élargi les possibilités d’application de ces modèles à de nombreux domaines. Cela suggère que les LLM peuvent jouer un rôle important non seulement dans le traitement de texte, mais aussi dans la résolution de problèmes complexes, et les publications de cette semaine montrent qu’ils étendent leur influence jusqu’à des domaines traditionnels comme les mathématiques et la médecine. Par ailleurs, la tendance à privilégier la transparence et l’ouverture souligne l’importance de la fiabilité et de la collaboration dans la recherche et les applications.
Des publications comme « Weak-to-strong Generalization » ou « Beyond Human Data for LLMs » laissent également entrevoir des recherches sur les capacités de généralisation et les méthodologies d’apprentissage des LLM, que l’on peut interpréter comme des tentatives de dépasser l’environnement d’apprentissage encore limité de ces modèles afin de développer des mécanismes d’apprentissage plus puissants. Cette tendance montre que la recherche sur les LLM ne se limite plus à l’amélioration des performances, mais s’oriente aussi vers un renforcement majeur de la capacité de généralisation et de l’utilité des modèles.

LLM pour les découvertes en sciences mathématiques / LLMs for Discoveries in Mathematical Sciences

Présentation de l’article

Utilise des LLM pour rechercher de nouvelles solutions en mathématiques et en informatique ; propose funsearch, qui combine un LLM préentraîné avec un évaluateur systématique, puis les fait itérer afin de faire évoluer des programmes obtenant de faibles scores en programmes à score élevé capables de découvrir de nouvelles connaissances ; l’un des principaux résultats de cette étude est qu’il est important de se prémunir contre les hallucinations des LLM pour produire des découvertes mathématiques et résoudre d’autres problèmes du monde réel.

Uses llms to search for new solutions in mathematics & computer science; proposes funsearch which combines a pre-trained llm with a systematic evaluator and iterates over them to evolve low-scoring programs into high-scoring ones discovering new knowledge; one of the key findings in this work is that safeguarding against llm hallucinations is important to produce mathematical discoveries and other real-world problems.

Lien vers l’article

https://www.nature.com/articles/s41586-023-06924-6

Pour aller plus loin

https://x.com/GoogleDeepMind/status/1735332722208284797

Généralisation du faible vers le fort / Weak-to-strong Generalization

Présentation de l’article

Étudie si la supervision par un modèle faible peut faire émerger toutes les capacités de modèles plus puissants, et constate qu’un simple fine-tuning de modèles préentraînés puissants sur des labels générés par un modèle faible peut leur permettre de surpasser leur superviseur faible ; rapporte qu’en affinant GPT-4 avec un superviseur de niveau GPT-2, il est possible de retrouver des performances proches du niveau GPT-3.5 sur des tâches de NLP.

Studies whether weak model supervision can elicit the full capabilities of stronger models; finds that when naively fine-tuning strong pretrained models on weak model generated labels they can perform better than their weak supervisors; reports that finetuning gpt-4 with a gpt-2-level supervisor it’s possible to recover close to gpt-3.5-level performance on nlp tasks.

Lien vers l’article

https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

Pour aller plus loin

https://x.com/OpenAI/status/1735349718765715913

Audiobox / Audiobox

Présentation de l’article

Modèle unifié basé sur le flow-matching capable de générer diverses modalités audio ; conçoit des prompts fondés sur des descriptions et des exemples pour améliorer la contrôlabilité et unifier les paradigmes de génération de voix et de sons ; adapte un objectif d’infilling auto-supervisé pour le préentraînement sur de grandes quantités d’audio non labellisé ; affiche de solides performances en génération de voix et de sons et ouvre de nouvelles méthodes pour générer de l’audio avec des styles vocaux et acoustiques inédits.

A unified model based on flow-matching capable of generating various audio modalities; designs description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms; adapts a self-supervised infilling objective to pre-train on large quantities of unlabeled audio; performs well on speech and sound generation and unlocks new methods for generating audio with novel vocal and acoustic styles.

Lien vers l’article

https://ai.meta.com/research/publications/…

Pour aller plus loin

https://x.com/AIatMeta/status/1734257634008531453

Modèles de langage mathématique : enquête / Mathematical Language Models: A Survey

Présentation de l’article

Enquête sur les progrès des LLM dans les tâches mathématiques ; couvre des articles et des ressources sur la recherche autour des LLM concernant les techniques de prompting et des tâches comme la résolution de problèmes mathématiques rédigés et la démonstration de théorèmes.

A survey on the progress of llms on mathematical tasks; covers papers and resources on llm research around prompting techniques and tasks such as math word problem-solving and theorem proving.

Résumé de l’article

Ces dernières années, des progrès remarquables ont été réalisés dans l’exploitation des Language Models (LM), englobant les Pre-trained Language Models (PLM) et les Large-scale Language Models (LLM), dans le domaine des mathématiques. Cet article propose une étude exhaustive des LM mathématiques, en classant systématiquement les principaux efforts de recherche selon deux perspectives distinctes : les tâches et les méthodologies. Le paysage actuel révèle un grand nombre de LLM mathématiques proposés, eux-mêmes répartis entre l’apprentissage par instruction, les méthodes fondées sur des outils, les techniques fondamentales de CoT et les méthodologies avancées de CoT. En outre, cette étude compile plus de 60 jeux de données mathématiques, dont des jeux de données d’entraînement, de benchmark et de données augmentées. En s’attaquant aux principaux défis et en esquissant les trajectoires futures du domaine des LM mathématiques, cette étude se positionne comme une ressource précieuse, apte à faciliter et inspirer les futures innovations parmi les chercheurs investis dans l’avancement de ce domaine.

In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain.

Lien vers l’article

https://arxiv.org/abs/2312.07622

Pour aller plus loin

https://x.com/omarsar0/status/1735323577392542084

LLM360: vers des LLM open source totalement transparents / LLM360: Towards Fully Transparent Open-Source LLMs

Présentation de l’article

Présente LLM360 pour soutenir une recherche en IA ouverte et collaborative en rendant transparent et reproductible le processus d’entraînement machine learning de bout en bout, et publie Amber et CrystalCoder, deux modèles de machine learning de 7B paramètres pré-entraînés depuis zéro, avec leur code d’entraînement, leurs données, leurs checkpoints intermédiaires et leurs analyses.

Proposes llm360 to support open and collaborative ai research by making the end-to-end llm training process transparent and reproducible; releases 7b parameter llms pre-trained from scratch, amber and crystalcoder, including their training code, data, intermediate checkpoints, and analyses.

Résumé de l’article

La récente vague de Large Language Models (LLM) open source, comme LLaMA, Falcon et Mistral, offre de nombreuses options aux praticiens et chercheurs en IA. Cependant, la plupart des LLM ne publient que des artefacts partiels, comme les poids finaux du modèle ou le code d’inférence, tandis que les rapports techniques limitent de plus en plus leur portée à des choix de conception de haut niveau et à des statistiques superficielles. Ces choix freinent les progrès du domaine en réduisant la transparence sur l’entraînement des LLM et en obligeant les équipes à redécouvrir de nombreux détails du processus d’entraînement. Unity présente LLM360, une initiative visant à rendre les LLM entièrement open source, en plaidant pour la mise à disposition à la communauté de tout le code d’entraînement et des données, des checkpoints du modèle et des résultats intermédiaires. L’objectif de LLM360 est de soutenir une recherche en IA ouverte et collaborative en rendant le processus d’entraînement de bout en bout des LLM transparent et reproductible pour tous. Dans une première étape de LLM360, Unity publie deux LLM de 7B paramètres pré-entraînés depuis zéro, Amber et CrystalCoder, avec leur code d’entraînement, leurs données, leurs checkpoints intermédiaires et leurs analyses (https://www.llm360.ai). Unity affirme son engagement à repousser en permanence les limites des LLM grâce à cet effort open source. Des modèles plus vastes et plus performants sont en cours de développement et seront publiés ultérieurement.

The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.

Lien vers l’article

https://arxiv.org/abs/2312.06550

Pour aller plus loin

https://x.com/omarsar0/status/1734591071575744820

Étude sur les Large Language Models dans le domaine médical : principes, applications et défis / A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges

Présentation de l’article

Une enquête exhaustive sur le machine learning en médecine (analyse de plus de 300 articles), qui comprend une vue d’ensemble des principes, des applications et des défis auxquels le machine learning en médecine est confronté.

A comprehensive survey (analyzing 300+ papers) on llms in medicine; includes an overview of the principles, applications, and challenges faced by llms in medicine.

Résumé de l’article

Les grands modèles de langage (LLM), comme ChatGPT, ont suscité une attention considérable en raison de leurs impressionnantes capacités de compréhension et de génération du langage humain. Par conséquent, l’application des LLM en médecine pour aider les médecins et la prise en charge des patients apparaît comme une direction de recherche prometteuse, à la croisée de l’intelligence artificielle et de la médecine clinique. Pour refléter cette tendance, cette enquête propose une vue d’ensemble complète des principes, des applications et des défis auxquels les LLM en médecine sont confrontés. Plus précisément, elle vise à répondre aux questions suivantes : 1) Comment construire des LLM médicaux ? 2) Quelles sont les performances downstream des LLM médicaux ? 3) Comment les LLM médicaux peuvent-ils être utilisés dans la pratique clinique réelle ? 4) Quels problèmes découlent de l’utilisation des LLM médicaux ? 5) Comment mieux construire et utiliser les LLM médicaux ? En définitive, cette enquête vise à fournir des éclairages sur les opportunités et les défis des LLM en médecine et à servir de ressource précieuse pour construire des LLM médicaux pratiques et efficaces. Une liste régulièrement mise à jour de guides pratiques sur les LLM médicaux est disponible sur https://github.com/AI-in-Health/MedLLMsPracticalGuide.

Large language models (LLMs), such as ChatGPT, have received substantial attention due to their impressive human language understanding and generation capabilities. Therefore, the application of LLMs in medicine to assist physicians and patient care emerges as a promising research direction in both artificial intelligence and clinical medicine. To reflect this trend, this survey provides a comprehensive overview of the principles, applications, and challenges faced by LLMs in medicine. Specifically, we aim to address the following questions: 1) How can medical LLMs be built? 2) What are the downstream performances of medical LLMs? 3) How can medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? and 5) How can we better construct and utilize medical LLMs? As a result, this survey aims to provide insights into the opportunities and challenges of LLMs in medicine and serve as a valuable resource for constructing practical and effective medical LLMs. A regularly updated list of practical guides on medical LLMs can be found at https://github.com/AI-in-Health/MedLLMsPracticalGuide.

Lien vers l’article

https://arxiv.org/abs/2311.05112

Pour aller plus loin

https://x.com/omarsar0/status/1734599425568231513

Au-delà des données humaines : étendre l’auto-apprentissage pour la résolution de problèmes avec les modèles de langage / Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Présentation de l’article

Propose une approche d’auto-apprentissage avec feedback capable de réduire substantiellement la dépendance aux données générées par l’humain ; les données générées par le modèle, combinées à une fonction de récompense, améliorent les performances des LLM sur les tâches de résolution de problèmes.

Proposes an approach for self-training with feedback that can substantially reduce dependence on human-generated data; the model-generated data combined with a reward function improves the performance of llms on problem-solving tasks.

Résumé de l’article

Le fine-tuning des modèles de langage (LM) sur des données générées par des humains reste une pratique largement répandue. Cependant, les performances de tels modèles sont souvent limitées par la quantité et la diversité des données humaines de haute qualité. Dans cet article, les auteurs examinent s’il est possible d’aller au-delà des données humaines sur des tâches pour lesquelles on dispose d’un feedback scalaire, par exemple des problèmes de mathématiques dont on peut vérifier la justesse. Pour cela, ils étudient une méthode simple d’auto-apprentissage fondée sur l’Expectation-Maximization, appelée ReST $^{EM}$, qui consiste à (1) générer des échantillons à partir du modèle et les filtrer à l’aide d’un feedback binaire, (2) affiner le modèle sur ces échantillons, puis (3) répéter ce processus plusieurs fois. En testant des benchmarks avancés de raisonnement mathématique MATH et de code APPS avec des modèles PaLM-2, ils constatent que ReST $^{EM}$ passe favorablement à l’échelle avec la taille du modèle et dépasse significativement le fine-tuning réalisé uniquement sur des données humaines. Globalement, ces résultats suggèrent que l’auto-apprentissage avec feedback peut réduire de manière substantielle la dépendance aux données générées par l’humain.

Fine-tuning language models(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST $^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST $^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.

Lien vers l’article

https://arxiv.org/abs/2312.06585

Pour aller plus loin

https://x.com/omarsar0/status/1734953578274386002

Gaussian-SLAM

Présentation de l’article

Une méthode de SLAM neural RGBD capable de reconstruire photoréalistement des scènes réelles sans compromettre la vitesse ni l’efficacité ; elle étend l’approche classique des gaussiennes 3D pour la représentation de scène afin de surmonter les limites des méthodes précédentes.

A neural rgbd slam method capable of photorealistically reconstructing real-world scenes without compromising speed and efficiency; extends classical 3d gaussians for scene representation to overcome the limitations of the previous methods.

Lien vers l’article

https://vladimiryugay.github.io/gaussian_slam/

Pour aller plus loin

https://x.com/vlyug/status/1734683948440252480

Pearl : un agent d’apprentissage par renforcement prêt pour la production / Pearl: A Production-ready Reinforcement Learning Agent

Présentation de l’article

Présentation d’un nouveau package logiciel d’agent d’IA prêt pour la production, qui permet aux chercheurs et aux praticiens de développer des agents d’IA en RL capables de s’adapter à des environnements à observabilité limitée, à feedback rare et à forte stochasticité.

Introduces a new production-ready rl agent software package that enables researchers and practitioners to develop rl ai agents that adapt to environments with limited observability, sparse feedback, and high stochasticity.

Résumé de l’article

L’apprentissage par renforcement (RL) offre un cadre polyvalent pour atteindre des objectifs de long terme. Sa généralité permet de formaliser un large éventail de problèmes auxquels sont confrontés les systèmes intelligents du monde réel, comme la gestion des récompenses différées, la prise en compte de l’observabilité partielle, le traitement du dilemme exploration-exploitation, l’utilisation de données offline pour améliorer les performances online et la garantie du respect des contraintes de sécurité. Malgré les progrès considérables réalisés par la communauté de recherche en RL pour répondre à ces enjeux, les bibliothèques open source de RL existantes ont tendance à se concentrer sur une partie étroite du pipeline de solution RL, en laissant largement de côté les autres aspects. Cet article présente Pearl, un package logiciel d’agent RL prêt pour la production, explicitement conçu pour prendre en charge ces défis de manière modulaire. En plus de présenter des résultats préliminaires de benchmark, l’article met en avant les adoptions industrielles de Pearl afin de démontrer sa maturité pour un usage en production. Pearl est open source sur Github à l’adresse github.com/facebookresearch/pearl, et son site officiel se trouve à pearlagent.github.io.

Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.

Lien vers l’article

https://arxiv.org/abs/2312.03814

Pour aller plus loin

https://x.com/ZheqingZhu/status/1732880717263352149

Quip / Quip

Présentation de l’article

Compression des poids d’un modèle entraîné dans un format à plus faible précision pour réduire les besoins mémoire ; l’approche combine des lattice codebooks avec un traitement de l’incohérence pour créer des modèles quantifiés sur 2 bits ; elle réduit fortement l’écart entre les LLM quantifiés sur 2 bits et les modèles non quantifiés sur 16 bits.

Compresses trained model weights into a lower precision format to reduce memory requirements; the approach combines lattice codebooks with incoherence processing to create 2 bit quantized models; significantly closes the gap between 2 bit quantized llms and unquantized 16 bit models.

[2023/12/11 ~ 12/17] Les principaux articles ML de la semaine (Top ML Papers of the Week)

Vue d’ensemble

LLM pour les découvertes en sciences mathématiques / LLMs for Discoveries in Mathematical Sciences

Présentation de l’article

Lien vers l’article

Pour aller plus loin

Généralisation du faible vers le fort / Weak-to-strong Generalization

Présentation de l’article

Lien vers l’article

Pour aller plus loin

Audiobox / Audiobox

Présentation de l’article

Lien vers l’article

Pour aller plus loin

Modèles de langage mathématique : enquête / Mathematical Language Models: A Survey

Présentation de l’article

Résumé de l’article

Lien vers l’article

Pour aller plus loin

LLM360: vers des LLM open source totalement transparents / LLM360: Towards Fully Transparent Open-Source LLMs

Présentation de l’article

Résumé de l’article

Lien vers l’article

Pour aller plus loin

Étude sur les Large Language Models dans le domaine médical : principes, applications et défis / A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges

Présentation de l’article

Résumé de l’article

Lien vers l’article

Pour aller plus loin

Au-delà des données humaines : étendre l’auto-apprentissage pour la résolution de problèmes avec les modèles de langage / Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

Présentation de l’article

Résumé de l’article

Lien vers l’article

Pour aller plus loin

Gaussian-SLAM

Présentation de l’article

Lien vers l’article

Pour aller plus loin

Pearl : un agent d’apprentissage par renforcement prêt pour la production / Pearl: A Production-ready Reinforcement Learning Agent

Présentation de l’article

Résumé de l’article

Lien vers l’article

Pour aller plus loin

Quip / Quip

Présentation de l’article

Lien vers l’article

Pour aller plus loin

Texte original

À lire aussi

Aucun commentaire pour le moment.