[2023/10/30 ~ 11/07] Les principaux articles ML de la semaine (Top ML Papers of the Week)
(discuss.pytorch.kr)Aperçu
-
J’ai automatiquement traduit les articles sur les publications ML publiées chaque semaine par DAIR.AI.
-
Les articles soumis cette semaine portent sur les grands modèles de langage (Large Language Models, LLMs) et l’évaluation de leurs performances. En particulier, des articles comme « Evaluating LLMs », « LLMs for Chip Design », « Efficient Context Window Extension of LLMs » et « Enhancing LLMs by Emotion Stimuli » montrent que diverses pistes d’application et d’optimisation des LLM y sont discutées.
-
Cette tendance reflète l’importance croissante des LLM dans le domaine de l’intelligence artificielle au cours des dernières années. En particulier, des modèles de premier plan comme la série GPT d’OpenAI ont affiché des résultats impressionnants sur de nombreuses tâches de traitement automatique du langage naturel (NLP), ce qui pousse les chercheurs à se concentrer sur des travaux visant à faire progresser encore ces modèles ou à les appliquer à de nouveaux problèmes. Parallèlement, l’intérêt grandit aussi pour les moyens d’améliorer l’efficacité des modèles et d’enrichir davantage leurs entrées et sorties en exploitant des éléments comme les émotions ou le contexte situationnel.
-
Par ailleurs, des articles comme « Next Generation AlphaFold » semblent explorer des approches innovantes en appliquant des méthodologies de machine learning à des domaines spécialisés comme la biologie structurale, dans un contexte autre que celui des LLM. Cette tendance de la recherche suggère que les technologies de machine learning et de deep learning dépassent le simple cadre des avancées théoriques pour évoluer vers des applications concrètes dans l’industrie, la science, la médecine et bien d’autres domaines.
Deep learning pour les prévisions météo à la journée à partir d’observations clairsemées / Deep Learning for Day Forecasts from Sparse Observations
Présentation de l’article
- Modèle météorologique neuronal de pointe qui étend à la fois l’horizon de prévision et les variables qu’un modèle fondé sur les observations peut bien prédire ; il apprend à partir de capteurs de données denses comme clairsemées et produit des prévisions jusqu’à 24 heures à l’avance pour les précipitations, le vent, la température et le point de rosée.
> A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.
Résumé de l’article
- Les réseaux neuronaux profonds offrent un paradigme alternatif pour la modélisation des conditions météorologiques. Leur capacité à produire une prévision en moins d’une seconde une fois les données disponibles, à le faire avec une très haute résolution temporelle et spatiale, et à apprendre directement à partir des observations atmosphériques ne sont que quelques-uns de leurs avantages uniques. Jusqu’à présent, les modèles neuronaux entraînés à partir d’observations atmosphériques — les données les plus fidèles et les moins sujettes à la latence — n’ont obtenu de bonnes performances que jusqu’à douze heures d’horizon lorsqu’on les compare aux modèles probabilistes de prévision numérique du temps les plus avancés, et uniquement pour la variable des précipitations. Dans cet article, nous présentons MetNet-3, qui étend de manière significative à la fois l’horizon de prévision et les variables qu’un modèle neuronal fondé sur les observations peut bien prédire. MetNet-3 apprend à partir de capteurs de données denses comme clairsemées et produit des prévisions jusqu’à 24 heures à l’avance pour les précipitations, le vent, la température et le point de rosée. MetNet-3 introduit une technique clé de densification qui capture implicitement l’assimilation de données et génère des prévisions spatialement denses malgré un entraînement du réseau sur des cibles extrêmement clairsemées. MetNet-3 offre une haute résolution temporelle et spatiale, respectivement jusqu’à 2 minutes et 1 km, ainsi qu’une faible latence opérationnelle. Nous constatons que MetNet-3 surpasse les meilleurs modèles NWP mono-membre et multi-membres, tels que HRRR et ENS, sur la région CONUS jusqu’à 24 heures à l’avance, établissant ainsi un nouveau jalon de performance pour les modèles neuronaux fondés sur les observations. MetNet-3 est déjà en production, et ses prévisions sont diffusées dans Google Search en conjonction avec d’autres modèles.
> Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.
Lien vers l’article
https://arxiv.org/abs/2306.06079
Pour aller plus loin
https://x.com/GoogleAI/status/1719774923294687636
Évaluer les grands modèles de langage : une enquête complète / Evaluating Large Language Models: A Comprehensive Survey
Présentation de l’article
- Fournit une enquête complète (plus de 100 pages) sur l’évaluation des LLM, avec des discussions sur les différents types d’évaluation, jeux de données, techniques, etc. #llm-survey #llm-evaluation
> A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.
Résumé de l’article
- Les grands modèles de langage (LLM) ont démontré des capacités remarquables sur un large éventail de tâches. Ils ont suscité une attention considérable et ont été déployés dans de nombreuses applications en aval. Néanmoins, à l’image d’une arme à double tranchant, les LLM présentent aussi des risques potentiels. Ils peuvent entraîner des fuites de données privées ou générer des contenus inappropriés, nuisibles ou trompeurs. En outre, les progrès rapides des LLM soulèvent des inquiétudes quant à l’émergence possible de systèmes superintelligents sans garde-fous adéquats. Afin de tirer efficacement parti des capacités des LLM tout en garantissant leur développement sûr et bénéfique, il est essentiel de mener une évaluation rigoureuse et exhaustive des LLM. Cette enquête s’efforce d’offrir une perspective panoramique de l’évaluation des LLM. Elle classe l’évaluation des LLM en trois grands groupes : l’évaluation des connaissances et des capacités, l’évaluation de l’alignement et l’évaluation de la sécurité. En plus d’un examen approfondi des méthodologies d’évaluation et des benchmarks sur ces trois aspects, elle rassemble un compendium d’évaluations liées aux performances des LLM dans des domaines spécialisés et discute de la construction de plateformes d’évaluation complètes couvrant les capacités, l’alignement, la sécurité et l’applicabilité des LLM. Nous espérons que cette vue d’ensemble exhaustive stimulera davantage de recherches sur l’évaluation des LLM, avec pour objectif ultime de faire de l’évaluation une pierre angulaire guidant le développement responsable des LLM. Nous espérons ainsi orienter leur évolution dans une direction qui maximise les bénéfices pour la société tout en minimisant les risques potentiels. Une liste sélectionnée d’articles connexes est disponible à l’adresse https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
> Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
Lien vers l’article
https://arxiv.org/abs/2310.19736
Pour aller plus loin
https://x.com/omarsar0/status/1719351676828602502
La bataille des backbones : comparaison à grande échelle de modèles préentraînés sur l’ensemble des tâches de vision par ordinateur / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
Présentation de l’article
- Un framework de benchmarking à grande échelle pour un ensemble diversifié de tâches de vision par ordinateur ; nous constatons que, bien que les vision transformers (ViT) et l’apprentissage auto-supervisé (SSL) gagnent en popularité, les réseaux neuronaux convolutionnels préentraînés de manière supervisée sur de grands jeux de données d’entraînement offrent les meilleures performances sur la plupart des tâches. #self-supervised #vision-transformer
> A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.
Résumé de l’article
- Les systèmes de vision par ordinateur à base de réseaux neuronaux reposent généralement sur un backbone, c’est-à-dire un extracteur de caractéristiques préentraîné ou initialisé aléatoirement. Il y a encore quelques années, l’option par défaut était un réseau neuronal convolutionnel entraîné sur ImageNet. Cependant, ces derniers temps, d’innombrables backbones préentraînés à l’aide de divers algorithmes et jeux de données ont fait leur apparition. Si cette abondance de choix a permis d’améliorer les performances d’un large éventail de systèmes, il reste difficile pour les praticiens de prendre une décision éclairée quant au backbone à choisir. Battle of the Backbones (BoB) facilite ce choix en benchmarkant un ensemble diversifié de modèles préentraînés, notamment des modèles vision-langage, des modèles entraînés via self-supervised learning et le backbone de Stable Diffusion, sur un large éventail de tâches de vision par ordinateur allant de la classification à la détection d’objets, en passant par la généralisation OOD, entre autres. En outre, BoB met en lumière des pistes prometteuses pour faire progresser la vision par ordinateur en soulignant les forces et les faiblesses des approches existantes grâce à une analyse complète menée sur plus de 1 500 entraînements. Bien que les vision transformers (ViT) et le self-supervised learning (SSL) gagnent en popularité, les auteurs constatent que les réseaux neuronaux convolutionnels préentraînés de manière supervisée sur de grands ensembles d’entraînement restent les plus performants sur la plupart des tâches parmi les modèles étudiés. Ils constatent également que, dans des comparaisons à périmètre égal sur les mêmes architectures et des jeux de données de préentraînement de taille similaire, les backbones SSL sont très compétitifs, ce qui indique que les futurs travaux devraient mener un préentraînement SSL avec des architectures plus avancées et des jeux de données de préentraînement plus vastes. Les résultats bruts des expériences ainsi que le code permettant aux chercheurs de tester leurs propres backbones sont publiés ici (https://github.com/hsouri/Battle-of-the-Backbones)
> Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: https://github.com/hsouri/Battle-of-the-Backbones
Lien vers l’article
https://arxiv.org/abs/2310.19909
Pour aller plus loin
https://x.com/micahgoldblum/status/1719719308882801045
ChipNeMo : LLM adaptés au domaine pour la conception de puces / ChipNeMo: Domain-Adapted LLMs for Chip Design
Présentation de l’article
- Proposition d’utiliser des LLM pour la conception industrielle de puces en s’appuyant sur des techniques d’adaptation au domaine, avec évaluation de différentes applications pour la conception de puces comme un chatbot assistant, l’automatisation de la conception électronique et la synthèse de bugs ; l’adaptation au domaine améliore significativement les performances par rapport aux modèles généralistes sur une variété de tâches de conception ; l’utilisation d’un llm adapté au domaine pour le rag améliore encore la qualité des réponses.
> Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.
Résumé de l’article
- ChipNeMo vise à explorer les applications des grands modèles de langage (LLM) à la conception industrielle de puces. Au lieu de déployer directement des LLM commerciaux ou open source prêts à l’emploi, il adopte des techniques d’adaptation au domaine comme une tokenisation personnalisée, un préentraînement continu adapté au domaine, un fine-tuning supervisé (SFT) avec des instructions spécifiques au domaine, ainsi que des modèles de recherche adaptés au domaine. Ces méthodes sont évaluées sur trois applications LLM sélectionnées pour la conception de puces : un chatbot assistant d’ingénierie, la génération de scripts EDA, ainsi que le résumé et l’analyse de bugs. Les résultats montrent que ces techniques d’adaptation au domaine améliorent fortement les performances des LLM par rapport aux modèles de base généralistes sur les trois applications évaluées, permettant de réduire jusqu’à 5 fois la taille du modèle tout en obtenant des performances similaires ou meilleures sur diverses tâches de conception. Les résultats de cette étude montrent aussi qu’il reste encore une marge d’amélioration entre les résultats actuels et les résultats idéaux. Unity espère que de futures recherches sur des approches LLM adaptées au domaine aideront à réduire cet écart.
> ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.
Lien vers l’article
https://arxiv.org/abs/2311.00176
Pour aller plus loin
https://x.com/omarsar0/status/1720066328961159387
YaRN : extension efficace de la fenêtre de contexte des grands modèles de langage / YaRN: Efficient Context Window Extension of Large Language Models
Présentation de l’article
- Propose une méthode économe en calcul pour étendre efficacement la fenêtre de contexte des llms au-delà de celle utilisée pendant le préentraînement ; extrapole au-delà du contexte limité d’un jeu de données de fine-tuning, et des modèles ont été reproduits jusqu’à une longueur de contexte de 128k. #yarn
> Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.
Résumé de l’article
- Les embeddings positionnels rotatifs (RoPE) se sont révélés efficaces pour encoder l’information de position dans les modèles de langage basés sur les transformers. Cependant, ces modèles ne parviennent pas à généraliser au-delà de la longueur de séquence sur laquelle ils ont été entraînés. Nous présentons YaRN (Yet another RoPE extensioN method), une méthode économe en calcul pour étendre la fenêtre de contexte de tels modèles, qui nécessite 10 fois moins de tokens et 2,5 fois moins d’étapes d’entraînement que les méthodes précédentes. Grâce à YaRN, nous montrons que les modèles LLaMA peuvent exploiter efficacement et extrapoler vers des longueurs de contexte bien plus importantes que ne le permettait leur préentraînement d’origine, tout en dépassant l’état de l’art précédent en matière d’extension de fenêtre de contexte. En outre, YaRN démontre aussi une capacité à extrapoler au-delà du contexte limité d’un jeu de données de fine-tuning. Les modèles fine-tunés avec YaRN ont été mis à disposition en ligne et reproduits jusqu’à une longueur de contexte de 128k sur https://github.com/jquesnelle/yarn
> Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn
Lien vers l’article
https://arxiv.org/abs/2309.00071
Pour aller plus loin
https://x.com/theemozilla/status/1720107186850877662
https://discuss.pytorch.kr/t/yarn-rope-llm-10-2-5-context-window-128k/…
Jeu de données et défis Open DAC 2023 pour la découverte de sorbants dans la capture directe de l’air / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture
Présentation de l’article
- Présente un jeu de données composé de plus de 38 M de calculs de théorie de la fonctionnelle de la densité (DFT) sur plus de 8 800 matériaux MOF contenant du CO2 et/ou du H2O adsorbés. Le jeu de données permet d’identifier directement des propriétés pertinentes pour le DAC, et sert aussi à entraîner des modèles de ML de pointe afin d’approximer des calculs au niveau DFT, pouvant ainsi constituer une base de référence importante pour les futurs efforts visant à identifier des MOF pour un large éventail d’applications, y compris le DAC.
> Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.
Résumé de l’article
- De nouvelles méthodes d’élimination du dioxyde de carbone sont urgemment nécessaires pour lutter contre le changement climatique mondial. Le captage direct dans l’air (DAC) est une technologie émergente permettant de capturer le dioxyde de carbone directement dans l’air ambiant. Les frameworks métal-organiques (MOF) ont été largement étudiés comme adsorbants potentiellement personnalisables pour le DAC. Toutefois, découvrir des adsorbants MOF prometteurs pour le DAC est difficile en raison de l’immensité de l’espace chimique à explorer et de la nécessité de comprendre les matériaux en fonction de l’humidité et de la température. Pure Storage explore une approche computationnelle tirant parti des avancées récentes en machine learning (ML) et présente un jeu de données nommé Open DAC 2023 (ODAC23), composé de plus de 38 millions de calculs de théorie de la fonctionnelle de la densité (DFT) sur plus de 8 800 matériaux MOF contenant du CO2 et/ou du H2O adsorbés. ODAC23 est de loin le plus grand jeu de données actuellement disponible de calculs d’adsorption sur MOF au niveau de précision DFT. En plus d’étudier les propriétés des molécules adsorbées, ce jeu de données constitue une riche source d’informations sur la relaxation structurelle des MOF, utile dans de nombreux contextes au-delà des applications spécifiques au DAC. Un grand nombre de MOF présentant des propriétés prometteuses pour le DAC ont été identifiés directement dans ODAC23. Les auteurs ont également entraîné sur ce jeu de données des modèles de machine learning de pointe pour approximer des calculs au niveau DFT. Ce jeu de données open source et ces premiers modèles de ML constitueront une base de référence importante pour les futurs efforts visant à identifier des MOF pour un large éventail d’applications, y compris le DAC.
> New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.
Lien vers l’article
https://arxiv.org/abs/2311.00341
Pour aller plus loin
https://x.com/AIatMeta/status/1720143486505341128
Un cadre unifié pour imposer, découvrir et promouvoir la symétrie en machine learning / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning
Présentation de l’article
- Présente un cadre méthodologique unifié pour imposer, découvrir et promouvoir la symétrie en machine learning, et discute également de la manière dont ces idées peuvent être appliquées à des modèles de ML tels que les perceptrons multicouches et la régression par fonctions de base.
> Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.
Résumé de l’article
- La symétrie est présente partout dans la nature et joue un rôle de plus en plus central en physique et en machine learning. Des symétries fondamentales, comme l’invariance de Poincaré, permettent d’extrapoler jusqu’aux confins de l’univers les lois physiques découvertes dans des laboratoires sur Terre. Dans les applications de machine learning, la symétrie est essentielle pour obtenir cette capacité d’extrapolation. Par exemple, l’invariance par translation en classification d’images permet d’entraîner sur des jeux de données plus petits des modèles avec moins de paramètres, comme les réseaux de neurones convolutifs, tout en atteignant des performances de pointe. Cet article propose un cadre théorique et méthodologique unifié pour intégrer la symétrie dans les modèles de machine learning de trois façons : 1. imposer une symétrie connue lors de l’entraînement d’un modèle ; 2. découvrir les symétries inconnues d’un modèle ou d’un jeu de données donné ; 3. favoriser la symétrie pendant l’entraînement en apprenant un modèle qui brise les symétries au sein d’un groupe de candidats spécifié par l’utilisateur lorsqu’il existe suffisamment de preuves dans les données. Grâce à ces trois approches, il est possible de renforcer la symétrie lors de l’entraînement des modèles de machine learning. Les auteurs montrent que ces tâches peuvent être formulées dans un cadre mathématique commun dont l’objet central est la dérivée de Lie associée à des actions de groupes de Lie fibrées-linéaires sur des fibrés vectoriels. Ils étendent et unifient plusieurs résultats existants en montrant qu’imposer et découvrir la symétrie sont des tâches d’algèbre linéaire duales par rapport à la structure bilinéaire de la dérivée de Lie. Ils proposent également une nouvelle manière de favoriser la symétrie en introduisant une classe de fonctions de régularisation convexes fondées sur la dérivée de Lie et la relaxation par norme nucléaire afin de pénaliser la rupture de symétrie pendant l’entraînement des modèles de machine learning. Ils expliquent comment appliquer ces idées à un large éventail de modèles de machine learning, notamment la régression par fonctions de base, la découverte de systèmes dynamiques, les perceptrons multicouches et les réseaux de neurones opérant sur des champs spatiaux tels que les images.
> Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.
Lien vers l’article
https://arxiv.org/abs/2311.00212
Pour aller plus loin
https://x.com/eigensteve/status/1720115655050227911
AlphaFold de nouvelle génération / Next Generation AlphaFold
Présentation de l’article
- Un point d’étape sur une nouvelle itération d’AlphaFold qui élargit fortement son champ d’application, avec des capacités de prédiction conjointe de la structure de complexes incluant protéines, acides nucléiques, petites molécules, ions et résidus modifiés, ainsi qu’une précision supérieure à celle de prédicteurs spécialisés pour les interactions protéine-acide nucléique.
> Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.
Lien vers l’article
https://storage.googleapis.com/deepmind-media/DeepMind.com/…
Pour aller plus loin
https://x.com/demishassabis/status/1719345831730368596
Les grands modèles de langage comprennent les stimuli émotionnels et peuvent être améliorés par ceux-ci / Large Language Models Understand and Can be Enhanced by Emotional Stimuli
Présentation de l’article
- Des expériences automatiques sur 45 tâches ont été menées à l’aide de diverses IA, dont Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT et GPT-4, couvrant des applications déterministes et génératives représentant des scénarios d’évaluation complets ; les résultats expérimentaux montrent que les IA possèdent une certaine compréhension de l’intelligence émotionnelle.
> Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.
Résumé de l’article
- L’intelligence émotionnelle a un impact majeur sur nos comportements et interactions au quotidien. Les grands modèles de langage (LLM) affichent des performances impressionnantes sur diverses tâches et sont considérés comme une avancée vers l’intelligence artificielle générale, mais il reste incertain qu’ils puissent réellement saisir des stimuli émotionnels d’ordre psychologique. Comprendre les indices émotionnels et y répondre procure aux humains un avantage net dans la résolution de problèmes. Cet article franchit une première étape pour explorer la capacité des réseaux de neurones artificiels à comprendre les stimuli émotionnels. Pour cela, les auteurs mènent d’abord des expériences automatisées sur 45 tâches à l’aide de différents LLM, dont Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT et GPT-4. Ces tâches couvrent à la fois des applications déterministes et génératives, représentant un large éventail de scénarios d’évaluation. Les expériences automatisées montrent que les LLM comprennent l’intelligence émotionnelle et que leurs performances peuvent être améliorées via des prompts émotionnels (appelés « EmotionPrompt », qui combinent le prompt d’origine avec des stimuli émotionnels), avec par exemple un gain relatif de 8,00 % sur Instruction Induction et de 115 % sur BIG-Bench. En plus des tâches déterministes pouvant être évaluées automatiquement à l’aide de métriques existantes, une étude humaine a été menée auprès de 106 participants afin d’évaluer la qualité des tâches génératives avec des prompts standard et des prompts émotionnels. Les résultats de cette étude montrent que les prompts émotionnels améliorent significativement les performances sur les tâches de génération (gain moyen de 10,9 % sur les métriques de performance, de véracité et de responsabilité). Le texte discute en profondeur des raisons pour lesquelles EmotionPrompt fonctionne avec les LLM et des facteurs susceptibles d’influencer ses performances. Les auteurs estiment qu’EmotionPrompt ouvre une nouvelle voie pour explorer des connaissances interdisciplinaires dans l’interaction entre humains et LLM.
> Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.
Lien vers l’article
https://arxiv.org/abs/2307.11760
Pour aller plus loin
https://x.com/emollick/status/1720135672764285176
FP8-LM: entraînement de grands modèles de langage en FP8 / FP8-LM: Training FP8 Large Language Models
Présentation de l’article
- Les auteurs constatent que, lors de l’entraînement de LLM en FP8, la plupart des variables telles que les gradients et les états de l’optimiseur peuvent utiliser des formats de données en basse précision sans dégrader la précision du modèle ni nécessiter de modification des hyperparamètres.
> Finds that when training fp8 llms most variables, such as gradients and optimizer states, in llm training, can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameter.
Résumé de l’article
- Cet article examine les formats de données FP8 à faible précision pour l’entraînement efficace des grands modèles de langage (LLM). L’idée clé est que, dans l’entraînement des LLM, la plupart des variables, comme les gradients et les états de l’optimiseur, peuvent utiliser des formats de données à faible précision sans dégrader la précision du modèle et sans nécessiter de modification des hyperparamètres. Plus précisément, Unity propose un nouveau framework FP8 de précision mixte automatique pour l’entraînement des LLM. Ce framework offre trois niveaux d’utilisation de FP8 afin de simplifier l’entraînement en précision mixte et en parallélisme distribué des LLM. Il intègre progressivement les gradients en 8 bits, les états de l’optimiseur et l’apprentissage distribué. Les résultats expérimentaux montrent que, lors de l’entraînement du modèle GPT-175B sur la plateforme GPU H100, le framework d’entraînement en précision mixte FP8 de Unity a non seulement réduit l’utilisation mémoire réelle de 42 %, mais a aussi été 64 % plus rapide que le framework BF16 largement adopté (par exemple, Megatron-LM), dépassant de 17 % la vitesse de Nvidia Transformer Engine. Cela permet donc de réduire fortement les coûts d’entraînement des grands modèles de fondation. En outre, la méthodologie d’entraînement en précision mixte FP8 de Unity est générique. Elle peut être appliquée sans difficulté à d’autres tâches, comme l’ajustement d’instructions de LLM et l’apprentissage par renforcement à partir de feedback humain, ce qui permet de réduire les coûts de fine-tuning. Le framework d’entraînement à faible précision FP8 de Unity est disponible en open source sur {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
> In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
Lien vers l’article
https://arxiv.org/abs/2310.18313
Pour aller plus loin
https://x.com/arankomatsuzaki/status/1718813303223222765
Texte original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-2e0
Aucun commentaire pour le moment.