[2023/09/25 ~ 10/01] Les principaux articles ML de la semaine (Top ML Papers of the Week)
(discuss.pytorch.kr)Aperçu
- Nous avons traduit automatiquement les articles sur les publications ML publiés chaque semaine par DAIR.AI.
- Les publications de cette semaine semblent pour la plupart axées sur les LLM (Large Language Models). Parmi elles, plusieurs sujets sont abordés, notamment l’amélioration des algorithmes d’efficacité des processus LLM dans divers environnements, le Graph Neural Prompting pour les LLM, ainsi que l’application de processus de raisonnement logique.
- Parmi les articles sélectionnés cette semaine, des travaux comme 'Boolformer' et 'Vision Transformers Need Registers' montrent également une tendance à des recherches menées en convergence avec d’autres domaines de l’IA.
- On peut ainsi constater que les avancées des technologies de l’IA ne consistent pas seulement à explorer chaque domaine séparément, mais constituent aussi une démarche importante visant à combiner plusieurs domaines pour rechercher de nouvelles approches et solutions.
La malédiction de l’inversion / The Reversal Curse
Présentation de l’article
- Met en évidence le fait qu’un réseau neuronal artificiel entraîné sur des phrases de la forme « a est b » ne généralise pas automatiquement dans le sens inverse « b est a », c’est-à-dire la malédiction de l’inversion, et montre cet effet en ajustant finement des réseaux neuronaux artificiels sur des phrases fictives, puis en démontrant sa robustesse à travers différentes tailles et familles de modèles. #llm-reasoning
> Finds that llms trained on sentences of the form “a is b” will not automatically generalize to the reverse direction “b is a”, i.e., the reversal curse; shows the effect through finetuning llms on fictitious statements and demonstrating its robustness across model sizes and model families.
Lien vers l’article
https://owainevans.github.io/reversal_curse.pdf
Pour aller plus loin
https://x.com/OwainEvans_UK/status/1705285631520407821
Mise à l’échelle efficace du long contexte des foundation models / Effective Long-Context Scaling of Foundation Models
Présentation de l’article
- Propose une variante
70bqui dépasse déjà les performances globales degpt-3.5-turbo-16ksur un ensemble de tâches à long contexte. Cela inclut une procédure d’instruction tuning rentable qui ne nécessite pas de données longues annotées par des humains. #1b-context-window #100k-context-window
> Propose a 70b variant that can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks. this involves a cost-effective instruction tuning procedure that does not require human-annotated long instruction data.
Résumé de l’article
- Nous présentons une série de LLM à long contexte prenant en charge des fenêtres de contexte effectives allant jusqu’à 32 768 tokens. Notre série de modèles est construite à partir de Llama 2 via un préentraînement continu avec des séquences d’entraînement plus longues et sur un jeu de données où les textes longs sont suréchantillonnés. Nous menons une évaluation approfondie sur la modélisation du langage, des tâches synthétiques de sondage contextuel et un large éventail de benchmarks de recherche. Sur ces benchmarks, nos modèles obtiennent des améliorations constantes sur la plupart des tâches générales, ainsi que des gains significatifs sur les tâches à long contexte par rapport à Llama 2. En particulier, grâce à une procédure d’instruction tuning rentable qui ne nécessite pas de données longues annotées par des humains, la variante 70B peut déjà surpasser les performances globales de gpt-3.5-turbo-16k sur un ensemble de tâches à long contexte. En complément de ces résultats, nous fournissons une analyse approfondie des différents composants de notre méthode. Nous examinons en détail les encodages positionnels de Llama et discutons de leurs limites pour modéliser les dépendances de longue portée. Nous étudions également l’impact de divers choix de conception dans le processus de préentraînement, notamment le mélange de données et le curriculum d’apprentissage sur les longueurs de séquence. Nos expériences d’ablation suggèrent qu’avoir un grand nombre de textes longs dans le jeu de données de préentraînement n’est pas la clé pour obtenir de fortes performances, et nous vérifions empiriquement que le préentraînement continu à long contexte est plus efficace et d’une efficacité comparable à un préentraînement depuis zéro avec de longues séquences.
> We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.
Lien vers l’article
https://arxiv.org/abs/2309.16039
Pour aller plus loin
https://x.com/omarsar0/status/1707780482178400261
Graph Neural Prompting avec de grands modèles de langage / Graph Neural Prompting with Large Language Models
Présentation de l’article
- Propose une méthode plug-and-play pour aider des LLM préentraînés à apprendre des connaissances utiles à partir de graphes de connaissances (Knowledge Graphs, KG) ; elle inclut diverses conceptions, dont un encodeur standard de graph neural network, un module de pooling cross-modal, un projecteur de domaine et un objectif d’auto-supervision pour la prédiction de liens. #knowledge-graph
> Proposes a plug-and-play method to assist pre-trained llms in learning beneficial knowledge from knowledge graphs (kgs); includes various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective.
Résumé de l’article
- Les grands modèles de langage (LLM) ont montré une remarquable capacité de généralisation, avec des performances exceptionnelles sur diverses tâches de modélisation du langage. Cependant, ils présentent encore des limites intrinsèques lorsqu’il s’agit de capter et restituer avec précision des connaissances ancrées. Des travaux antérieurs ont exploré l’utilisation de graphes de connaissances pour améliorer la modélisation du langage via un apprentissage conjoint et des architectures de modèles personnalisées, mais appliquer cela aux LLM reste problématique en raison de leur grand nombre de paramètres et de leur coût computationnel élevé. De plus, la manière d’exploiter des LLM préentraînés tout en évitant d’entraîner un modèle personnalisé à partir de zéro demeure une question ouverte. Dans ce travail, nous proposons Graph Neural Prompting (GNP), une nouvelle méthode plug-and-play destinée à aider les LLM préentraînés à apprendre des connaissances utiles à partir de KG. GNP intègre plusieurs composants, dont un encodeur standard de réseau de neurones sur graphes, un module de pooling cross-modal, un projecteur de domaine et un objectif auto-supervisé de prédiction de liens. De vastes expériences menées sur plusieurs jeux de données démontrent la supériorité de GNP sur des tâches de raisonnement de sens commun comme biomédicales, à travers différentes tailles et configurations de LLM.
> Large Language Models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. In addition, how to leverage the pre-trained LLMs and avoid training a customized model from scratch remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings.
Lien vers l’article
https://arxiv.org/abs/2309.15427
Pour aller plus loin
https://x.com/omarsar0/status/1707211751354212382
Les Vision Transformers ont besoin de registres / Vision Transformers Need Registers
Présentation de l’article
- Identifie des artefacts dans les feature maps de réseaux Vision Transformer réaffectées à des calculs internes, et propose une solution consistant à fournir des tokens supplémentaires à la séquence d’entrée pour remplir ce rôle ; cette solution corrige le problème, produit des feature maps et des cartes d’attention plus lisses, et établit de nouveaux résultats state of the art sur les tâches denses de prédiction visuelle. #vision-transformer #transformer
> Identifies artifacts in feature maps of vision transformer networks that are repurposed for internal computations; this work proposes a solution to provide additional tokens to the input sequence to fill that role; the solution fixes the problem, leads to smoother feature and attention maps, and sets new state-of-the-art results on dense visual prediction tasks.
Résumé de l’article
- Les transformers se sont récemment imposés comme un outil puissant pour l’apprentissage de représentations visuelles. Dans cet article, nous identifions et analysons des artefacts dans les feature maps de réseaux ViT supervisés comme auto-supervisés. Ces artefacts correspondent à des tokens à norme élevée apparaissant lors de l’inférence principalement dans les zones d’arrière-plan peu informatives des images, et réaffectés à des calculs internes. Nous proposons une solution simple mais efficace fondée sur l’ajout de tokens supplémentaires à la séquence d’entrée du Vision Transformer pour remplir ce rôle. Nous montrons que cette solution corrige entièrement ce problème pour les modèles supervisés comme auto-supervisés, établit un nouvel état de l’art pour les modèles visuels auto-supervisés sur les tâches denses de prédiction visuelle, permet des méthodes de découverte d’objets avec des modèles plus grands et, surtout, conduit à des feature maps et des cartes d’attention plus lisses pour le traitement visuel downstream.
> Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
Lien vers l’article
https://arxiv.org/abs/2309.16588
Pour aller plus loin
https://x.com/TimDarcet/status/1707769575981424866
Boolformer : régression symbolique de fonctions logiques avec des transformers / Boolformer: Symbolic Regression of Logic Functions with Transformers
Présentation de l’article
- Fournit la première architecture transformer entraînée à effectuer une régression symbolique end-to-end de fonctions booléennes ; elle peut prédire des formules compactes pour des fonctions complexes et être appliquée à la modélisation de la dynamique de réseaux de régulation génétique. #transformer
> Presents the first transformer architecture trained to perform end-to-end symbolic regression of boolean functions; it can predict compact formulas for complex functions and be applied to modeling the dynamics of gene regulatory networks.
Résumé de l’article
- Cette étude présente Boolformer, la première architecture Transformer entraînée à effectuer une régression symbolique de bout en bout sur des fonctions booléennes. Les auteurs montrent d’abord qu’il peut prédire des formules compactes pour des fonctions complexes jamais vues pendant l’entraînement, à partir d’une table de vérité propre. Ils démontrent ensuite sa capacité à trouver des expressions approximatives à partir d’observations incomplètes et bruitées. Boolformer est évalué sur un large ensemble de jeux de données réels de classification binaire, ce qui met en évidence son potentiel comme alternative interprétable aux méthodes classiques de machine learning. Enfin, il est appliqué à la tâche très répandue de modélisation de la dynamique des réseaux de régulation génétique. À l’aide d’un benchmark récent, les auteurs montrent que Boolformer est compétitif face aux algorithmes génétiques de pointe, avec un gain de vitesse de plusieurs ordres de grandeur. Le code et les modèles sont disponibles publiquement.
> In this work, we introduce Boolformer, the first Transformer architecture trained to perform end-to-end symbolic regression of Boolean functions. First, we show that it can predict compact formulas for complex functions which were not seen during training, when provided a clean truth table. Then, we demonstrate its ability to find approximate expressions when provided incomplete and noisy observations. We evaluate the Boolformer on a broad set of real-world binary classification datasets, demonstrating its potential as an interpretable alternative to classic machine learning methods. Finally, we apply it to the widespread task of modelling the dynamics of gene regulatory networks. Using a recent benchmark, we show that Boolformer is competitive with state-of-the art genetic algorithms with a speedup of several orders of magnitude. Our code and models are available publicly.
Lien vers l’article
https://arxiv.org/abs/2309.12207
Pour aller plus loin
https://x.com/stephanedascoli/status/1706235856778834015
Aligner les grands modèles multimodaux avec un RLHF enrichi factuellement / Aligning Large Multimodal Models with Factually Augmented RLHF
Présentation de l’article
- Cette approche applique un RLHF enrichi factuellement à l’alignement de grands modèles multimodaux. Elle atténue le reward hacking du RLHF et améliore les performances sur le jeu de données LLaVA-Bench jusqu’à atteindre 94 % du niveau de performance de GPT-4 en texte seul. #llm-alignment #multimodal #rlhf
> Adapts factually augmented rlhf to aligning large multimodal models; this approach alleviates the reward hacking in rlhf and improves performance on the llava-bench dataset with the 94% performance level of the text-only gpt-4.
Résumé de l’article
- Les grands modèles multimodaux (LMM) sont construits sur plusieurs modalités, et un mauvais alignement entre deux modalités peut entraîner des « hallucinations », c’est-à-dire la génération de sorties textuelles qui ne sont pas ancrées dans les informations multimodales présentes dans le contexte. Pour résoudre ce problème de désalignement multimodal, les auteurs adaptent le Reinforcement Learning from Human Feedback (RLHF) du domaine textuel à la tâche d’alignement vision-langage, dans laquelle des annotateurs humains comparent deux réponses et identifient celle qui hallucine le plus, tandis que le modèle vision-langage est entraîné à maximiser des récompenses humaines simulées. Ils proposent un nouvel algorithme d’alignement appelé Factually Augmented RLHF, qui enrichit le modèle de récompense avec des informations factuelles supplémentaires telles que des légendes d’images et des options à choix multiples de vérité terrain, ce qui atténue le phénomène de reward hacking dans le RLHF et améliore encore les performances. Ils enrichissent également les données d’entraînement générées par GPT-4 (pour le vision instruction tuning) avec des paires image-texte rédigées par des humains et déjà disponibles afin d’améliorer les capacités globales du modèle. Pour évaluer cette approche dans des scénarios réels, ils développent un nouveau benchmark d’évaluation, MMHAL-BENCH, spécialement axé sur la pénalisation des hallucinations. En tant que premier LMM entraîné avec RLHF, leur approche obtient une amélioration remarquable sur le jeu de données LLaVA-Bench, atteignant 94 % du niveau de performance de GPT-4 en texte seul (alors que les meilleures méthodes précédentes n’atteignaient que 87 %), ainsi qu’un gain de 60 % sur MMHAL-BENCH par rapport aux autres baselines. Le code, les modèles et les données sont open source à l’adresse https://llava-rlhf.github.io.
> Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.
Lien vers l’article
https://arxiv.org/abs/2309.14525
Pour aller plus loin
https://x.com/arankomatsuzaki/status/1706839311306621182
Alignement des grands modèles de langage : enquête / Large Language Model Alignment: A Survey
Présentation de l’article
- Il s’agit d’un rapport d’enquête complet sur l’alignement des LLM, couvrant l’alignement externe, l’alignement interne, l’interprétabilité mécaniste, les attaques contre les LLM alignés, l’évaluation de l’alignement, ainsi que les orientations futures et les discussions. #survey-paper #llm-alignment
> A comprehensive survey paper on llm alignment; topics include outer alignment, inner alignment, mechanistic interpretability, attacks on aligned llms, alignment evaluation, future directions, and discussions.
Résumé de l’article
- Ces dernières années ont vu des progrès remarquables dans les grands modèles de langage (LLM). Ces avancées, tout en attirant une attention considérable, ont simultanément suscité diverses inquiétudes. Le potentiel de ces modèles est incontestablement immense ; cependant, ils peuvent produire des textes imprécis, trompeurs, voire nuisibles. Il devient donc primordial d’employer des techniques d’alignement afin de garantir que ces modèles adoptent des comportements conformes aux valeurs humaines. Cette enquête s’efforce de fournir une exploration approfondie des méthodologies d’alignement conçues pour les LLM, en lien avec les recherches existantes sur les capacités dans ce domaine. En adoptant le prisme de l’alignement de l’IA, nous classons les méthodes dominantes et les nouvelles propositions pour l’alignement des LLM en alignement externe et alignement interne. Nous examinons également des questions majeures, notamment l’interprétabilité des modèles et leurs vulnérabilités potentielles aux attaques adversariales. Pour évaluer l’alignement des LLM, nous présentons une grande variété de benchmarks et de méthodologies d’évaluation. Après avoir discuté de l’état de la recherche sur l’alignement des LLM, nous proposons enfin une vision pour l’avenir, en envisageant les pistes de recherche prometteuses à venir. Notre ambition avec cette enquête va au-delà du simple fait de stimuler l’intérêt de la recherche dans ce domaine. Nous cherchons aussi à combler l’écart entre la communauté de recherche sur l’alignement de l’IA et les chercheurs concentrés sur l’exploration des capacités des LLM, afin de contribuer à des LLM à la fois performants et sûrs.
> Recent years have witnessed remarkable progress made in large language models (LLMs). Such advancements, while garnering significant attention, have concurrently elicited various concerns. The potential of these models is undeniably vast; however, they may yield texts that are imprecise, misleading, or even detrimental. Consequently, it becomes paramount to employ alignment techniques to ensure these models to exhibit behaviors consistent with human values. This survey endeavors to furnish an extensive exploration of alignment methodologies designed for LLMs, in conjunction with the extant capability research in this domain. Adopting the lens of AI alignment, we categorize the prevailing methods and emergent proposals for the alignment of LLMs into outer and inner alignment. We also probe into salient issues including the models' interpretability, and potential vulnerabilities to adversarial attacks. To assess LLM alignment, we present a wide variety of benchmarks and evaluation methodologies. After discussing the state of alignment research for LLMs, we finally cast a vision toward the future, contemplating the promising avenues of research that lie ahead. Our aspiration for this survey extends beyond merely spurring research interests in this realm. We also envision bridging the gap between the AI alignment research community and the researchers engrossed in the capability exploration of LLMs for both capable and safe LLMs.
Lien vers l’article
https://arxiv.org/abs/2309.15025
Pour aller plus loin
https://x.com/omarsar0/status/1706845285064818905
Rapport technique Qwen / Qwen Technical Report
Présentation de l’article
- Propose une série de LLM mettant en évidence la force du RLHF sur des tâches impliquant l’utilisation d’outils et des capacités de planification pour créer des agents de langage. #qwen-vl #rlhf
> Proposes a series of llms demonstrating the strength of rlhf on tasks involving tool use and planning capabilities for creating language agents.
Résumé de l’article
- Les grands modèles de langage (LLM) ont révolutionné le domaine de l’intelligence artificielle, en rendant possibles des tâches de traitement du langage naturel autrefois considérées comme l’apanage des humains. Cet article présente Qwen, le premier produit de la série de grands modèles de langage. Qwen est une série complète de modèles de langage regroupant plusieurs modèles avec différents nombres de paramètres. Elle comprend notamment Qwen, le modèle de langage de base préentraîné, ainsi que Qwen-Chat, un modèle conversationnel affiné à l’aide de techniques d’alignement humain. Le modèle de base affiche des performances constamment excellentes sur diverses tâches downstream, tandis que le modèle de chat, notamment entraîné avec le Reinforcement Learning from Human Feedback (RLHF), se montre très compétitif. Le modèle de chat dispose de capacités avancées d’utilisation d’outils et de planification pour créer des applications d’agents, et il montre des performances impressionnantes sur des tâches complexes comme l’utilisation d’un interpréteur de code, même face à des modèles de plus grande taille. En outre, des modèles spécialisés pour le code, Code-Qwen et Code-Qwen-Chat, ainsi qu’un modèle spécialisé en mathématiques, Math-Qwen-Chat, ont également été développés à partir du modèle de base. Ces modèles affichent des performances nettement supérieures à celles des modèles open source, tout en restant légèrement en retrait par rapport aux modèles propriétaires.
> Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
Lien vers l’article
https://arxiv.org/abs/2309.16609
Pour aller plus loin
https://x.com/omarsar0/status/1707776749042364729
MentalLLaMA : analyse interprétable de la santé mentale sur les réseaux sociaux à l’aide de grands modèles de langage / MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models
Présentation de l’article
- Une série open source de LLM pour l’analyse interprétable de la santé mentale avec capacité de suivi d’instructions ; elle propose également un jeu de données d’instructions interprétables, multitâche et multi-source, sur la santé mentale dans les réseaux sociaux, comprenant 105 000 échantillons de données. #medical #llm-for-clinical-task #llama
> An open-source llm series for interpretable mental health analysis with instruction-following capability; it also proposes a multi-task and multi-source interpretable mental health instruction dataset on social media with 105k data samples.
Résumé de l’article
- Avec le développement des technologies web, les textes des réseaux sociaux deviennent une source riche pour l’analyse automatique de la santé mentale. Comme les méthodes discriminatives traditionnelles souffrent d’une faible interprétabilité, les grands modèles de langage sont récemment étudiés pour l’analyse interprétable de la santé mentale sur les réseaux sociaux, avec pour objectif de fournir des explications détaillées en plus des prédictions. Les résultats ont montré que ChatGPT peut générer, pour des classifications correctes, des explications proches de celles d’un humain. Cependant, les LLM obtiennent encore des performances de classification insuffisantes en zero-shot/few-shot. Le fine-tuning spécifique au domaine est une solution efficace, mais il se heurte à deux problèmes : 1) le manque de données d’entraînement de haute qualité ; 2) aucun LLM open source pour l’analyse interprétable de la santé mentale n’a été publié pour réduire le coût du fine-tuning. Pour résoudre ces problèmes, Facebook a construit le premier jeu de données IMHI (interpretable mental health instruction) multi-tâche et multi-source sur les réseaux sociaux, composé de 105 000 échantillons de données. Les données brutes des réseaux sociaux ont été collectées à partir de 10 sources existantes couvrant 8 tâches d’analyse de la santé mentale. À l’aide de prompts few-shot rédigés par des experts et des labels collectés, les chercheurs sollicitent ChatGPT afin d’obtenir des explications dans ses réponses. Pour garantir la fiabilité de ces explications, ils effectuent des évaluations automatiques et humaines rigoureuses sur l’exactitude, la cohérence et la qualité des données générées. En s’appuyant sur le jeu de données IMHI et sur les modèles de base LLaMA2, ils entraînent MentalLLaMA, la première série de LLM open source dédiée à l’analyse interprétable de la santé mentale avec capacité de suivi d’instructions. Ils évaluent également les performances de MentalLLaMA sur le benchmark d’évaluation IMHI composé de 10 ensembles de test, en examinant à la fois l’exactitude des prédictions et la qualité des explications. Les résultats montrent que MentalLLaMA atteint un niveau proche des meilleures méthodes discriminatives de l’état de l’art tout en générant des explications de haute qualité.
> With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.
Lien vers l’article
https://arxiv.org/abs/2309.13567
Pour aller plus loin
https://x.com/SAnaniadou/status/1707668936634794442
Renforcer le raisonnement zero-shot en chaîne de pensée dans les grands modèles de langage grâce à la logique / Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
Présentation de l’article
- Nouveau framework neuro-symbolique visant à améliorer le raisonnement en chaîne de pensée zero-shot des LLM, en exploitant les principes de la logique symbolique pour vérifier et corriger le processus de raisonnement afin d’améliorer les capacités de raisonnement des LLM. #chain-of-thought
> A new neurosymbolic framework to improve zero-shot chain-of-thought reasoning in llms; leverages principles from symbolic logic to verify and revise reasoning processes to improve the reasoning capabilities of llms.
Résumé de l’article
- Les récents progrès des grands modèles de langage ont mis en évidence leur remarquable capacité de généralisation dans des domaines variés. Cependant, leurs capacités de raisonnement ont encore une marge d’amélioration importante, en particulier lorsqu’ils sont confrontés à des scénarios nécessitant un raisonnement en plusieurs étapes. Bien que les grands modèles de langage disposent de connaissances étendues, leur comportement, notamment en matière de raisonnement, échoue souvent à exploiter efficacement ces connaissances pour établir un paradigme de pensée cohérent. Les modèles de langage génératifs présentent parfois des hallucinations, car leurs procédures de raisonnement ne sont pas contraintes par des principes logiques. Afin d’améliorer la capacité de raisonnement zero-shot en chaîne de pensée des grands modèles de langage, nous proposons Logical Chain-of-Thought (LogiCoT), un framework neurosymbolique qui s’appuie sur les principes de la logique symbolique pour vérifier et réviser les processus de raisonnement en conséquence. Des évaluations expérimentales menées sur des tâches linguistiques dans des domaines variés, notamment l’arithmétique, le bon sens, le symbolique, l’inférence causale et les problèmes sociaux, démontrent l’efficacité de ce paradigme de raisonnement amélioré par la logique.
> Recent advancements in large language models have showcased their remarkable generalizability across various domains. However, their reasoning abilities still have significant room for improvement, especially when confronted with scenarios requiring multi-step reasoning. Although large language models possess extensive knowledge, their behavior, particularly in terms of reasoning, often fails to effectively utilize this knowledge to establish a coherent thinking paradigm. Generative language models sometimes show hallucinations as their reasoning procedures are unconstrained by logical principles. Aiming to improve the zero-shot chain-of-thought reasoning ability of large language models, we propose Logical Chain-of-Thought (LogiCoT), a neurosymbolic framework that leverages principles from symbolic logic to verify and revise the reasoning processes accordingly. Experimental evaluations conducted on language tasks in diverse domains, including arithmetic, commonsense, symbolic, causal inference, and social problems, demonstrate the efficacy of the enhanced reasoning paradigm by logic.
Lien vers l’article
https://arxiv.org/abs/2309.13339
Pour aller plus loin
https://x.com/omarsar0/status/1706711389803287019
Source originale
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c24
2 commentaires
Waouh... j’ai pris beaucoup de plaisir à lire ce texte soigné.
Merci ^^;