[2023/11/20 ~ 11/26] Les principaux articles ML de la semaine (Top ML Papers of the Week)
(discuss.pytorch.kr)Vue d’ensemble
-
Nous avons tenté une traduction automatique des articles sur les publications ML publiés chaque semaine par DAIR.AI.
-
Les articles sélectionnés cette semaine montrent principalement des tendances liées aux « Large Language Models (LLMs) », au « Reasoning and Attention in AI System » et à « Artificial Intelligence in Medical Domain ».
-
En particulier, le thème du « Reasoning and Attention in AI System » ressort nettement. Cela reflète les tentatives visant à doter l’intelligence artificielle de capacités de raisonnement et de résolution de problèmes proches de celles des humains, au-delà de la simple reconnaissance de motifs.
-
Les recherches sur l’utilisation de l’intelligence artificielle dans le domaine médical sont également dignes d’attention. « LLMs as Collaborators for Medical Reasoning » en est un exemple important, explorant les possibilités d’application des LLM (grands modèles de langage) pour le traitement des données médicales.
-
En résumé, les articles retenus cette semaine montrent qu’un grand nombre de recherches se sont concentrées sur le développement de capacités de raisonnement complexes, de mécanismes d’attention proches de ceux de l’humain et d’applications de l’intelligence artificielle au domaine médical ; cela peut être interprété comme un indicateur important de l’orientation prise par les avancées en IA.
L’attention système 2 (quelque chose dont vous pourriez aussi avoir besoin) / System 2 Attention (is something you might need too)
Présentation de l’article
- Exploite les capacités de raisonnement et de suivi d’instructions des LLM pour décider à quoi prêter attention, régénère le contexte d’entrée pour n’inclure que les parties pertinentes avant d’appliquer l’attention sur ce contexte régénéré afin de produire la réponse finale du modèle, améliore la factualité et surpasse les LLM standards basés sur l’attention sur des tâches telles que la QA et les problèmes de maths en contexte.
Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.
Résumé de l’article
- La soft attention dans les grands modèles de langage (LLM) basés sur les Transformers est susceptible d’intégrer dans ses représentations latentes des informations hors contexte, ce qui affecte négativement la génération du token suivant. Pour remédier à ce problème, nous introduisons System 2 Attention (S2A), qui exploite la capacité des LLM à raisonner en langage naturel et à suivre des instructions afin de décider à quoi prêter attention. S2A régénère le contexte d’entrée pour ne conserver que les parties pertinentes, puis applique l’attention à ce contexte régénéré afin de susciter la réponse finale. Les résultats expérimentaux montrent que S2A surpasse les LLM standards basés sur l’attention sur trois tâches contenant des opinions ou des informations non pertinentes — la QA, les problèmes mathématiques en langage naturel et la génération longue —, en améliorant la factualité et l’objectivité tout en réduisant la complaisance.
Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.
Lien vers l’article
https://arxiv.org/abs/2311.11829
Pour aller plus loin
https://x.com/jaseweston/status/1726784511357157618
Progrès de l’architecture Transformer dans les grands modèles de langage à long contexte : enquête exhaustive / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey
Présentation de l’article
- Un aperçu des méthodologies visant à améliorer les modules de l’architecture Transformer afin d’optimiser les capacités de long contexte à toutes les étapes, du pré-entraînement à l’inférence.
An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.
Résumé de l’article
- Les grands modèles de langage (LLM) à base de Transformer, popularisés par ChatGPT, ont ouvert une voie révolutionnaire vers l’intelligence artificielle générale (AGI) et sont appliqués dans des domaines variés comme les bases de connaissances, les interfaces humaines et les agents dynamiques. Cependant, une limite importante subsiste : de nombreux LLM actuels, contraints par les ressources, sont principalement pré-entraînés sur des textes courts, ce qui les rend moins efficaces face aux prompts à long contexte, pourtant fréquents en conditions réelles. Cet article présente une enquête complète centrée sur l’évolution de l’architecture des modèles Transformer-based LLM afin d’optimiser les capacités de long contexte à toutes les étapes, du pré-entraînement à l’inférence. Les auteurs commencent par identifier et analyser les problèmes liés au traitement des entrées et sorties à long contexte dans les modèles actuels basés sur Transformer. Ils proposent ensuite une taxonomie globale pour explorer le paysage des améliorations architecturales de Transformer visant à résoudre ces problèmes. Enfin, ils examinent les éléments d’évaluation largement utilisés pour les LLM à long contexte — jeux de données, métriques et modèles de référence — ainsi que d’impressionnantes boîtes à outils d’optimisation comme des bibliothèques, systèmes et compilateurs, qui renforcent l’efficacité et les performances des LLM à différentes étapes. Pour finir, ils discutent des principaux défis du domaine et des pistes potentielles pour les recherches futures. Ils ont également mis en place un dépôt mettant à jour en temps réel une sélection de la littérature pertinente : https://github.com/Strivin0311/long-llms-learning.
With the bomb ignited by ChatGPT, Transformer-based Large Language Models (LLMs) have paved a revolutionary path toward Artificial General Intelligence (AGI) and have been applied in diverse areas as knowledge bases, human interfaces, and dynamic agents. However, a prevailing limitation exists: many current LLMs, constrained by resources, are primarily pre-trained on shorter texts, rendering them less effective for longer-context prompts, commonly encountered in real-world settings. In this paper, we present a comprehensive survey focusing on the advancement of model architecture in Transformer-based LLMs to optimize long-context capabilities across all stages from pre-training to inference. We firstly delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. Then, we mainly offer a holistic taxonomy to navigate the landscape of Transformer upgrades on architecture to solve these problems. Afterward, we provide the investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as some amazing optimization toolkits like libraries, systems, and compilers to augment LLMs' efficiency and efficacy across different stages. Finally, we further discuss the predominant challenges and potential avenues for future research in this domain. Additionally, we have established a repository where we curate relevant literature with real-time updates at https://github.com/Strivin0311/long-llms-learning.
Lien vers l’article
https://arxiv.org/abs/2311.12351
Pour aller plus loin
https://x.com/omarsar0/status/1727358484360945750
PaSS: échantillonnage spéculatif parallèle / PaSS: Parallel Speculative Sampling
Présentation de l’article
- Une approche visant à réduire le temps d’inférence des LLM, fondée sur une variante de l’échantillonnage spéculatif et du décodage parallèle ; elle obtient des gains de vitesse significatifs (jusqu’à 30 %) en n’apprenant qu’un très faible nombre de paramètres supplémentaires, de l’ordre de $O(d_{emb})$.
Approach to reduce inference time of llms based on a variant of speculative sampling and parallel decoding; achieves significant speed-ups (up to 30%) by only learning as little as o(d_emb) additional parameters.
Résumé de l’article
- Étendre la taille des modèles de langage à des dizaines de milliards de paramètres leur permet d’atteindre des performances impressionnantes sur un large éventail de tâches. Lors de la génération, ces modèles sont utilisés de manière auto-régressive, ce qui nécessite un forward pass pour chaque token généré et implique donc de lire l’ensemble des paramètres depuis la mémoire. Cet accès mémoire constitue le principal goulot d’étranglement de la génération, et il s’aggrave à mesure que la taille du modèle augmente. De plus, exécuter en parallèle un forward pass pour plusieurs tokens prend souvent presque autant de temps qu’un forward pass pour un seul token. Ces deux observations ont conduit au développement du speculative sampling, dans lequel un second modèle plus petit sert à esquisser quelques tokens, ensuite validés ou rejetés via un unique forward pass du grand modèle. Malheureusement, cette méthode nécessite deux modèles partageant le même tokenizer, ce qui limite son adoption. Comme alternative, nous proposons d’utiliser le décodage parallèle comme moyen d’esquisser plusieurs tokens à partir d’un seul modèle, sans coût de calcul supplémentaire ni besoin d’un second modèle. Cette approche ne nécessite qu’un token d’entrée additionnel indiquant les mots qui seront générés simultanément. Elle montre des performances prometteuses, avec jusqu’à $30%$ d’accélération, tout en ne nécessitant qu’un nombre supplémentaire de paramètres aussi faible que $O(d_{emb})$.
Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.
Lien vers l’article
https://arxiv.org/abs/2311.13581
Pour aller plus loin
https://x.com/omarsar0/status/1728066181796418009
Mirasol3B : modèle auto-régressif multimodal pour des modalités alignées dans le temps et contextuelles / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
Présentation de l’article
- Un modèle multimodal pour l’apprentissage à travers l’audio, la vidéo et le texte, qui dissocie la modélisation multimodale en modèles auto-régressifs séparés et spécialisés ; les entrées sont traitées selon les modalités ; cette approche peut gérer des vidéos plus longues que d’autres modèles et surpasse les approches de pointe sur les benchmarks video QA, long video QA et audio-video-text.
A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.
Résumé de l’article
- L’un des principaux défis de l’apprentissage multimodal est la nécessité de combiner des modalités hétérogènes (par exemple, vidéo, audio, texte). Par exemple, la vidéo et l’audio sont acquis à des rythmes bien plus élevés que le texte et sont à peu près alignés dans le temps. Ils ne sont souvent pas synchronisés avec le texte, fourni comme contexte global, par exemple un titre ou une description. En outre, les entrées vidéo et audio ont des volumes bien plus importants, qui augmentent avec la durée de la vidéo, ce qui requiert naturellement davantage de calcul dédié à ces modalités et rend plus difficile la modélisation des dépendances à longue portée. Ici, les auteurs dissocient la modélisation multimodale en la divisant en modèles autorégressifs séparés et spécialisés, qui traitent les entrées selon les caractéristiques de chaque modalité. Ils proposent un modèle multimodal appelé Mirasol3B, composé d’un composant autorégressif pour les modalités synchronisées dans le temps (audio et vidéo), et d’un composant autorégressif pour les modalités de contexte, qui ne sont pas nécessairement alignées temporellement mais restent séquentielles. Pour traiter les longues séquences des entrées vidéo-audio, ils proposent de partitionner davantage les séquences vidéo et audio en snippets consécutifs et de traiter autorégressivement leurs représentations. À cette fin, ils proposent un mécanisme de Combiner, qui modélise conjointement l’information audio-vidéo au sein d’une fenêtre temporelle. Le Combiner apprend à extraire des caractéristiques audio et vidéo à partir de signaux spatio-temporels bruts, puis à fusionner ces caractéristiques afin de produire des représentations compactes mais expressives pour chaque snippet. Cette approche atteint l’état de l’art sur des benchmarks multimodaux bien établis, en surpassant des modèles beaucoup plus grands. Elle répond efficacement à la forte demande de calcul des entrées média en apprenant des représentations compactes, en contrôlant la longueur de séquence des représentations de caractéristiques audio-vidéo et en modélisant leurs dépendances dans le temps.
One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.
Lien vers l’article
https://arxiv.org/abs/2311.05698
Pour aller plus loin
https://x.com/GoogleAI/status/1724553024088191211
Orca 2 : apprendre aux petits modèles de langage à raisonner / Orca 2: Teaching Small Language Models How to Reason
Présentation de l’article
- Une approche est proposée pour apprendre le raisonnement à des modèles de langage plus petits. Plus précisément, il s’agit de leur faire utiliser des techniques de raisonnement telles que le traitement étape par étape, le rappel puis génération, le rappel-raisonnement-génération, l’extraction-génération et la réponse directe ; cette approche est réputée surpasser les modèles de taille similaire et atteindre des niveaux de performance comparables, voire supérieurs, à ceux de modèles 5 à 10 fois plus grands, lorsqu’elle est évaluée sur des tâches complexes testant des capacités avancées de raisonnement en configuration zero-shot.
Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.
Résumé de l’article
- Orca 1 apprend à partir de signaux riches, comme des traces d’explication, ce qui lui permet de surpasser les modèles classiques affinés par instruction sur des benchmarks comme BigBench Hard et AGIEval. Avec Orca 2, les chercheurs poursuivent l’exploration de la manière dont de meilleurs signaux d’entraînement peuvent renforcer les capacités de raisonnement des petits LM. Les travaux sur l’entraînement de petits LM se sont souvent appuyés sur l’apprentissage par imitation afin de reproduire les résultats de modèles plus performants. Mais les auteurs estiment qu’un accent excessif sur l’imitation peut limiter le potentiel des petits modèles. Ils cherchent à apprendre aux petits LM à utiliser différentes stratégies de résolution selon les tâches, potentiellement différentes de celles des grands modèles. Par exemple, là où un grand modèle peut fournir une réponse directe à une tâche complexe, un petit modèle peut ne pas en être capable. Dans Orca 2, le modèle apprend diverses techniques de raisonnement (étape par étape, rappel puis génération, rappel-raisonnement-génération, réponse directe, etc.). Plus important encore, l’objectif est d’aider le modèle à apprendre à déterminer la stratégie de résolution la plus efficace pour chaque tâche. Orca 2 est évalué à l’aide d’un ensemble complet de 15 benchmarks variés (correspondant à environ 100 tâches et plus de 36 000 prompts uniques). Les résultats montrent qu’Orca 2 surpasse nettement les modèles de taille comparable et atteint des niveaux de performance similaires, voire supérieurs, à ceux de modèles 5 à 10 fois plus grands sur des tâches complexes évaluant des capacités avancées de raisonnement en zero-shot. Afin de soutenir la recherche sur le développement, l’évaluation et l’alignement de LM plus petits, les poids d’Orca 2 sont publiquement disponibles sur aka.ms/orca-lm
Orca 1 apprend à partir de signaux riches, tels que des traces d’explication, ce qui lui permet de surpasser les modèles conventionnels affinés par instruction sur des benchmarks comme BigBench Hard et AGIEval. Avec Orca 2, nous poursuivons l’exploration de la manière dont de meilleurs signaux d’entraînement peuvent améliorer les capacités de raisonnement des petits LM. Les recherches sur l’entraînement de petits LM se sont souvent appuyées sur l’apprentissage par imitation afin de reproduire les résultats de modèles plus capables. Nous soutenons qu’un accent excessif sur l’imitation peut restreindre le potentiel des petits modèles. Nous cherchons à apprendre aux petits LM à employer différentes stratégies de résolution selon les tâches, potentiellement différentes de celles utilisées par les grands modèles. Par exemple, alors que les grands modèles peuvent fournir une réponse directe à une tâche complexe, les petits modèles peuvent ne pas en avoir la capacité. Dans Orca 2, nous apprenons au modèle diverses techniques de raisonnement (étape par étape, rappel puis génération, rappel-raisonnement-génération, réponse directe, etc.). Plus crucial encore, nous visons à aider le modèle à apprendre à déterminer la stratégie de résolution la plus efficace pour chaque tâche. Nous évaluons Orca 2 à l’aide d’un ensemble complet de 15 benchmarks variés (correspondant à environ 100 tâches et plus de 36 000 prompts uniques). Orca 2 surpasse significativement les modèles de taille similaire et atteint des niveaux de performance comparables ou supérieurs à ceux de modèles 5 à 10 fois plus grands, d’après l’évaluation sur des tâches complexes qui testent des capacités avancées de raisonnement en zero-shot. les poids d’Orca 2 sont publiquement disponibles sur aka.ms/orca-lm afin de soutenir la recherche sur le développement, l’évaluation et l’alignement de petits LM
Lien vers l’article
https://arxiv.org/abs/2311.11045
Pour aller plus loin
https://x.com/omarsar0/status/1726990087399915995
GPQA : benchmark de questions-réponses de niveau graduate « google-proof » / GPQA: A Graduate-Level Google-Proof Q&A Benchmark
Présentation de l’article
- Proposition d’un benchmark de QA de niveau graduate, résistant à la recherche Google, composé de 448 questions à choix multiple rédigées par des experts de domaine en biologie, physique et chimie. Le meilleur baseline basé sur GPT-4 atteint 39 % de précision, et ce benchmark fournit des expériences de supervision évolutives qui peuvent aider à obtenir des informations fiables et véridiques de systèmes d’IA modernes dépassant les capacités humaines.
Propose un benchmark de QA de niveau graduate résistant à Google composé de 448 questions à choix multiple rédigées par des experts de domaine en biologie, physique et chimie ; le baseline le plus performant basé sur GPT-4 atteint 39 % de précision ; ce benchmark offre des expériences de supervision évolutives pouvant aider à obtenir des informations fiables et véridiques de systèmes d’IA modernes qui dépassent les capacités humaines.
Résumé de l’article
- Nous présentons GPQA, un jeu de données difficile composé de 448 questions à choix multiples rédigées par des experts en biologie, physique et chimie. Nous garantissons que les questions sont de haute qualité et extrêmement difficiles : des experts titulaires d’un doctorat ou en cours de doctorat dans les domaines correspondants atteignent 65 % de précision (74 % si l’on exclut les erreurs manifestes qu’ils ont identifiées rétrospectivement), tandis que des validateurs non experts mais très qualifiés n’atteignent que 34 % de précision, malgré un accès illimité au web pendant plus de 30 minutes en moyenne (autrement dit, les questions sont « Google-proof »). Les questions sont également difficiles pour les systèmes d’IA de pointe, notre meilleure baseline basée sur GPT-4 n’atteignant que 39 % de précision. Si nous voulons utiliser de futurs systèmes d’IA pour nous aider à répondre à des questions très difficiles, par exemple lors du développement de nouvelles connaissances scientifiques, nous devons mettre au point des méthodes de supervision évolutives permettant aux humains de superviser leurs sorties, ce qui peut être difficile même si les superviseurs sont eux-mêmes compétents et bien informés. La difficulté de GPQA, à la fois pour les non-experts qualifiés et pour les systèmes d’IA de frontière, devrait permettre des expériences réalistes de supervision évolutive, qui, nous l’espérons, aideront à concevoir des moyens permettant aux experts humains d’obtenir de manière fiable des informations véridiques de systèmes d’IA dépassant les capacités humaines.
We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.
Lien vers l’article
https://arxiv.org/abs/2311.12022
Pour aller plus loin
https://x.com/idavidrein/status/1727033002234909060
Allumer l’intelligence du langage : le guide de l’auto-stoppeur, du raisonnement en chaîne de pensée (CoT) aux agents de langage / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents
Présentation de l’article
- Résumé du raisonnement CoT (Chain-of-Thought), des mécanismes fondamentaux qui sous-tendent les techniques CoT (Chain-of-Thought), et de leur application aux frameworks d’agents de langage.
Summary of cot reasoning, foundational mechanics underpinning cot techniques, and their application to language agent frameworks.
Résumé de l’article
- Les grands modèles de langage (LLM) ont considérablement fait progresser le domaine de l’intelligence du langage, comme en témoignent leurs solides performances empiriques sur un large éventail de tâches de raisonnement complexes. De plus, des démonstrations théoriques ont mis en lumière l’émergence de nouvelles capacités de raisonnement, offrant une preuve convaincante de leurs aptitudes cognitives avancées dans des contextes linguistiques. Un élément clé de leur remarquable efficacité pour traiter des tâches de raisonnement complexes est l’usage des techniques de raisonnement en chaîne de pensée (CoT), qui les amènent à formuler des étapes intermédiaires avant d’aboutir à une réponse. L’approche CoT a non seulement montré sa capacité à améliorer les performances de raisonnement, mais aussi à renforcer l’interprétabilité, la contrôlabilité et la flexibilité. À la lumière de ces atouts, les recherches récentes ont étendu les méthodologies de raisonnement CoT afin de favoriser le développement d’agents linguistiques autonomes, capables de suivre avec précision des instructions en langage naturel et d’exécuter des actions dans des environnements variés. Cet article de synthèse propose une analyse approfondie de dimensions de recherche majeures, couvrant : (i) les mécanismes fondamentaux des techniques CoT, en mettant l’accent sur les conditions et les justifications de leur efficacité ; (ii) le changement de paradigme autour du CoT ; et (iii) l’essor des agents linguistiques renforcés par des approches CoT. Les pistes de recherche futures englobent la généralisation, l’efficacité, la personnalisation, le passage à l’échelle et la sécurité. Cet article s’adresse à un large public, des débutants souhaitant acquérir une compréhension complète du raisonnement CoT et des agents linguistiques aux chercheurs expérimentés intéressés par les mécanismes fondamentaux et les débats les plus récents sur ces sujets. Un dépôt des articles liés est disponible sur https://github.com/Zoeyyao27/CoT-Igniting-Agent.
Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.
Lien vers l’article
https://arxiv.org/abs/2311.11797
Pour aller plus loin
https://x.com/omarsar0/status/1726803725220487277
GAIA: un benchmark pour les assistants IA généralistes / GAIA: a benchmark for General AI Assistants
Présentation de l’article
- Selon un benchmark pour les assistants IA généralistes composé de questions du monde réel nécessitant un ensemble de capacités fondamentales comme le raisonnement, le traitement multimodal, la navigation web et, plus généralement, la maîtrise de l’usage d’outils, les répondants humains obtiennent 92 %, contre 15 % pour GPT-4 équipé de plugins.
A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.
Résumé de l’article
- Nous présentons GAIA, un benchmark pour les assistants IA généralistes qui, s’il était résolu, constituerait une étape majeure de la recherche en IA. GAIA propose des questions du monde réel nécessitant un ensemble de capacités fondamentales comme le raisonnement, le traitement multimodal, la navigation web et, plus généralement, la maîtrise de l’usage d’outils. Les questions de GAIA sont conceptuellement simples pour les humains, mais difficiles pour la plupart des IA avancées. Les répondants humains obtiennent 92% de bonnes réponses, contre 15% pour GPT-4 équipé de plugins. Cet écart de performance marqué contraste avec la tendance récente des LLM à surpasser les humains sur des tâches exigeant des compétences professionnelles, par exemple en droit ou en chimie. La philosophie de GAIA s’écarte de la tendance actuelle des benchmarks en IA consistant à viser des tâches toujours plus difficiles pour les humains. Nous posons l’hypothèse que l’avènement de l’intelligence artificielle générale (AGI) dépend de la capacité d’un système à faire preuve d’une robustesse comparable à celle d’un humain moyen face à ce type de questions. En utilisant la méthodologie de GAIA, nous avons conçu 466 questions et leurs réponses. Nous publions les questions et conservons les réponses de 300 d’entre elles pour alimenter un leaderboard disponible sur https://huggingface.co/gaia-benchmark.
We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.
Lien vers l’article
https://arxiv.org/abs/2311.12983
Pour aller plus loin
https://x.com/ThomasScialom/status/1727683993045201339
MedAgents : les grands modèles de langage comme collaborateurs pour le raisonnement médical en zéro-shot / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning
Présentation de l’article
- Proposition d’un framework collaboratif multi-tours pour le domaine médical, qui exploite des agents basés sur des LLM en jeu de rôle afin d’améliorer les performances et les capacités de raisonnement des LLM.
Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.
Résumé de l’article
- Les grands modèles de langage (LLM), malgré leurs progrès remarquables dans divers domaines généralistes, se heurtent à des obstacles importants en médecine et en santé. Ce domaine présente des défis spécifiques, notamment la terminologie propre au secteur et le raisonnement sur des connaissances spécialisées. Pour répondre à ces difficultés persistantes, Unity propose un nouveau framework de collaboration multidisciplinaire (MC) pour le domaine médical. Ce framework s’appuie sur des agents basés sur des LLM jouant des rôles, qui participent à une discussion collaborative en plusieurs tours, améliorant ainsi les performances et les capacités de raisonnement des LLM. Ce framework, interprétable et ne nécessitant aucun entraînement, couvre cinq étapes critiques : réunir des experts du domaine, proposer des analyses individuelles, résumer ces analyses dans un rapport, itérer les discussions jusqu’à l’obtention d’un consensus, puis prendre une décision finale. En se concentrant tout particulièrement sur le scénario zéro-shot, les résultats obtenus sur neuf jeux de données (MedQA, MedMCQA, PubMedQA et six sous-tâches de MMLU) montrent que notre framework MC excelle dans l’extraction et l’exploitation de l’expertise médicale contenue dans les LLM, tout en étendant leurs capacités de raisonnement. Sur la base de ces résultats, nous avons également mené une évaluation humaine pour identifier et classer les erreurs courantes de notre méthode, ainsi que des études d’ablation visant à comprendre l’impact de différents facteurs sur les performances globales. Le code est disponible sur \url{https://github.com/gersteinlab/MedAgents}.
Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.
Lien vers l’article
https://arxiv.org/abs/2311.10537
Pour aller plus loin
https://x.com/omarsar0/status/1726627951582511135
Des chameaux dans un climat changeant : améliorer l’adaptation des LM avec Tulu 2 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2
Présentation de l’article
- Propose une suite améliorée de modèles Tülu afin de faire progresser la compréhension et les bonnes pratiques pour adapter des modèles de langage préentraînés aux tâches downstream et aux préférences des utilisateurs ; la suite Tülu 2 atteint des performances de pointe parmi les modèles ouverts et égale ou dépasse les performances de GPT-3.5-Turbo-0301 sur plusieurs benchmarks.
Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.
Résumé de l’article
- Depuis la sortie de Tülu [Wang et al., 2023b], les ressources open pour l’instruction tuning ont rapidement progressé, des meilleurs modèles de base aux nouvelles techniques de finetuning. Les auteurs testent et intègrent un certain nombre de ces avancées dans Tülu, ce qui donne naissance à Tülu 2, une suite de modèles Tülu améliorés destinée à faire progresser la compréhension et les bonnes pratiques d’adaptation des modèles de langage préentraînés aux tâches downstream et aux préférences des utilisateurs. Plus précisément, sont publiés : (1) Tülu-V2-mix, une collection améliorée de jeux de données d’instructions de haute qualité ; (2) Tülu 2, des modèles LLAMA-2 finetunés sur le mélange V2 ; (3) Tülu 2+DPO, des modèles Tülu 2 entraînés avec direct preference optimization (DPO), y compris le plus grand modèle entraîné avec DPO à ce jour (Tülu 2+DPO 70B) ; (4) CODE Tülu 2, des modèles CODE LLAMA finetunés sur le mélange V2, qui surpassent CODE LLAMA et sa variante instruction-tuned, CODE LLAMA-Instruct. Les évaluations menées sous plusieurs angles montrent que la suite Tülu 2 atteint des performances de pointe parmi les modèles ouverts et égale ou dépasse celles de GPT-3.5-turbo-0301 sur plusieurs benchmarks. Tous les checkpoints, les données, ainsi que le code d’entraînement et d’évaluation sont publiés afin de faciliter les futurs efforts open d’adaptation des grands modèles de langage.
Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.
Lien vers l’article
https://arxiv.org/abs/2311.10702
Pour aller plus loin
https://x.com/natolambert/status/1727350301131518454
Texte original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-a05
Aucun commentaire pour le moment.