[2024/09/16 ~ 09/22] Principaux articles ML de la semaine (Top ML Papers of the Week)
(discuss.pytorch.kr)-
Nous avons traduit automatiquement les articles sur les publications ML publiés chaque semaine par DAIR.AI.
-
En examinant les publications sélectionnées cette semaine, on peut repérer plusieurs tendances marquantes. D’abord, les recherches sur les grands modèles de langage (LLM) occupent une place importante. Divers articles, comme Training LLMs to Self-Correct via RL, Qwen2.5 Coder et A Comprehensive Evaluation of Quantized Instruction-Tuned LLMs, traitent de l’amélioration des performances des LLM et de leurs applications. Cela reflète le fait que les LLM constituent actuellement l’un des sujets centraux de la recherche en IA.
-
Deuxièmement, de nombreux travaux portent sur les processus de pensée de l’intelligence artificielle. Des articles comme Diagram of Thought (DoT), Iteration of Thought et To CoT or not to CoT? explorent en profondeur la manière dont l’IA pense ou raisonne. On y voit les efforts déployés pour améliorer la précision et l’efficacité des systèmes d’IA.
-
Plusieurs raisons peuvent expliquer ces tendances. Tout d’abord, les grands modèles de langage suscitent un fort intérêt dans l’industrie comme dans le monde académique en raison de leurs nombreuses possibilités d’application et de leurs hautes performances. En particulier, diverses techniques visant à améliorer les performances des modèles ou leur capacité d’auto-correction font l’objet de recherches actives. Par ailleurs, les travaux sur les processus de pensée de l’IA sont liés à l’objectif ultime de développer une IA dotée de capacités de raisonnement proches de celles des humains. Cet aspect est considéré comme essentiel pour automatiser des tâches plus complexes et plus intelligentes.
-
En résumé, les principales tendances des publications de cette semaine concernent l’amélioration des performances des grands modèles de langage et l’étude des processus de pensée de l’IA. C’est une bonne illustration de la direction que prend actuellement la recherche en IA.
Moshi
Présentation de l’article
Présentation d’un modèle de fondation speech-text et d’un framework de dialogue vocal full-duplex, de plusieurs composants du système, de Helium, un LLM textuel de 7B paramètres, de Mimi, un code audio neuronal sémantique-acoustique offrant des performances de pointe en qualité audio, ainsi que d’une architecture hiérarchique multi-flux capable de générer des conversations arbitraires en mode speech-to-speech.
> Introduces a speech-text foundation model and full-duplex spoken dialogue framework; they present several components of the systems; Helium is a 7B parameter text LLM; Mimi is a semantic-acoustic neural audio code with state-of-the-art performance on audio quality; a hierarchical multi-stream architecture that can generate arbitrary conversation in a speech-to-speech manner.
Résumé de l’article (Abstract)
Nous présentons Moshi, un modèle de fondation speech-text et un framework de dialogue vocal full-duplex. Les systèmes actuels de dialogue vocal reposent sur des pipelines de composants indépendants, à savoir la détection d’activité vocale, la reconnaissance vocale, le dialogue textuel et la synthèse vocale. De tels frameworks ne peuvent pas reproduire l’expérience de conversations réelles. Premièrement, leur complexité entraîne une latence de plusieurs secondes entre les interactions. Deuxièmement, le texte étant la modalité intermédiaire du dialogue, les informations non linguistiques qui modifient le sens — comme les émotions ou les sons non verbaux — sont perdues au cours de l’interaction. Enfin, ils reposent sur une segmentation en tours de parole qui ne prend pas en compte les chevauchements de parole, les interruptions et les interjections. Moshi résout l’ensemble de ces problèmes en formulant le dialogue vocal comme une génération speech-to-speech. En partant d’un backbone de modèle de langage textuel, Moshi génère la parole sous forme de tokens issus du quantificateur résiduel d’un codec audio neuronal, tout en modélisant séparément sa propre parole et celle de l’utilisateur dans des flux parallèles. Cela permet de supprimer les tours de parole explicites et de modéliser des dynamiques conversationnelles arbitraires. Nous étendons en outre la génération hiérarchique de tokens sémantiques vers acoustiques des travaux précédents afin de prédire d’abord des tokens textuels alignés temporellement comme préfixe des tokens audio. Cette méthode d’« Inner Monologue » améliore significativement la qualité linguistique de la parole générée et montre également comment fournir de la reconnaissance vocale en streaming et de la synthèse vocale. Le modèle obtenu est le premier grand modèle de langage vocal full-duplex en temps réel, avec une latence théorique de 160 ms et de 200 ms en pratique, et il est disponible sur github.com/kyutai-labs/moshi.
> We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning— such as emotion or non-speech sounds— is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this “Inner Monologue” method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at github.com/kyutai-labs/moshi.
Lien vers l’article
Pour aller plus loin
https://github.com/kyutai-labs/moshi
https://x.com/kyutai_labs/status/1836427396959932492
Entraîner les modèles de langage à s’auto-corriger via l’apprentissage par renforcement / Training Language Models to Self-Correct via Reinforcement Learning
Présentation de l’article
Développe un apprentissage par renforcement en ligne multi-tour pour améliorer la capacité d’un LLM à s’auto-corriger ; repose entièrement sur des données auto-générées ; montre que le SFT est inefficace pour apprendre l’auto-correction et souffre d’un décalage de distribution entre les données d’entraînement et les réponses du modèle ; propose une approche en deux étapes qui optimise d’abord le comportement de correction, puis utilise un bonus de récompense pour amplifier l’auto-correction pendant l’entraînement ; appliquée aux modèles Gemini 1.0 Pro et 1.5 Flash, elle atteint des performances d’auto-correction de pointe, en améliorant l’auto-correction des modèles de base de 15,6 % et 9,1 % respectivement sur les benchmarks MATH et HumanEval.
> Develops a multi-turn online reinforcement learning to improve the capabilities of an LLM to self-correct; it’s based entirely on self-generated data; SFT is shown to be ineffective at learning self-correction and suffers from distribution mismatch between training data and model responses; proposes a two-stage approach that first optimizes correction behavior and then uses a reward bonus to amplify self-correction during training; when applied to Gemini 1.0 Pro and 1.5 Flash models, it achieves state-of-the-art self-correction performance, improving the base models’ self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.
Résumé de l’article (Abstract)
L’auto-correction est une capacité hautement souhaitable des grands modèles de langage (LLM), mais son efficacité s’est révélée de façon récurrente largement limitée dans les LLM modernes. Les approches existantes pour entraîner l’auto-correction nécessitent soit plusieurs modèles, soit un modèle plus performant, soit d’autres formes de supervision. Dans ce contexte, Unity a développé SCoRe, une approche d’apprentissage par renforcement (RL) en ligne multi-tour qui améliore fortement la capacité d’auto-correction d’un LLM en utilisant exclusivement des données auto-générées. Pour construire SCoRe, les auteurs montrent d’abord que des variantes de supervised fine-tuning (SFT) sur des traces de correction générées hors ligne par le modèle ne suffisent pas à inculquer un comportement d’auto-correction. En particulier, ils observent que l’entraînement via SFT souffre soit d’un décalage de distribution entre les données d’entraînement et les propres réponses du modèle, soit d’une préférence implicite pour un certain mode de comportement correctif qui s’avère souvent inefficace au moment de l’inférence. SCoRe répond à ces difficultés en apprenant sous la propre distribution du modèle de traces de correction auto-générées et en utilisant une régularisation appropriée pour orienter le processus d’apprentissage vers une stratégie d’auto-correction efficace à l’inférence, plutôt que de simplement ajuster des réponses à forte récompense pour un prompt donné. Cette régularisation consiste à exécuter une première phase de RL sur un modèle de base afin de générer une initialisation de politique moins sujette à l’effondrement, puis à utiliser un bonus de récompense pour amplifier l’auto-correction pendant l’entraînement. Appliqué aux modèles Gemini 1.0 Pro et 1.5 Flash, SCoRe atteint des performances d’auto-correction de pointe, améliorant l’auto-correction des modèles de base de 15,6 % et 9,1 % respectivement sur les benchmarks MATH et HumanEval.
> Self-correction is a highly desirable capability of large language models (LLMs), yet it has consistently been found to be largely ineffective in modern LLMs. Existing approaches for training self-correction either require multiple models or rely on a more capable model or other forms of supervision. To this end, we develop a multi-turn online reinforcement learning (RL) approach, SCoRe, that significantly improves an LLM's self-correction ability using entirely self-generated data. To build SCoRe, we first show that variants of supervised fine-tuning (SFT) on offline model-generated correction traces are insufficient for instilling self-correction behavior. In particular, we observe that training via SFT either suffers from a distribution mismatch between the training data and the model's own responses or implicitly prefers only a certain mode of correction behavior that is often not effective at test time. SCoRe addresses these challenges by training under the model's own distribution of self-generated correction traces and using appropriate regularization to steer the learning process into learning a self-correction strategy that is effective at test time as opposed to simply fitting high-reward responses for a given prompt. This regularization prescribes running a first phase of RL on a base model to generate a policy initialization that is less susceptible to collapse and then using a reward bonus to amplify self-correction during training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that SCoRe achieves state-of-the-art self-correction performance, improving the base models' self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.
Lien vers l’article
https://arxiv.org/abs/2409.12917
Pour aller plus loin
https://x.com/omarsar0/status/1837228446839361984
Documentation technique de Qwen2.5-Coder / Qwen2.5-Coder Technical Report
Présentation de l’article
Une série de modèles comprenant des versions de 1,5B et 7B de paramètres ; construite sur l’architecture Qwen2.5, continuellement préentraînée sur 5,5 billions de tokens ; atteint des performances de pointe sur plus de 10 benchmarks ; inclut de solides capacités en génération de code, complétion, raisonnement et réparation.
> A series of models including 1.5B and 7B parameters; it’s built upon the Qwen2.5 architecture which is continuously pretrained on 5.5 trillion tokens; achieves state-of-the-art performance across more than 10 benchmarks; includes strong capabilities in code generation, completion, reasoning, and repairing.
Résumé de l’article (Abstract)
Ce rapport présente la série Qwen2.5-Coder, une évolution majeure par rapport à sa version précédente, CodeQwen1.5. Cette série comprend deux modèles : Qwen2.5-Coder-1.5B et Qwen2.5-Coder-7B. Modèle spécialisé dans le code, Qwen2.5-Coder est construit sur l’architecture Qwen2.5 et poursuit son préentraînement sur un vaste corpus de plus de 5,5 billions de tokens. Grâce à un nettoyage minutieux des données, à une génération de données synthétiques extensible et à un mélange équilibré des données, Qwen2.5-Coder affiche d’impressionnantes capacités de génération de code tout en conservant une polyvalence générale. Le modèle a été évalué sur un large éventail de tâches liées au code, atteignant des performances de pointe sur plus de 10 benchmarks, notamment la génération, l’autocomplétion, le raisonnement et la réparation de code, et surpassant régulièrement des modèles plus grands de taille comparable. Unity estime que le lancement de la série Qwen2.5-Coder élargira non seulement les horizons de la recherche sur l’intelligence du code, mais encouragera aussi, grâce à une licence permissive, une adoption plus large par les développeurs dans des applications réelles.
> In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.
Lien vers l’article
https://arxiv.org/abs/2409.12186
Pour aller plus loin
https://x.com/huybery/status/1837170643563073960
Sur le Diagram of Thought (DoT)
Présentation de l’article
En renforçant les capacités de raisonnement des LLM grâce à une rigueur mathématique, DAT modélise le raisonnement itératif des LLM comme la construction d’un graphe orienté acyclique, et intègre propositions, critiques, améliorations et vérifications dans une structure DAG unifiée, afin de capturer un raisonnement logique complexe au-delà des approches linéaires ou arborescentes.
> Enhances the reasoning capabilities of LLMs through mathematical rigor; DAT models iterative reasoning in LLM as the construction of a directed acyclic graph; it integrates propositions, critiques, refinement, and verification into a unified DAG structure; this allows DoT to capture complex logical deduction beyond linear or tree-based approaches.
Résumé (Abstract)
Nous présentons Diagram of Thought (DoT), un cadre qui modélise le raisonnement itératif dans les grands modèles de langage (LLM) comme la construction d’un graphe orienté acyclique (DAG) au sein d’un seul modèle. Contrairement aux approches traditionnelles qui représentent le raisonnement sous forme de chaînes linéaires ou d’arbres, DoT organise les propositions, les critiques, les améliorations et les vérifications dans une structure DAG cohérente, permettant au modèle d’explorer des chemins de raisonnement complexes tout en maintenant une cohérence logique. Chaque nœud du diagramme correspond à une proposition qui a été formulée, critiquée, améliorée ou vérifiée, ce qui permet au LLM d’améliorer itérativement son raisonnement via un feedback en langage naturel. En s’appuyant sur la prédiction auto-régressive du token suivant avec des tokens spécifiques aux rôles, DoT facilite des transitions fluides entre la proposition d’idées et leur évaluation critique, en fournissant un feedback plus riche que de simples signaux binaires. En outre, nous formalisons le cadre DoT à l’aide de la théorie des topos, en lui apportant une base mathématique qui garantit la cohérence logique et la solidité du processus de raisonnement. Cette approche améliore à la fois l’entraînement et l’inférence au sein d’un seul LLM, éliminant le besoin de recourir à plusieurs modèles ou à des mécanismes de contrôle externes. DoT propose un cadre conceptuel pour concevoir la prochaine génération de modèles spécialisés dans le raisonnement, en mettant l’accent sur l’efficacité de l’entraînement, la robustesse des capacités de raisonnement et les fondements théoriques. Le code est disponible sur https://github.com/diagram-of-thought/diagram-of-thought.
> We introduce Diagram of Thought (DoT), a framework that models iterative reasoning in large language models (LLMs) as the construction of a directed acyclic graph (DAG) within a single model. Unlike traditional approaches that represent reasoning as linear chains or trees, DoT organizes propositions, critiques, refinements, and verifications into a cohesive DAG structure, allowing the model to explore complex reasoning pathways while maintaining logical consistency. Each node in the diagram corresponds to a proposition that has been proposed, critiqued, refined, or verified, enabling the LLM to iteratively improve its reasoning through natural language feedback. By leveraging auto-regressive next-token prediction with role-specific tokens, DoT facilitates seamless transitions between proposing ideas and critically evaluating them, providing richer feedback than binary signals. Furthermore, we formalize the DoT framework using Topos Theory, providing a mathematical foundation that ensures logical consistency and soundness in the reasoning process. This approach enhances both the training and inference processes within a single LLM, eliminating the need for multiple models or external control mechanisms. DoT offers a conceptual framework for designing next-generation reasoning-specialized models, emphasizing training efficiency, robust reasoning capabilities, and theoretical grounding. The code is available at https://github.com/diagram-of-thought/diagram-of-thought.
Lien vers l’article
https://arxiv.org/abs/2409.10038
Pour aller plus loin
https://github.com/diagram-of-thought/diagram-of-thought
https://x.com/omarsar0/status/1835882277563179512
Agents en ingénierie logicielle : enquête, panorama et vision / Agents in Software Engineering: Survey, Landscape, and Vision
Présentation de l’article
Fournit une vue d’ensemble complète des frameworks d’agents basés sur les LLM en ingénierie logicielle.
> Provides a comprehensive overview of frameworks of LLM-based agents in software engineering.
Résumé de l’article (Abstract)
Ces dernières années, les grands modèles de langage (LLM) ont connu un succès remarquable et ont été largement utilisés dans diverses tâches en aval, en particulier dans les tâches du domaine de l’ingénierie logicielle (SE). Nous constatons que de nombreuses études combinant les LLM et la SE ont employé le concept d’agent, explicitement ou implicitement. Cependant, il manque encore une étude approfondie permettant de remettre en ordre le contexte de développement des travaux existants, d’analyser comment ces travaux combinent les technologies d’agents basés sur les LLM pour optimiser diverses tâches, et de clarifier le framework des agents basés sur les LLM en SE. Dans cet article, nous réalisons la première enquête sur les études consacrées à la combinaison des agents basés sur les LLM avec la SE et présentons un framework d’agents basés sur les LLM en SE qui comprend trois modules clés : perception, mémoire et action. Nous résumons également les défis actuels liés à la combinaison de ces deux domaines et proposons des perspectives futures pour répondre aux défis existants. Nous maintenons un dépôt GitHub des articles associés à l’adresse suivante : https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.
> In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.
Lien vers l’article
https://arxiv.org/abs/2409.09030
Pour aller plus loin
https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE
https://x.com/omarsar0/status/1835705359723319702
Faut-il utiliser le CoT ou non ? Le chain-of-thought aide surtout pour les mathématiques et le raisonnement symbolique / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
Présentation de l’article
Cette étude examine quels types de tâches bénéficient le plus du prompting chain-of-thought (CoT) ; après une méta-analyse de plus de 100 articles et plusieurs évaluations, elle conclut que le CoT apporte surtout de forts gains de performance sur les tâches liées aux mathématiques et à la logique ; elle montre également que la majeure partie de ces gains provient d’une amélioration de l’exécution symbolique, mais qu’un solveur symbolique fait encore mieux.
> Investigates what kinds of tasks benefit the most from chain-of-thought (CoT) prompting; after a meta-analysis on 100+ papers and several evaluations, it finds that CoT produces strong performance benefits primarily on tasks involving math and logic; they find that most of the CoT gain comes from improving symbolic execution, but a symbolic solver outperforms it.
Résumé de l’article (Abstract)
La chaîne de pensée (CoT) via le prompting est la méthode de facto pour faire émerger des capacités de raisonnement chez les grands modèles de langage (LLM). Mais pour quels types de tâches cette « réflexion » supplémentaire est-elle réellement utile ? Pour l’analyser, nous avons mené une méta-analyse quantitative couvrant plus de 100 articles utilisant la CoT et réalisé nos propres évaluations sur 20 jeux de données à travers 14 modèles. Les résultats montrent que la CoT apporte surtout de forts gains de performance sur les tâches liées aux mathématiques ou à la logique, avec des bénéfices bien plus limités sur les autres types de tâches. Sur MMLU, générer directement la réponse sans CoT conduit à une précision presque identique à celle obtenue avec CoT, sauf lorsque la question ou la réponse du modèle contient un signe égal, indiquant des opérations symboliques et du raisonnement. À partir de ce constat, nous analysons le comportement de la CoT sur ces problèmes en séparant planification et exécution, puis en la comparant à des LLM augmentés par des outils. Une grande partie du gain apporté par la CoT provient de l’amélioration de l’exécution symbolique, mais elle reste moins performante que l’utilisation d’un solveur symbolique. Les résultats indiquent que la CoT peut être appliquée de manière sélective afin de maintenir les performances tout en réduisant les coûts d’inférence. Ils suggèrent également la nécessité de dépasser la CoT basée sur le prompting pour aller vers de nouveaux paradigmes exploitant mieux les calculs intermédiaires sur l’ensemble des applications LLM.
> Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.
Lien vers l’article
https://arxiv.org/abs/2409.12183
Pour aller plus loin
https://x.com/omarsar0/status/1836599280477299013
Évaluation complète des grands modèles de langage affinés par instruction quantifiés : analyse expérimentale jusqu’à 405B / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
Présentation de l’article
L’évaluation des performances de LLM affinés par instruction à travers diverses méthodes de quantification sur des modèles allant de 7B à 405B montre que 1) quantifier un LLM plus grand jusqu’à une taille similaire à celle d’un LLM FP16 plus petit offre généralement de meilleures performances sur la plupart des benchmarks, 2) les performances varient fortement selon la méthode de quantification, la taille du modèle et la largeur en bits, les méthodes weight-only donnant souvent de bons résultats sur les plus grands modèles, et 3) la difficulté des tâches n’a pas d’impact significatif sur la dégradation de précision due à la quantification.
> Evaluates the performance of instruction-tuned LLMs across various quantization methods on models ranging from 7B to 405B; the key findings are 1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, 2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models, and 3) task difficulty does not significantly impact accuracy degradation due to quantization.
Résumé(Abstract)
Les travaux antérieurs ont évalué les LLM quantifiés à l’aide de métriques limitées, comme la perplexité, quelques tâches élémentaires de connaissance ou d’anciens jeux de données. De plus, des modèles récents à grande échelle, comme Llama 3.1 allant jusqu’à 405B, n’avaient pas été examinés de manière approfondie. Ce livre blanc évalue les performances de LLM ajustés par instruction sur différents modèles, de 7B à 405B, selon diverses méthodes de quantification (GPTQ, AWQ, SmoothQuant, FP8). À l’aide de 13 benchmarks, les performances ont été évaluées sur six types de tâches : questions-réponses de bon sens, connaissance et compréhension du langage, suivi d’instructions, détection d’hallucinations, mathématiques et dialogue. Les principaux résultats montrent que (1) quantifier un LLM plus grand à une taille comparable à celle d’un plus petit LLM en FP16 offre généralement de meilleures performances sur la plupart des benchmarks, à l’exception de la détection d’hallucinations et du suivi d’instructions ; (2) les performances varient fortement selon la méthode de quantification, la taille du modèle et la largeur en bits, les méthodes weight-only donnant souvent de meilleurs résultats sur les modèles plus grands ; (3) la difficulté des tâches n’a pas d’impact significatif sur la baisse de précision due à la quantification, et la méthode d’évaluation MT-Bench a montré des limites de pouvoir discriminant entre les LLM récents les plus performants.
> Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.
Lien vers l’article
https://arxiv.org/abs/2409.11055
Pour aller plus loin
https://x.com/omarsar0/status/1836479309390995790
Itération de la pensée : exploiter le dialogue intérieur pour un raisonnement autonome des grands modèles de langage / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning
Présentation de l’article
Le framework Iteration of Thought (IoT) est proposé pour améliorer les réponses et les capacités de raisonnement des LLM grâce à des trajectoires de raisonnement adaptatives ; il s’appuie sur un agent de dialogue intérieur jouant un rôle de guide pour ajuster dynamiquement les trajectoires de raisonnement, permettant une exploration adaptative entre différents chemins et améliorant la précision des réponses. Il se distingue de CoT et ToT (qui sont tous deux des processus rigides) en ce que la génération de prompts y est un processus dynamique capable de s’adapter.
> Proposes the Iteration of Thought (IoT) framework to enhance the LLM responses and reasoning capabilities with adaptive reasoning paths; it leverages an inner dialogue agent, acting as a guide, to dynamically adjust reasoning paths which allows adaptive cross-path exploration and enhance response accuracy; it's different from CoT and ToT (both rigid processes) in that its prompt generation is a dynamic process that allows it to adapt.
Résumé(Abstract)
L’engagement humain itératif est un moyen courant et efficace de tirer parti des capacités avancées de traitement du langage des grands modèles de langage (LLM). En utilisant des prompts conversationnels bien structurés, les utilisateurs humains peuvent efficacement influencer un LLM afin qu’il élabore des réponses plus réfléchies et plus précises. Inspirés par cette intuition, nous proposons le framework Iteration of Thought (IoT) pour améliorer les réponses des LLM en générant des prompts qui stimulent la « pensée » vis-à-vis d’une requête d’entrée et de l’itération courante de la réponse d’un LLM. Contrairement aux approches statiques ou semi-statiques (par ex. Chain of Thought (CoT) ou Tree of Thoughts (ToT)), IoT ajuste dynamiquement son cheminement de raisonnement en fonction de l’évolution du contexte, sans générer de pensées exploratoires alternatives finalement abandonnées. Les trois composants du framework IoT sont : (1) un Inner Dialogue Agent (IDA), chargé de générer des prompts instructifs et contextuels ; (2) un LLM Agent (LLMA), qui traite ces prompts pour affiner ses réponses ; et (3) une boucle itérative de prompting qui met en œuvre une conversation entre les deux premiers composants. Nous présentons deux variantes de ce framework : Autonomous Iteration of Thought (AIoT), dans laquelle un LLM décide quand arrêter les itérations, et Guided Iteration of Thought (GIoT), qui impose toujours un nombre fixe d’itérations. Nous étudions les performances d’IoT sur divers jeux de données, couvrant des tâches de raisonnement complexes du jeu de données GPQA, la résolution exploratoire de problèmes dans Game of 24, la résolution d’énigmes dans Mini Crosswords, et les questions-réponses multi-sauts du jeu de données HotpotQA. Les résultats montrent qu’IoT constitue un paradigme viable pour l’amélioration autonome des réponses des LLM, avec des gains significatifs par rapport à CoT, permettant ainsi des systèmes de raisonnement plus adaptatifs et plus efficaces qui minimisent l’intervention humaine.
> Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.
Lien vers l’article
https://arxiv.org/abs/2409.12618
Pour aller plus loin
https://x.com/omarsar0/status/1836977595847692671
La mémoire de Schrödinger : grands modèles de langage / Schrodinger's Memory: Large Language Models
Présentation de l’article
Cet article explique le mécanisme de mémoire des LLM à l’aide du théorème d’approximation universelle. Il propose également une nouvelle approche pour évaluer les performances des LLM en comparant la capacité mémoire de différents modèles, et montre que l’architecture Transformer fonctionne comme un modèle UAT d’ajustement dynamique doté d’une forte capacité d’adaptation aux entrées, ce qui permet de rappeler l’ensemble du contenu à partir d’un minimum d’informations en entrée.
> Uses the Universal Approximation Theorem to explain the memory mechanism of LLMs. It also proposes a new approach to evaluate LLM performance by comparing the memory capacities of different models; the Transformer architecture functions as a dynamic fitting UAT model, with a strong ability to adaptively fit inputs; this enables LLMs to recall entire content based on minimal input information.
Résumé (Abstract)
La mémoire est le fondement de toute activité humaine, et sans elle, il serait presque impossible d’accomplir la moindre tâche au quotidien. Avec le développement des grands modèles de langage (LLM), leurs capacités linguistiques deviennent de plus en plus comparables à celles des humains. Mais les LLM ont-ils une mémoire ? Au vu de leurs performances actuelles, ils semblent effectivement en manifester une. Quel est donc le mécanisme sous-jacent de cette mémoire ? Les travaux précédents ont manqué d’une exploration approfondie des capacités de mémoire des LLM et de la théorie qui les sous-tend. Dans cet article, les auteurs utilisent le théorème d’approximation universelle (UAT) pour expliquer le mécanisme de mémoire des LLM. Ils mènent également des expériences pour vérifier les capacités de mémoire de divers LLM et proposent une nouvelle méthode d’évaluation de leurs aptitudes fondée sur ces capacités mémorielles. Les auteurs soutiennent que la mémoire des LLM fonctionne comme une mémoire de Schrödinger, c’est-à-dire qu’elle ne devient observable que lorsqu’un souvenir précis est interrogé. On ne peut déterminer si le modèle conserve un souvenir qu’à partir de sa sortie en réponse à la requête ; sinon, il demeure dans un état indéterminé. Enfin, ils étendent ce concept en comparant les capacités de mémoire du cerveau humain et des LLM, en mettant en évidence les similarités et les différences de leurs mécanismes de fonctionnement.
> Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.
Lien vers l’article
https://arxiv.org/abs/2409.10482
Pour aller plus loin
https://x.com/omarsar0/status/1835882330323554321
Jailbreaker les grands modèles de langage avec les mathématiques symboliques / Jailbreaking Large Language Models with Symbolic Mathematics
Présentation de l’article
Utilise GPT-4o pour générer des prompts encodés mathématiquement servant de technique efficace de jailbreak ; montre un taux moyen de réussite de l’attaque de 73,6 % sur 13 modèles de pointe, ce qui souligne l’incapacité des mécanismes actuels d’entraînement à la sécurité à se généraliser à des entrées encodées mathématiquement.
> Uses GPT-4o to generate mathematically encoded prompts that serve as an effective jailbreaking technique; shows an average attack success rate of 73.6% across 13 state-of-the-art; this highlights the inability of existing safety training mechanisms to generalize to mathematically encoded inputs.
Résumé de l’article (Abstract)
Les progrès récents de la sécurité de l’IA ont entraîné une intensification des efforts d’entraînement et de red-teaming des grands modèles de langage (LLM) afin d’atténuer la génération de contenus dangereux. Cependant, ces mécanismes de sécurité peuvent ne pas être exhaustifs, laissant des vulnérabilités potentielles inexplorées. Cet article présente MathPrompt, une nouvelle technique de jailbreak qui exploite les capacités avancées des LLM en mathématiques symboliques pour contourner leurs mécanismes de sécurité. En encodant des prompts nuisibles en langage naturel sous forme de problèmes mathématiques, les auteurs mettent en évidence une vulnérabilité critique des mesures actuelles de sécurité de l’IA. Les résultats expérimentaux obtenus sur 13 LLM de pointe révèlent un taux moyen de réussite de l’attaque de 73,6%, montrant l’incapacité des mécanismes actuels d’entraînement à la sécurité à se généraliser à des entrées encodées mathématiquement. L’analyse des vecteurs d’embedding montre un déplacement sémantique substantiel entre les prompts d’origine et les prompts encodés, ce qui aide à expliquer le succès de l’attaque. Ce travail souligne l’importance d’une approche holistique de la sécurité de l’IA et appelle à étendre les efforts de red-teaming afin de développer des garde-fous robustes couvrant tous les types d’entrées possibles et les risques qui leur sont associés.
> Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.
Lien vers l’article
https://arxiv.org/abs/2409.11445
Pour aller plus loin
https://x.com/omarsar0/status/1836603922405806501
Source originale
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-277
- Cet article a été résumé avec un modèle GPT ; il peut donc contenir des erreurs. Veuillez aussi consulter le texte original en bas de l’article ! Si vous repérez un passage maladroit ou erroné pendant votre lecture, merci de nous le signaler en commentaire.* 🤗
⚠️Publicité⚠️ : avez-vous trouvé utile cet article compilé par la 🔥communauté coréenne des utilisateurs de PyTorch🇰🇷 ? Si vous vous inscrivez comme membre, nous vous enverrons les principaux articles par e-mail💌 ! (Le réglage par défaut est Weekly, mais vous pouvez aussi le passer en Daily.)
3 commentaires
Le titre indique juin, mais l’article lié est daté de septembre. C’est peut-être à cause de l’autocomplétion ?
Oups, en effet ;;; merci de me l’avoir signalé. T_T
Le titre aurait dû être « [2024/09/16 ~ 09/22] Principaux articles ML de la semaine (Top ML Papers of the Week) », mais je me suis trompé en utilisant le modèle. Si xguru passe par ici, pourriez-vous le modifier s’il vous plaît ? 🙇♂️
Merci !!