03] Principaux articles ML de la semaine (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 points par ninebow 2024-03-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp

J’ai traduit automatiquement des articles sur les publications ML publiées chaque semaine par DAIR.AI.
Les articles sélectionnés cette semaine semblent majoritairement centrés sur les grands modèles de langage (Large Language Models, LLMs). Des titres comme « Genie », « Mistral Large », « The Era of 1-bit LLMs », « Dataset for LLMs » ou « PlanGPT » montrent un fort intérêt pour la modélisation du langage ainsi que pour les approches visant à l’améliorer ou à exploiter de nouveaux jeux de données. Cela peut s’expliquer par les progrès rapides des technologies de traitement du langage ces dernières années et par les excellentes performances des très grands modèles de langage sur de nombreuses tâches de NLP.
Les modèles de langage, en particulier les grands modèles comme GPT-4, sont aujourd’hui utilisés dans de nombreux secteurs et domaines de recherche. En conséquence, la demande augmente pour développer de nouvelles techniques permettant de les entraîner plus efficacement, de les appliquer à des données plus variées, et même de conserver de hautes performances avec un nombre de bits réduit. Par ailleurs, un titre comme « On the Societal Impact of Open Foundation Models » suggère que des recherches portent aussi sur l’impact sociétal des modèles de langage, ce qui montre qu’au-delà des avancées techniques, la prise de conscience des transformations sociales qu’ils entraînent et des responsabilités associées progresse également.
D’un autre côté, des titres moins explicites comme « LearnAct » ou « EMO » attirent aussi l’attention. Ces travaux pourraient ne pas se limiter aux modèles de langage et se concentrer sur des applications plus larges ou sur des avancées théoriques. Globalement, cette semaine confirme que les nouvelles approches de la modélisation du langage et les diverses recherches appliquées qui en découlent constituent la tendance centrale, reflétant l’intensité de la recherche et du développement autour des nombreux défis jugés importants dans le domaine de l’IA.

Genie : environnements interactifs génératifs / Genie: Generative Interactive Environments

Présentation de l’article

Genie, un foundation model entraîné à partir de vidéos Internet et capable de générer une grande variété de mondes 2D contrôlables par l’action à partir d’un prompt d’image, compte 11B paramètres. Il se compose d’un tokenizer vidéo spatio-temporel, d’un modèle dynamique auto-régressif et d’un modèle d’action latente évolutif. Grâce à l’espace d’action latente, un agent entraîné peut imiter les comportements de vidéos non vues, ce qui en fait une piste prometteuse pour construire des agents plus généralistes.

A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.

Résumé de l’article (Abstract)

Nous présentons Genie, le premier environnement interactif génératif entraîné de manière non supervisée à partir de vidéos Internet non annotées. Le modèle peut recevoir comme prompt du texte, des images synthétiques, des photographies et même des croquis pour générer une variété infinie de mondes virtuels contrôlables par l’action. Avec ses 11B paramètres, Genie peut être considéré comme un foundation world model. Il se compose d’un tokenizer vidéo spatio-temporel, d’un modèle de dynamique auto-régressif et d’un modèle d’action latente simple et évolutif. Genie permet aux utilisateurs d’agir image par image dans les environnements générés, bien qu’il ait été entraîné sans aucune étiquette d’action de référence ni autres exigences spécifiques au domaine, habituellement présentes dans la littérature sur les world models. En outre, l’espace d’action latente appris facilite l’entraînement d’agents capables d’imiter des comportements observés dans des vidéos non vues, ouvrant ainsi la voie à l’entraînement des futurs agents généralistes.

We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

Lien vers l’article

https://arxiv.org/abs/2402.15391

Pour aller plus loin

https://discuss.pytorch.kr/t/…

https://sites.google.com/view/genie-2024/home

https://x.com/_rockt/status/1762026090262872161

Mistral Large / Mistral Large

Présentation de l’article

Les caractéristiques de ce nouveau moteur de langage, doté de fortes capacités en multilingue, raisonnement, mathématiques et génération de code, sont les suivantes : 1) une fenêtre de contexte de 32k tokens, 2) des capacités multilingues natives, 3) de solides performances sur les benchmarks de raisonnement, de connaissances, de mathématiques et de code, 4) la prise en charge native du function calling et du format JSON.

A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.

Lien vers l’article

https://mistral.ai/news/mistral-large/

Pour aller plus loin

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1762140818654064721

L’ère des LLM 1 bit : tous les grands modèles de langage tiennent en 1,58 bit / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Présentation de l’article

Présente BitNet b1.58, une variante de LLM 1 bit performante et économique, dont tous les paramètres sont ternaires {-1, 0, 1}. À taille de modèle et volume de tokens d’entraînement identiques, BitNet b1.58 peut égaler la complexité et les performances sur les tâches d’un LLM Transformer en pleine précision (c.-à-d. fp16), tout en offrant des améliorations bien supérieures en matière de latence, de mémoire, de débit et de consommation d’énergie.

Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.

Résumé de l’article (Abstract)

Des travaux récents, comme BitNet, ouvrent la voie à une nouvelle ère des grands modèles de langage (LLM) à 1 bit. Cet article présente une variante de LLM 1 bit, appelée BitNet b1.58, dans laquelle chaque paramètre (ou poids) du LLM est ternaire {-1, 0, 1}. Elle égale un LLM Transformer en pleine précision (c.-à-d. FP16 ou BF16) de même taille et entraîné sur le même nombre de tokens, tant en termes de perplexité que de performances sur les tâches finales, tout en étant nettement plus économique en termes de latence, de mémoire, de débit et de consommation d’énergie. Plus fondamentalement, ce LLM à 1,58 bit définit une nouvelle loi de passage à l’échelle et une nouvelle recette d’entraînement pour former de nouvelles générations de LLM à la fois très performants et économes. Il ouvre également la voie à un nouveau paradigme de calcul et à la conception de matériels spécifiques optimisés pour les LLM à 1 bit.

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

Lien vers l’article

https://arxiv.org/abs/2402.17764

Pour aller plus loin

https://x.com/_akhaliq/status/1762729757454618720

Jeux de données pour les grands modèles de langage : enquête exhaustive / Datasets for Large Language Models: A Comprehensive Survey

Présentation de l’article

Une vue d’ensemble exhaustive (plus de 180 pages) et une analyse des jeux de données pour les LLM.

A comprehensive overview (180+ pages) and analysis of llm datasets.

Résumé de l’article (Abstract)

Cet article entame une exploration des jeux de données pour les grands modèles de langage (LLM), qui jouent un rôle crucial dans les avancées remarquables des LLM. Ces jeux de données servent d’infrastructure fondamentale, comparable à un système racinaire qui soutient et nourrit le développement des LLM. Par conséquent, leur examen s’impose comme un sujet de recherche majeur. Afin de répondre au manque actuel de vue d’ensemble complète et d’analyse approfondie des jeux de données LLM, et de mieux comprendre leur état actuel ainsi que leurs évolutions futures, cette étude de synthèse consolide et classe les aspects fondamentaux des jeux de données LLM selon cinq perspectives : (1) corpus de pré-entraînement ; (2) jeux de données de fine-tuning par instructions ; (3) jeux de données de préférences ; (4) jeux de données d’évaluation ; (5) jeux de données traditionnels de traitement automatique du langage naturel (NLP). Cette étude met en lumière les défis actuels et indique des pistes potentielles pour les recherches futures. Elle fournit également une revue complète des ressources de jeux de données actuellement disponibles, avec des statistiques portant sur 444 jeux de données, couvrant 8 catégories de langues et 32 domaines. Des informations selon 20 dimensions sont intégrées aux statistiques des jeux de données. Le volume total des données étudiées dépasse 774,5 To pour les corpus de pré-entraînement et 700 millions d’instances pour les autres jeux de données. Notre objectif est de présenter l’ensemble du paysage des jeux de données textuels pour les LLM, afin de fournir une référence complète aux chercheurs du domaine et de contribuer aux travaux à venir. Les ressources associées sont disponibles sur : https://github.com/lmmlzn/Awesome-LLMs-Datasets.

This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

Lien vers l’article

https://arxiv.org/abs/2402.18041

Pour aller plus loin

https://github.com/lmmlzn/Awesome-LLMs-Datasets

https://x.com/omarsar0/status/1763233452852134001

Renforcer les capacités des agents à grands modèles de langage grâce à l’apprentissage par l’action / Empowering Large Language Model Agents through Action Learning

Présentation de l’article

Explore l’apprentissage d’actions ouvertes pour les agents langagiers à travers une stratégie d’apprentissage itérative qui crée et améliore des actions à l’aide de fonctions Python ; à chaque itération, le framework proposé (learnact) étend l’espace d’action et améliore l’efficacité des actions en révisant et en mettant à jour les actions disponibles à partir des retours d’exécution ; les résultats obtenus dans la planification robotique et l’environnement Alfworld montrent une amélioration de 32 % des performances de l’agent dans Alfworld par rapport à React+Reflexion.

Explores open-action learning for language agents through an iterative learning strategy that creates and improves actions using python functions; on each iteration, the proposed framework (learnact) expands the action space and enhances action effectiveness by revising and updating available actions based on execution feedback; the learnact framework was tested on robotic planning and alfworld environments; it improves agent performance by 32% in alfworld compared to react+reflexion.

Résumé(Abstract)

Si les agents de grands modèles de langage (LLM) suscitent récemment un intérêt croissant, ils restent limités dans leur capacité à apprendre par essais et erreurs, un élément clé du comportement intelligent. Cette étude soutient que la capacité à apprendre de nouvelles actions à partir de l’expérience est essentielle pour faire progresser l’apprentissage des agents LLM. Alors que les humains étendent naturellement leur espace d’actions et développent des compétences grâce à l’apprentissage expérientiel, les agents LLM opèrent généralement dans des espaces d’actions fixes, ce qui limite leur potentiel de croissance. Pour répondre à ce problème, cette recherche explore l’apprentissage d’actions ouvertes pour les agents de langage. Elle présente LearnAct, un framework intégrant une stratégie d’apprentissage itérative permettant de créer et d’améliorer des actions sous forme de fonctions Python. À chaque itération, le LLM révise et met à jour les actions actuellement disponibles en s’appuyant sur les erreurs identifiées dans les tâches d’entraînement ayant échoué, afin d’en améliorer l’efficacité. Selon les évaluations expérimentales menées dans les environnements Robotic Planning et Alfworld, après apprentissage sur quelques instances de tâches d’entraînement, cette approche d’apprentissage d’actions ouvertes améliore nettement les performances de l’agent sur ce type de tâches (par exemple, +32 % sur AlfWorld par rapport à ReAct+Reflexion). Ce résultat souligne l’importance de l’apprentissage d’actions par l’expérience dans le développement d’agents LLM plus intelligents.

Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.

Lien vers l’article

https://arxiv.org/abs/2402.15809

Pour aller plus loin

https://x.com/omarsar0/status/1762533498492010761

EMO : Emote Portrait Alive — Génération de vidéos de portraits expressives avec un modèle de diffusion Audio2Video sous conditions faibles / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Présentation de l’article

EMO, un nouveau framework qui exploite un modèle de diffusion Audio-to-Video et une approche directe de synthèse audio-vers-vidéo sans nécessiter de modèle 3D intermédiaire ni de points de repère faciaux, permet de générer des vidéos expressives. Il surpasse les approches existantes en matière d’expressivité et de réalisme, tout en produisant des vidéos parlées et chantées convaincantes dans des styles variés.

A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.

Résumé(Abstract)

Cette étude s’attaque au défi consistant à améliorer le réalisme et l’expressivité dans la génération de vidéos de visages parlants, en se concentrant sur la relation dynamique et subtile entre les indices audio et les mouvements du visage. Unity identifie les limites des techniques traditionnelles, qui échouent souvent à capturer toute l’étendue des expressions humaines ainsi que l’unicité des styles faciaux individuels. Pour résoudre ces problèmes, Unity propose EMO, un nouveau framework qui utilise une approche directe de synthèse audio-vidéo, sans nécessiter de modèle 3D intermédiaire ni de points de repère faciaux. Cette méthode garantit des transitions fluides entre les images et une préservation cohérente de l’identité tout au long de la vidéo, ce qui permet de produire des animations très expressives et réalistes. Les résultats expérimentaux montrent qu’EMO est capable de produire non seulement des vidéos parlées convaincantes, mais aussi des vidéos chantées dans divers styles, en surpassant largement les méthodologies de pointe existantes en matière d’expressivité et de réalisme.

In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

Lien vers l’article

https://arxiv.org/abs/2402.17485

Pour aller plus loin

https://x.com/_akhaliq/status/1762686465777999932

Impact sociétal des modèles de fondation ouverts / On the Societal Impact of Open Foundation Models

Présentation de l’article

Cet article de position, centré sur les modèles de fondation ouverts ainsi que sur leur impact, leurs bénéfices et leurs risques, propose un cadre d’évaluation des risques pour analyser ceux-ci, explique pourquoi le risque marginal des modèles de fondation ouverts est faible dans certains cas, et offre une évaluation plus étayée de leur impact sociétal.

A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.

Lien vers l’article

https://crfm.stanford.edu/open-fms/

Pour aller plus loin

https://x.com/sayashk/status/1762508812370551207

StarCoder 2 / StarCoder 2

Présentation de l’article

Une famille ouverte de modèles de machine learning pour le code en trois tailles (3b, 7b, 15b) ; le modèle 15b a été entraîné sur 14 billions de tokens et plus de 600 langages de programmation, avec une fenêtre de contexte de 16k tokens et un objectif de fill-in-the-middle ; il égale des modèles de 33b et plus sur de nombreuses évaluations comme la complétion de code, le raisonnement sur le code et le raisonnement mathématique assisté par PAL.

A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.

Lien vers l’article

https://huggingface.co/blog/starcoder2

Pour aller plus loin

https://x.com/_philschmid/status/1762843489220296881

Les grands modèles de langage (LLMs) sur les données tabulaires : prédiction, génération et compréhension - article de synthèse / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Présentation de l’article

Présente une vue d’ensemble des LLMs pour les tâches sur données tabulaires, y compris les principales techniques, métriques, jeux de données, modèles et approches d’optimisation, et aborde aussi les limites ainsi que des pistes encore inexplorées, avec des insights sur les orientations futures de la recherche.

An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.

Résumé(Abstract)

Les avancées majeures récentes en modélisation des grands modèles de langage ont permis d’explorer rigoureusement leur application à diverses tâches liées à la modélisation de données tabulaires, comme la prédiction, la synthèse de données tabulaires, la question-réponse et la compréhension de tableaux. Chaque tâche présente des défis et des opportunités spécifiques. Cependant, il manque actuellement une revue complète qui résume et compare les principales techniques, métriques, jeux de données, modèles et approches d’optimisation dans ce domaine de recherche. Cette survey vise à combler cette lacune en consolidant les progrès récents dans ces domaines, en proposant une étude approfondie et une taxonomie des jeux de données, métriques et méthodologies utilisés. Elle identifie les points forts, les limites, les zones inexplorées et les lacunes de la littérature existante, tout en fournissant des pistes pour les orientations futures de la recherche dans ce domaine important et en évolution rapide. Elle fournit également des références vers du code et des jeux de données pertinents. À travers cette revue exhaustive, nous espérons offrir aux lecteurs intéressés des références pertinentes et des perspectives éclairantes, en leur donnant les outils et les connaissances nécessaires pour naviguer efficacement parmi les défis actuels du domaine et y répondre.

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.

Lien vers l’article

https://arxiv.org/abs/2402.17944

Pour aller plus loin

https://x.com/omarsar0/status/1763187964501254492

PlanGPT : améliorer l’urbanisme grâce à un modèle de langage adapté et à une recherche efficace / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Présentation de l’article

Montre comment exploiter les LLMs et combiner plusieurs approches comme la génération augmentée par recherche, le fine-tuning, l’usage d’outils, etc. Le framework proposé est appliqué à la planification urbaine et spatiale, mais comporte aussi de nombreux enseignements et conseils pratiques applicables à d’autres domaines.

Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.

Résumé(Abstract)

Dans le domaine de l’urbanisme, les grands modèles de langage généralistes peinent souvent à répondre aux besoins spécifiques des planificateurs. Des tâches comme la génération de textes d’urbanisme, la recherche d’informations connexes et l’évaluation de documents de planification posent des défis particuliers. Pour améliorer l’efficacité des professionnels de la ville et surmonter ces obstacles, voici PlanGPT, le premier grand modèle de langage spécialisé conçu pour l’urbanisme et l’aménagement spatial. Développé en collaboration avec des institutions comme la Société chinoise d’urbanisme, PlanGPT s’appuie sur un framework personnalisé de recherche dans des bases de données locales, sur le fine-tuning de modèles de base adapté au domaine et sur des capacités avancées d’outillage. Selon des tests empiriques, PlanGPT a atteint un niveau de performance élevé, en fournissant des réponses de qualité supérieure, précisément adaptées à la complexité de l’urbanisme.

In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.

Cet article a été synthétisé à l’aide d’un modèle GPT et peut donc contenir des erreurs. Veuillez également consulter la source originale en bas de page. Si vous repérez un passage maladroit ou incorrect pendant votre lecture, merci de le signaler en commentaire.

⚠️Publicité⚠️ : Cet article compilé par le groupe d’utilisateurs coréen de PyTorch vous a-t-il été utile ? Si vous devenez membre, nous vous enverrons les principaux articles par e-mail ! (Le réglage par défaut est Weekly, mais vous pouvez aussi passer en Daily.)

[2024/02/26 ~ 03/03] Principaux articles ML de la semaine (Top ML Papers of the Week)

Genie : environnements interactifs génératifs / Genie: Generative Interactive Environments

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Mistral Large / Mistral Large

Présentation de l’article

Lien vers l’article

Pour aller plus loin

L’ère des LLM 1 bit : tous les grands modèles de langage tiennent en 1,58 bit / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Jeux de données pour les grands modèles de langage : enquête exhaustive / Datasets for Large Language Models: A Comprehensive Survey

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Renforcer les capacités des agents à grands modèles de langage grâce à l’apprentissage par l’action / Empowering Large Language Model Agents through Action Learning

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

EMO : Emote Portrait Alive — Génération de vidéos de portraits expressives avec un modèle de diffusion Audio2Video sous conditions faibles / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

Impact sociétal des modèles de fondation ouverts / On the Societal Impact of Open Foundation Models

Présentation de l’article

Lien vers l’article

Pour aller plus loin

StarCoder 2 / StarCoder 2

Présentation de l’article

Lien vers l’article

Pour aller plus loin

Les grands modèles de langage (LLMs) sur les données tabulaires : prédiction, génération et compréhension - article de synthèse / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

PlanGPT : améliorer l’urbanisme grâce à un modèle de langage adapté et à une recherche efficace / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

Source originale

À lire aussi

Aucun commentaire pour le moment.