28] Principaux articles ML de la semaine (Top ML Papers of the Week)

(discuss.pytorch.kr)

3 points par ninebow 2024-01-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Vue d’ensemble

Nous avons traduit automatiquement l’article hebdomadaire de DAIR.AI sur les publications ML.
Les articles sélectionnés cette semaine montrent un intérêt marqué pour des domaines comme les grands modèles de langage (Large Language Models, LLMs), les modèles multimodaux (Multimodal Models) et les modèles vision-langage (Visual Language Models). Des articles comme "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models" et "Red Teaming Visual Language Models" reflètent ces grandes tendances, en présentant des travaux de recherche et développement sur les modèles de grande taille et leur efficacité, l’apprentissage multimodal et l’amélioration des capacités de traitement des données visuelles.
Cette tendance s’inscrit dans l’importance croissante, ces dernières années, de la capacité à comprendre et traiter des données complexes dans les technologies d’IA, en particulier dans les domaines du traitement automatique du langage naturel (Natural Language Processing, NLP) et de la vision par ordinateur (Computer Vision). Les grands modèles de langage affichent des performances élevées sur diverses tâches de compréhension du langage, tandis que les modèles multimodaux se sont imposés comme un élément essentiel des recherches visant une compréhension de type humain en combinant différents types de données (texte, image, audio, etc.). Par ailleurs, les modèles vision-langage jouent un rôle majeur dans la construction de systèmes d’IA plus riches et plus interactifs, en permettant une approche linguistique des images et des contenus visuels.
Les tendances identifiées à travers les titres et les introductions suggèrent que de plus en plus de recherches ne visent pas seulement à améliorer les performances de modèles d’IA avancés, mais aussi à définir de nouveaux standards de productivité et d’efficacité. Les articles consacrés à l’amélioration de l’efficacité des ressources des grands modèles reflètent l’orientation actuelle de la recherche vers un développement durable de l’IA, du point de vue de la consommation d’énergie et des coûts de calcul. Cela met également en lumière les efforts du monde académique et de l’industrie pour traiter des problèmes qui doivent impérativement être résolus afin que l’IA soit adoptée plus largement dans des applications industrielles et sociétales concrètes.

Une analyse approfondie de tout : exploiter la puissance des données non étiquetées à grande échelle / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Présentation de l’article

Une solution robuste d’estimation de profondeur monoculaire capable de traiter n’importe quelle image dans n’importe quelle situation, qui annote automatiquement de grandes quantités de données non étiquetées (jusqu’à 62 millions) afin de réduire l’erreur de généralisation, propose une stratégie efficace pour exploiter la puissance des données non étiquetées à grande échelle, et, au-delà de la capacité de généralisation, établit un nouvel état de l’art grâce au fine-tuning, allant jusqu’à produire un ControlNet conditionné par la profondeur amélioré.

A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.

Résumé de l’article (Abstract)

Cette étude présente Depth Anything, une solution très pratique pour une estimation de profondeur monoculaire robuste. Sans chercher à introduire de nouveaux modules techniques, l’objectif est de construire un foundation model simple mais puissant, capable de traiter n’importe quelle image dans n’importe quelles circonstances. Pour cela, les auteurs étendent le jeu de données en concevant un moteur de données capable de collecter et d’annoter automatiquement un grand volume de données non étiquetées (environ 62 millions), ce qui élargit considérablement la couverture des données et permet ainsi de réduire l’erreur de généralisation. Ils étudient deux stratégies simples mais efficaces qui rendent prometteuse la montée en échelle des données. Premièrement, un objectif d’optimisation plus exigeant est créé en exploitant des outils d’augmentation de données. Cela pousse le modèle à rechercher activement des connaissances visuelles supplémentaires et à acquérir des représentations robustes. Deuxièmement, une supervision auxiliaire est développée afin que le modèle hérite de riches priors sémantiques à partir d’encodeurs préentraînés. Les capacités zero-shot sont évaluées de manière approfondie, notamment sur six jeux de données publics et sur des photos prises aléatoirement. Les résultats montrent une capacité de généralisation impressionnante. En outre, grâce au fine-tuning avec les informations de profondeur métrique de NYUv2 et KITTI, de nouveaux SOTA sont atteints. Un meilleur modèle de profondeur conduit également à un meilleur ControlNet conditionné par la profondeur. Plus de détails sont disponibles sur https://github.com/LiheYoung/Depth-Anything.

This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.

Lien vers l’article

https://arxiv.org/abs/2401.10891v1

Pour aller plus loin

https://x.com/_akhaliq/status/1749284669936275463

Fusion des connaissances des grands modèles de langage / Knowledge Fusion of Large Language Models

Présentation de l’article

Propose FuseLLM, dont l’idée centrale consiste à externaliser les connaissances de plusieurs organisations d’apprentissage et à transférer leurs capacités vers une organisation d’apprentissage cible ; en exploitant la distribution générative des organisations d’apprentissage sources, le modèle externalise à la fois la connaissance collective et les forces individuelles, puis les transfère vers l’organisation d’apprentissage cible via un apprentissage continu ; il montre que FuseLLM peut améliorer les performances du modèle cible sur diverses capacités, notamment le raisonnement, le bon sens et la génération de code.

Proposes fusellm with the core idea of externalizing knowledge from multiple llms and transferring their capabilities to a target llm; leverages the generative distributions of source llms to externalize both their collective knowledge and individual strengths and transfer them to the target llm through continual training; finds that the fusellm can improve the performance of the target model across a range of capabilities such as reasoning, common sense, and code generation.

Résumé de l’article (Abstract)

Entraîner des grands modèles de langage (LLM) à partir de zéro peut produire des modèles dotés de fonctionnalités et de forces distinctes, mais cela entraîne des coûts importants et peut aboutir à des capacités redondantes. Une autre approche, à la fois économique et attrayante, consiste à fusionner des LLM préentraînés existants en un modèle plus puissant. Cependant, en raison de la diversité des architectures de ces LLM, le mélange direct de leurs poids est irréaliste. Cet article introduit la notion de fusion de connaissances pour les LLM, qui vise à combiner les capacités de LLM existants pour les transférer dans un LLM unique. En exploitant les distributions génératives des LLM sources, les auteurs externalisent leur connaissance collective et leurs forces propres, ce qui permet potentiellement d’élever les capacités du modèle cible au-delà de celles de n’importe quel LLM source pris individuellement. Unity valide cette approche à l’aide de trois LLM populaires aux architectures différentes — Llama-2, MPT et OpenLLaMA — sur divers benchmarks et tâches. Les résultats confirment que la fusion de LLM peut améliorer les performances du modèle cible sur un large éventail de capacités, telles que le raisonnement, le bon sens et la génération de code. Le code, les poids du modèle et les données sont disponibles à l’adresse \url{https://github.com/fanqiwan/FuseLLM}.

While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.

Lien vers l’article

https://arxiv.org/abs/2401.10491

Pour aller plus loin

https://github.com/fanqiwan/FuseLLM

https://x.com/omarsar0/status/1749267663900057620

MambaByte : modèle sélectif d’espace d’état sans tokens / MambaByte: Token-free Selective State Space Model

Présentation de l’article

Adapte Mamba SSM pour apprendre directement à partir de bytes bruts. Les bytes entraînent des séquences plus longues, que les transformers autorégressifs gèrent mal à l’échelle. Ce travail rapporte de très gros gains, notamment en inférence plus rapide, et surpasse même les transformers à sous-mots.

Adapts mamba ssm to learn directly from raw bytes; bytes lead to longer sequences which autoregressive transformers will scale poorly on; this work reports huge benefits related to faster inference and even outperforms subword transformers.

Résumé de l’article (Abstract)

Les modèles de langage sans tokens apprennent directement à partir de bytes bruts et éliminent le biais de la tokenisation en sous-mots. Travailler au niveau des bytes produit toutefois des séquences nettement plus longues, et les transformers autorégressifs standard passent mal à l’échelle dans ce cadre. Nous avons expérimenté MambaByte, une adaptation sans tokens du modèle d’espace d’état Mamba, entraînée de manière autorégressive sur des séquences de bytes. Les expériences montrent que MambaByte présente une efficacité de calcul nettement supérieure à celle des autres modèles au niveau byte. Nous constatons également que MambaByte est compétitif face aux transformers à sous-mots de pointe, et les surpasse même dans certains cas. En outre, grâce à une mise à l’échelle linéaire avec la longueur, MambaByte offre une inférence plus rapide que les transformers. Ces résultats démontrent le potentiel de MambaByte pour rendre possible la modélisation du langage sans tokens.

Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.

Lien vers l’article

https://arxiv.org/abs/2401.13660

Pour aller plus loin

https://x.com/omarsar0/status/1750366964759859633

Diffuse to Choose : enrichir l'inpainting conditionné par image dans les modèles de diffusion latente pour le Virtual Try-All / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

Présentation de l'article

Un modèle d'inpainting conditionné par image basé sur la diffusion, qui concilie inférence rapide et haute fidélité tout en permettant des manipulations sémantiques précises dans un contenu de scène donné ; il surpasse les méthodes existantes d'inpainting par diffusion en zero-shot, et même des algorithmes de personnalisation par diffusion en few-shot comme DreamPaint.

A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.

Résumé de l'article (Abstract)

Avec la croissance du shopping en ligne, la capacité pour les acheteurs de visualiser virtuellement des produits dans leur propre environnement — un phénomène que nous appelons « Virtual Try-All » — est devenue cruciale. Les modèles de diffusion récents intègrent intrinsèquement un world model, ce qui les rend adaptés à cette tâche dans un contexte d'inpainting. Cependant, les modèles de diffusion traditionnels conditionnés par image échouent souvent à capturer les détails fins des produits. À l'inverse, les modèles axés sur la personnalisation comme DreamPaint préservent bien les détails des objets, mais ne sont pas optimisés pour des applications en temps réel. Unity présente « Diffuse to Choose », un nouveau modèle d'inpainting conditionné par image basé sur la diffusion, qui équilibre efficacement la rapidité d'inférence et la conservation de détails haute fidélité d'un élément de référence donné, tout en garantissant des manipulations sémantiques précises dans le contenu de scène fourni. L'approche de Unity repose sur l'intégration directe de caractéristiques fines issues de l'image de référence dans les cartes de caractéristiques latentes du modèle principal de diffusion, accompagnée d'une perceptual loss afin de mieux préserver les détails de l'élément de référence. Unity a mené des tests approfondis sur des jeux de données internes et publics, montrant que Diffuse to Choose surpasse les méthodes existantes d'inpainting par diffusion en zero-shot ainsi que des algorithmes de personnalisation par diffusion en few-shot comme DreamPaint.

As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.

Lien vers l'article

https://arxiv.org/abs/2401.13795

Pour aller plus loin

https://x.com/_akhaliq/status/1750737690553692570

WARM : à propos des avantages des modèles de récompense à moyenne de poids / WARM: On the Benefits of Weight Averaged Reward Models

Présentation de l'article

Introduction de modèles de récompense à moyenne pondérée (WARM), qui consistent à affiner plusieurs reward models puis à en faire la moyenne dans l'espace des poids ; cette moyenne pondérée améliore l'efficacité par rapport aux ensembles de prédictions traditionnels et améliore la qualité ainsi que l'alignement des prédictions de LLM.

Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.

Résumé de l'article (Abstract)

Aligner de grands modèles de langage (LLM) sur les préférences humaines via l’apprentissage par renforcement (RLHF) peut conduire à du reward hacking, où les LLM exploitent les failles du modèle de récompense (RM) pour obtenir des récompenses apparemment élevées sans atteindre les objectifs de fond. Unity identifie deux défis majeurs dans la conception des RM pour atténuer ce phénomène : les changements de distribution au cours du processus de RL et les incohérences dans les préférences humaines. Comme solution, l’entreprise propose les Weight Averaged Reward Models (WARM), qui consistent d’abord à affiner plusieurs RM, puis à en faire la moyenne dans l’espace des poids. Cette stratégie repose sur l’observation selon laquelle les poids affinés restent linéairement connectés lorsqu’ils partagent le même pré-entraînement. En moyennant les poids, WARM améliore l’efficacité par rapport aux ensembles de prédictions traditionnels, tout en renforçant la fiabilité face aux changements de distribution et la robustesse face aux incohérences de préférences. Les résultats expérimentaux sur des tâches de résumé, avec des méthodes best-of-N et RL, montrent que WARM améliore la qualité globale et l’alignement des prédictions des LLM. Par exemple, une policy RL affinée avec WARM affiche un taux de victoire de 79,4 % face à une policy RL affinée avec un seul RM.

Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.

Lien vers l’article

https://arxiv.org/abs/2401.12187

Pour aller plus loin

https://x.com/ramealexandre/status/1749719471806157304

Enquête sur les LLM économes en ressources et les modèles fondamentaux multimodaux / A Survey of Resource-efficient LLM and Multimodal Foundation Models

Présentation de l’article

Une enquête sur les LLM économes en ressources et les modèles fondamentaux multimodaux, qui fournit une analyse complète et des éclairages sur la recherche en efficacité du ML, couvrant les architectures, les algorithmes ainsi que la conception et l’implémentation de systèmes concrets.

A survey of resource-efficient llms and multimodal foundations models; provides a comprehensive analysis and insights into ml efficiency research, including architectures, algorithms, and practical system designs and implementations.

Résumé de l’article (Abstract)

Les grands modèles fondamentaux, notamment les grands modèles de langage (LLM), les vision transformers (ViT), les modèles de diffusion et les modèles multimodaux basés sur des LLM, révolutionnent l’ensemble du cycle de vie du machine learning, de l’entraînement au déploiement. Cependant, les gains substantiels en polyvalence et en performances qu’offrent ces modèles ont un coût important en ressources matérielles. Afin de soutenir la croissance de ces grands modèles de manière scalable et durable sur le plan environnemental, l’attention s’est fortement portée sur le développement de stratégies économes en ressources. Cette enquête examine en profondeur l’importance critique de ces recherches, à la fois sous l’angle algorithmique et sous l’angle des systèmes. Elle propose une analyse complète et de précieux enseignements tirés de la littérature existante, couvrant un large éventail de sujets, depuis les architectures de pointe et les algorithmes d’entraînement/inférence jusqu’à la conception et à l’implémentation de systèmes réels. L’objectif de cette enquête est de fournir une compréhension d’ensemble de la manière dont les approches actuelles s’attaquent aux défis en ressources posés par les grands modèles fondamentaux, et potentiellement d’inspirer de futures avancées dans ce domaine.

Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.

Lien vers l’article

https://arxiv.org/abs/2401.08092v1

Pour aller plus loin

https://x.com/omarsar0/status/1749208653926654010

Red teaming des modèles de langage visuel / Red Teaming Visual Language Models

Présentation de l’article

Il présente d’abord un dataset de red teaming composé de 10 sous-tâches (par ex. image trompeuse, jailbreaking multimodal, équité faciale, etc.), constate que 10 VLM open source de premier plan peinent à gérer le red teaming à des degrés divers, avec jusqu’à 31 % d’écart de performance par rapport à gpt-4v, et applique également un alignement de red teaming à llava-v1.5 avec SFT (Supervised Fine-tuning) à l’aide du dataset proposé, ce qui améliore de 10 % les performances du modèle sur l’ensemble de test.

First presents a red teaming dataset of 10 subtasks (e.g., image misleading, multi-modal jailbreaking, face fairness, etc); finds that 10 prominent open-sourced vlms struggle with the red teaming in different degrees and have up to 31% performance gap with gpt-4v; also applies red teaming alignment to llava-v1.5 with sft using the proposed red teaming dataset, which improves model performance by 10% in the test set.

Résumé de l’article (Abstract)

Les VLM (Vision-Language Models) étendent les capacités des LLM (Large Language Models) pour accepter des entrées multimodales. Comme il a été vérifié que les LLM peuvent être amenés à générer du contenu nuisible ou inexact via des cas de test spécifiques (appelés red teaming), la manière dont les VLM se comportent dans des scénarios similaires, en particulier lorsqu’ils combinent entrées textuelles et visuelles, reste une question ouverte. Pour explorer ce problème, nous présentons RTVLM, un nouveau jeu de données de red teaming, qui couvre 10 sous-tâches (par ex. image trompeuse, jailbreaking multimodal, équité faciale, etc.) relevant de 4 grands axes (fidélité, vie privée, sécurité, équité). RTVLM de Criteo est le premier dataset de red teaming à benchmarker les VLM actuels sur ces 4 dimensions. Une analyse détaillée montre que 10 VLM open source de premier plan rencontrent des difficultés de red teaming à des degrés divers, avec jusqu’à 31 % d’écart de performance par rapport à GPT-4V. En outre, en appliquant simplement un alignement de red teaming à LLaVA-v1.5 via du Supervised Fine-tuning (SFT) avec RTVLM, les performances du modèle sont renforcées de 10 % sur l’ensemble de test RTVLM, de 13 % sur MM-Hal, sans baisse notable sur MM-Bench, dépassant ainsi d’autres modèles basés sur LLaVA entraînés avec des données d’alignement classiques. Cela révèle que les VLM open source actuels manquent encore d’alignement red teaming. Le code et les datasets seront publiés en open source.

VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.

Lien vers l’article

https://arxiv.org/abs/2401.12915

Pour aller plus loin

https://x.com/omarsar0/status/1750170361843384790

Lumiere : un modèle de diffusion spatio-temporelle pour la génération vidéo / Lumiere: A Space-Time Diffusion Model for Video Generation

Présentation de l’article

Un modèle de diffusion spatio-temporelle texte-vers-vidéo pour synthétiser des vidéos avec des mouvements réalistes et cohérents ; il introduit une architecture space-time u-net capable de générer en une seule passe toute la durée temporelle d’une vidéo ; il atteint des résultats de pointe en génération texte-vers-vidéo et prend en charge un large éventail de tâches de création de contenu et d’applications d’édition vidéo, notamment image-to-video, video inpainting et génération stylisée.

A text-to-video space-time diffusion model for synthesizing videos with realistic and coherent motion; introduces a space-time u-net architecture to generate the entire temporal duration of a video at once via a single pass; achieves state-of-the-art text-to-video generation results and supports a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

Résumé de l’article (Abstract)

Présentation de Lumiere, un modèle de diffusion texte-vers-vidéo conçu pour la synthèse vidéo capable de représenter des mouvements réalistes, variés et cohérents, un défi clé de la synthèse vidéo. Pour cela, Unity a introduit une architecture U-Net spatio-temporelle qui génère en une seule fois toute la durée temporelle de la vidéo en un seul passage du modèle. Cela contraste avec les modèles vidéo existants, qui synthétisent d’abord des images clés éloignées puis appliquent une super-résolution temporelle, une approche qui rend intrinsèquement difficile l’obtention d’une cohérence temporelle globale. En déployant à la fois un sous-échantillonnage et un suréchantillonnage spatiaux et (point essentiel) temporels, et en s’appuyant sur un modèle de diffusion texte-vers-image préentraîné, ce modèle apprend à générer directement une vidéo basse résolution à fréquence d’images complète en la traitant à plusieurs échelles spatio-temporelles. Les auteurs démontrent des résultats de génération texte-vers-vidéo de pointe et montrent que cette conception prend facilement en charge un large éventail de tâches de création de contenu et d’applications de montage vidéo, notamment image-vers-vidéo, video inpainting et génération stylisée.

We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

Lien vers l’article

https://arxiv.org/abs/2401.12945

Pour aller plus loin

https://discuss.pytorch.kr/t/lumiere-google/3357

https://x.com/GoogleAI/status/1751003814931689487

Medusa : framework simple d’accélération de l’inférence LLM avec plusieurs têtes de décodage / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Présentation de l’article

Un framework simple pour accélérer l’inférence des LLM à l’aide de plusieurs têtes de décodage qui prédisent en parallèle plusieurs tokens suivants ; la parallélisation réduit fortement le nombre d’étapes de décodage et permet d’obtenir plus de 2,2x d’accélération sans compromettre la qualité de génération, tandis que Medusa-2 améliore encore cette accélération à 2,3-3,6x.

A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.

Résumé(Abstract)

Le processus d’inférence des grands modèles de langage (LLM) est souvent limité par le fait que le décodage auto-régressif ne permet pas de parallélisme, si bien que la plupart des opérations sont contraintes par la bande passante mémoire des accélérateurs. Pour résoudre ce problème, des méthodes comme le speculative decoding ont été proposées, mais leur mise en œuvre se heurte à la difficulté d’obtenir et de maintenir un modèle de brouillon distinct. Cet article présente Medusa, une méthode efficace qui améliore l’inférence des LLM en ajoutant des têtes de décodage supplémentaires afin de prédire en parallèle plusieurs tokens suivants. Medusa utilise un mécanisme d’attention fondé sur un arbre pour construire plusieurs continuations candidates et les vérifier simultanément à chaque étape de décodage. En tirant parti du traitement parallèle, Medusa n’introduit qu’un surcoût minimal en termes de latence par étape, tout en réduisant fortement le nombre d’étapes de décodage nécessaires. Pour répondre aux besoins de différents cas d’usage, Medusa propose deux niveaux de procédure de fine-tuning : Medusa-1 : Medusa est fine-tuné directement au-dessus d’un backbone LLM figé, ce qui permet une accélération de l’inférence sans perte. Medusa-2 : Medusa est fine-tuné conjointement avec le backbone LLM, ce qui améliore la précision de prédiction des têtes Medusa et augmente la vitesse, mais nécessite une recette d’entraînement spéciale pour préserver les capacités du modèle backbone. En outre, les auteurs proposent plusieurs extensions pour améliorer ou élargir l’utilité de Medusa, notamment une auto-distillation pour gérer les situations où aucune donnée d’entraînement n’est disponible, ainsi qu’un schéma d’acceptation générique pour augmenter le taux d’acceptation tout en maintenant la qualité de génération. Medusa est évalué sur des modèles de tailles variées et issus de différentes procédures d’entraînement. Les résultats expérimentaux montrent que Medusa-1 peut obtenir une accélération supérieure à 2,2x sans dégradation de la qualité de génération, tandis que Medusa-2 peut encore l’améliorer à 2,3-3,6x.

The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.

Lien vers l’article

https://arxiv.org/abs/2401.10774v1

Pour aller plus loin

https://discuss.pytorch.kr/t/…

https://x.com/jiayq/status/1749461664393810350

AgentBoard : comité d’évaluation analytique des agents LLM multi-tours / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

Présentation de l’article

Grâce à un benchmark complet intégrant un framework d’évaluation open source, il est possible d’effectuer une évaluation analytique pour mesurer les capacités et les limites des agents LM, et de mieux comprendre leurs comportements afin de construire des agents LM plus puissants et plus robustes.

A comprehensive benchmark with an open-source evaluation framework to perform analytical evaluation of llm agents; helps to assess the capabilities and limitations of llm agents and demystifies agent behaviors which leads to building stronger and robust llm agents.

Résumé (Abstract)

Évaluer les grands modèles de langage (LLM) en tant qu’agents généralistes est essentiel pour comprendre leurs capacités et faciliter leur intégration dans des applications concrètes. Cependant, le processus d’évaluation présente des difficultés substantielles. Le principal obstacle réside dans le benchmarking des performances des agents à travers des scénarios variés au sein d’un cadre unifié, notamment pour maintenir des environnements partiellement observables et garantir des interactions en plusieurs tours. En outre, les cadres d’évaluation actuels se concentrent principalement sur le taux de réussite final, révélant peu d’enseignements sur le déroulement du processus et ne permettant pas une compréhension approfondie des capacités du modèle. Pour répondre à ces défis, Unity a introduit AgentBoard, un benchmark complet pionnier ainsi qu’un framework d’évaluation open source associé, conçu pour l’évaluation analytique des agents LLM. AgentBoard propose une métrique fine de taux de progression qui capture les avancées incrémentales, ainsi qu’une boîte à outils d’évaluation complète permettant d’évaluer facilement les agents pour une analyse multifacette grâce à des visualisations interactives. Cela permet non seulement de mettre en lumière les capacités et les limites des agents LLM, mais aussi de placer l’interprétabilité de leurs performances au premier plan. En définitive, AgentBoard constitue une étape importante pour démystifier les comportements des agents et accélérer le développement d’agents LLM plus robustes.

Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.

⚠️Publicité⚠️ : Avez-vous trouvé utile cet article compilé par le groupe d’utilisateurs PyTorch Corée ? Si vous devenez membre, nous vous enverrons les principaux articles par e-mail ! (Le réglage par défaut est Weekly, mais il est aussi possible de passer à Daily.)

[2024/01/22 ~ 01/28] Principaux articles ML de la semaine (Top ML Papers of the Week)

Vue d’ensemble

Une analyse approfondie de tout : exploiter la puissance des données non étiquetées à grande échelle / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Fusion des connaissances des grands modèles de langage / Knowledge Fusion of Large Language Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

MambaByte : modèle sélectif d’espace d’état sans tokens / MambaByte: Token-free Selective State Space Model

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Diffuse to Choose : enrichir l'inpainting conditionné par image dans les modèles de diffusion latente pour le Virtual Try-All / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

Présentation de l'article

Résumé de l'article (Abstract)

Lien vers l'article

Pour aller plus loin

WARM : à propos des avantages des modèles de récompense à moyenne de poids / WARM: On the Benefits of Weight Averaged Reward Models

Présentation de l'article

Résumé de l'article (Abstract)

Lien vers l’article

Pour aller plus loin

Enquête sur les LLM économes en ressources et les modèles fondamentaux multimodaux / A Survey of Resource-efficient LLM and Multimodal Foundation Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Red teaming des modèles de langage visuel / Red Teaming Visual Language Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Lumiere : un modèle de diffusion spatio-temporelle pour la génération vidéo / Lumiere: A Space-Time Diffusion Model for Video Generation

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Medusa : framework simple d’accélération de l’inférence LLM avec plusieurs têtes de décodage / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

AgentBoard : comité d’évaluation analytique des agents LLM multi-tours / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

Présentation de l’article

Résumé (Abstract)

Lien vers l’article

Pour aller plus loin

Source originale

À lire aussi

Aucun commentaire pour le moment.