[2024/05/13 ~ 05/19] Principaux articles ML de la semaine (Top ML Papers of the Week)

Nous avons traduit automatiquement les articles sur les publications ML publiés chaque semaine par DAIR.AI.
Les principales tendances observables dans les articles soumis cette semaine sont la forte présence de recherches centrées sur le traitement du langage naturel (NLP) et l’apprentissage par renforcement (RL). Par exemple, « GPT-4o », « Fine-tuning and Hallucinations » et « Zero-shot Tokenizer Transfer » traitent de technologies et de méthodologies récentes liées au traitement du langage naturel, en explorant notamment les avancées dans des domaines comme les modèles génératifs et l’apprentissage par transfert de tokenizers. Par ailleurs, « RLHF Workflow » présente une recherche sur la conception de processus d’apprentissage efficaces à l’aide de l’apprentissage par renforcement, ce qui peut être vu comme une tentative d’élargir les possibilités d’application concrète du RL.
Cette tendance reflète l’importance croissante du traitement du langage naturel et de l’apprentissage par renforcement, qui jouent un rôle central dans les progrès des technologies d’intelligence artificielle, en particulier du machine learning et du deep learning. Avec la croissance explosive des modèles de génération de langage comme GPT au cours des dernières années, leur champ d’application n’a cessé de s’élargir, poussant les chercheurs à s’intéresser davantage à l’affinage de ces modèles et à des travaux visant à corriger les faiblesses des modèles existants. En outre, l’apprentissage par renforcement s’est imposé comme une technique clé pour optimiser les processus de prise de décision et améliorer les capacités d’apprentissage dans des environnements complexes, ce qui s’inscrit dans la tendance actuelle de la recherche visant à maximiser l’efficacité de l’apprentissage.
Ainsi, les articles soumis cette semaine montrent clairement dans quelle direction s’orientent les efforts de recherche et développement dans le monde académique et dans l’industrie. Le traitement du langage naturel est au cœur des technologies visant à rendre les interactions entre l’humain et la machine plus naturelles et plus efficaces, tandis que l’apprentissage par renforcement joue un rôle important dans l’optimisation des processus de décision fondés sur ces interactions. Ces tendances de recherche constituent un indicateur important de l’orientation future des technologies d’intelligence artificielle, qui continueront d’évoluer.

GPT-4o

Présentation

Un nouveau modèle doté de capacités de raisonnement multimodal avec prise en charge en temps réel de l’audio, de la vision et du texte ; il peut accepter en entrée toute combinaison de texte, d’audio, d’image et de vidéo afin de générer des combinaisons de sorties en texte, audio et image, et il est présenté via API comme offrant des performances équivalentes à GPT-4 Turbo tout en étant 50 % plus rapide et moins coûteux.

A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.

Liens associés

https://openai.com/index/hello-gpt-4o/

Pour aller plus loin

https://discuss.pytorch.kr/t/openai-gpt-4o-gpt-4o/4362

https://x.com/OpenAI/status/1790072174117613963

Gemini 1.5 Flash

Présentation de l’article

Un modèle léger de décodeur transformer avec une fenêtre de contexte de 2M et des capacités multimodales ; il est conçu pour l’efficacité et produit la génération de sortie la plus rapide de tous les modèles sur plusieurs langues évaluées. Globalement, Gemini 1.5 Flash offre des performances uniformément supérieures à celles de Gemini 1.0 Pro, et affiche même sur plusieurs benchmarks un niveau comparable à celui de 1.0 Ultra.

A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.

Résumé de l’article (Abstract)

Ce rapport présente la famille de modèles Gemini 1.5, représentative de la nouvelle génération de modèles multimodaux hautement efficaces en calcul, capables de mémoriser et de raisonner sur des informations fines à partir de millions de tokens de contexte, y compris plusieurs longs documents ainsi que des heures de vidéo et d’audio. Cette famille comprend deux nouveaux modèles : (1) une version mise à jour de Gemini 1.5 Pro, qui dépasse la version de février sur la grande majorité des capacités et des benchmarks ; (2) Gemini 1.5 Flash, une variante plus légère conçue pour l’efficacité avec une dégradation minimale de la qualité. Les modèles Gemini 1.5 atteignent un rappel quasi parfait sur les tâches de recherche en long contexte à travers plusieurs modalités, améliorent l’état de l’art en QA sur documents longs, QA sur vidéos longues et ASR en long contexte, et égalent ou surpassent les performances de pointe de Gemini 1.0 Ultra sur un large ensemble de benchmarks. L’étude des limites des capacités en long contexte de Gemini 1.5 montre une amélioration continue de la prédiction du token suivant et une recherche quasi parfaite (>99 %) jusqu’à au moins 10 millions de tokens, soit un bond générationnel de plus d’une génération par rapport aux modèles existants comme Claude 3.0 (200k) et GPT-4 Turbo (128k). Enfin, le rapport met en avant des cas d’usage réels, comme la collaboration de Gemini 1.5 avec des professionnels pour accomplir leurs tâches, avec des gains de temps de 26 à 75 % dans 10 catégories de métiers, ainsi que de nouvelles capacités surprenantes à la frontière des grands modèles de langage : lorsqu’on lui fournit un manuel de grammaire du kalamang, une langue parlée par moins de 200 personnes dans le monde, le modèle apprend à traduire de l’anglais vers le kalamang à un niveau comparable à celui d’une personne ayant appris à partir du même contenu.

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra’s state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5’s long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professions on their completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Lien vers l’article

https://storage.googleapis.com/deepmind-media/gemini/…

Pour aller plus loin

https://discuss.pytorch.kr/t/gn-google-i-o-2024/4371

https://x.com/OriolVinyalsML/status/1791521517211107515

Veo

Présentation

Le modèle de génération vidéo le plus avancé de Google DeepMind peut générer des vidéos haute qualité en 1080p de plus d’une minute, prend en charge l’édition par masque sur la vidéo, peut aussi générer des vidéos à partir d’une image fournie avec du texte, et peut étendre des clips vidéo au-delà de 60 secondes tout en conservant la cohérence grâce à son latent diffusion transformer.

Google Deepmind’s most capable video generation model generates high-quality, 1080p resolution videos beyond 1 minute; it supports masked editing on videos and can also generate videos with an input image along with text; the model can extend video clips to 60 seconds and more while keeping consistency with its latent diffusion transformer.

Liens associés

https://deepmind.google/technologies/veo/

Pour aller plus loin

https://discuss.pytorch.kr/t/veo-google-deepmind/4385

https://x.com/GoogleDeepMind/status/1790435824598716704

Chameleon : modèles de fondation à fusion précoce multimodale mixte / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Présentation de l’article

Une famille de modèles multimodaux mixtes basés sur des tokens pour générer des images et du texte dans un ordre arbitraire ; elle affiche des performances de pointe en légendage d’images, surpasse Llama 2 sur les tâches purement textuelles et se montre également compétitive face à Mixtral 8x7B et Gemini-Pro ; elle dépasse les performances de Gemini Pro et GPT-4V sur une nouvelle évaluation de génération multimodale mixte en format long.

A family of token-based mixed-modal models for generating images and text in any arbitrary sequence; reports state-of-the-art performance in image captioning and outperforms Llama 2 in text-only tasks and is also competitive with Mixtral 8x7B and Gemini-Pro; exceeds the performance of Gemini Pro and GPT-4V on a new long-form mixed-modal generation evaluation.

Résumé(Abstract)

Nous présentons Chameleon, une famille de modèles multimodaux mixtes à fusion précoce, fondés sur des tokens, capables de comprendre et de générer des images et du texte dans une séquence arbitraire. Nous décrivons une approche d’entraînement stable dès le départ, une recette d’alignement et une paramétrisation architecturale adaptée au cadre multimodal mixte à fusion précoce fondé sur des tokens. Les modèles sont évalués sur un large éventail de tâches, notamment les questions-réponses visuelles, le sous-titrage d’images, la génération de texte, la génération d’images et la génération multimodale mixte de longue forme. Chameleon démontre des capacités larges et générales, avec notamment des performances de pointe en sous-titrage d’images, surpasse Llama-2 sur les tâches textuelles pures tout en restant compétitif face à des modèles comme Mixtral 8x7B et Gemini-Pro, et réalise aussi une génération d’images non triviale, le tout au sein d’un seul modèle. Il égale ou dépasse également les performances de modèles bien plus grands, dont Gemini Pro et GPT-4V, selon des évaluations humaines sur un nouveau benchmark de génération multimodale mixte de longue forme, où l’invite ou les sorties contiennent des séquences mixtes d’images et de texte. Chameleon marque une avancée importante vers une modélisation unifiée de documents multimodaux complets.

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

Lien vers l’article

https://arxiv.org/abs/2405.09818

Pour aller plus loin

https://x.com/AIatMeta/status/1791263344714014733

Le fine-tuning des LLM sur de nouvelles connaissances favorise-t-il les hallucinations ? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Présentation de l’article

L’étude analyse l’impact du fine-tuning sur de nouvelles connaissances sur la tendance des LLM à halluciner, met en place des exemples de fine-tuning intégrant de nouvelles connaissances et montre que les LLM ont du mal à acquérir de nouvelles connaissances factuelles par fine-tuning ; elle constate aussi que plus ces nouvelles connaissances sont apprises, plus la tendance du modèle à halluciner augmente.

Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.

Résumé de l’article (Abstract)

Lorsque de grands modèles de langage sont alignés via un fine-tuning supervisé, ils peuvent rencontrer de nouvelles informations factuelles qui n’ont pas été acquises lors du pré-entraînement. On suppose souvent que cela peut apprendre au modèle à halluciner des réponses factuellement incorrectes, puisqu’il est entraîné à générer des faits qui ne reposent pas sur ses connaissances préexistantes. Dans ce travail, nous étudions l’impact d’une telle exposition à de nouvelles connaissances sur la capacité du modèle affiné à exploiter ses connaissances préexistantes. À cette fin, nous concevons un protocole contrôlé, centré sur le closed-book QA, dans lequel nous faisons varier la proportion d’exemples de fine-tuning qui introduisent de nouvelles connaissances. Nous montrons que les grands modèles de langage peinent à acquérir de nouvelles connaissances factuelles via le fine-tuning, car les exemples de fine-tuning qui introduisent de nouvelles connaissances sont appris significativement plus lentement que ceux cohérents avec les connaissances du modèle. Cependant, nous constatons aussi qu’à mesure que les exemples contenant de nouvelles connaissances finissent par être appris, ils augmentent de façon linéaire la tendance du modèle à halluciner. Pris dans leur ensemble, ces résultats soulignent les risques liés à l’introduction de nouvelles connaissances factuelles par fine-tuning et appuient l’idée que les grands modèles de langage acquièrent principalement leurs connaissances factuelles lors du pré-entraînement, tandis que le fine-tuning leur apprend à les utiliser plus efficacement.

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

Lien vers l’article

https://arxiv.org/abs/2405.05904

Pour aller plus loin

https://x.com/arankomatsuzaki/status/1788859706187882960

Transfert zero-shot de tokenizer / Zero-Shot Tokenizer Transfer

Présentation de l’article

Les auteurs entraînent un hypernetwork qui prend un tokenizer en entrée et prédit les embeddings correspondants, montrent une généralisation à de nouveaux tokenizers avec des LLM encodeurs et décodeurs, et indiquent que cette méthode atteint des performances proches de celles du modèle d’origine sur des tâches multilingues et de code tout en réduisant la longueur des séquences tokenisées.

Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.

Résumé de l’article (Abstract)

Les modèles de langage (LM) sont liés à leur tokenizer, qui convertit le texte brut en une séquence d’éléments de vocabulaire (tokens). Cela limite leur flexibilité : par exemple, des LM principalement entraînés sur l’anglais peuvent encore bien fonctionner dans d’autres langues naturelles et langages de programmation, mais avec une efficacité fortement réduite en raison de leur tokenizer centré sur l’anglais. Pour atténuer ce problème, il faudrait pouvoir remplacer à la volée le tokenizer d’origine d’un LM par un tokenizer arbitraire, sans dégrader les performances. Dans ce travail, les auteurs définissent donc un nouveau problème : le Zero-Shot Tokenizer Transfer (ZeTT). Le défi central de ZeTT consiste à trouver des embeddings pour les tokens du vocabulaire du nouveau tokenizer. Comme les heuristiques antérieures d’initialisation des embeddings se révèlent souvent à peine meilleures que le hasard dans un cadre ZeTT, les auteurs proposent une nouvelle solution : entraîner un hypernetwork qui prend un tokenizer en entrée et prédit les embeddings correspondants. Ils démontrent empiriquement que cet hypernetwork se généralise à de nouveaux tokenizers aussi bien avec des LLM encodeurs (par ex. XLM-R) que décodeurs (par ex. Mistral-7B). Leur méthode s’approche des performances des modèles d’origine sur des tâches multilingues et de code, tout en réduisant nettement la longueur des séquences tokenisées. Ils constatent également que l’écart restant peut être rapidement comblé par un entraînement continu sur moins de 1B tokens. Enfin, ils montrent qu’un hypernetwork ZeTT entraîné pour un (L)LM de base peut aussi être appliqué à des variantes fine-tunées sans entraînement supplémentaire. Dans l’ensemble, leurs résultats constituent une avancée importante vers le découplage des LM et de leur tokenizer.

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

Lien vers l’article

https://arxiv.org/abs/2405.07883

Pour aller plus loin

https://x.com/bminixhofer/status/1790267652587258343

WavCraft: édition et génération audio avec de grands modèles de langage / WavCraft: Audio Editing and Generation with Large Language Models

Présentation de l’article

Cette approche exploite des LLM pour relier des modèles spécialisés par tâche dans la création et l’édition de contenus audio, décompose les instructions des utilisateurs en plusieurs tâches et traite chacune d’elles en collaboration avec le module concerné, permettant ainsi aux utilisateurs d’interagir avec des contenus audio et d’en produire sans commandes explicites.

Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands

Résumé de l’article (Abstract)

Nous présentons WavCraft, un système global qui exploite de grands modèles de langage (LLM) pour relier divers modèles spécialisés par tâche dédiés à la création et à l’édition de contenus audio. Plus précisément, WavCraft décrit en langage naturel le contenu de matériaux audio bruts et sollicite le LLM en fonction des descriptions audio et des demandes des utilisateurs. WavCraft exploite la capacité d’apprentissage en contexte du LLM pour décomposer les instructions des utilisateurs en plusieurs tâches et traiter chacune d’elles de manière collaborative avec le module approprié. Grâce à cette décomposition des tâches, associée à un ensemble de modèles spécialisés, WavCraft suit l’instruction d’entrée pour créer ou éditer du contenu audio avec davantage de détails et de justifications, ce qui facilite le contrôle par l’utilisateur. En outre, WavCraft peut collaborer avec les utilisateurs via des interactions dialoguées et même produire du contenu audio sans commande explicite de l’utilisateur. Les résultats expérimentaux montrent que WavCraft offre de meilleures performances que les méthodes existantes, en particulier lors de l’ajustement de zones locales de clips audio. De plus, WavCraft peut suivre des instructions complexes pour éditer et créer du contenu audio à partir d’enregistrements en entrée, ce qui peut aider les producteurs audio dans un large éventail d’applications. L’implémentation et les démonstrations sont disponibles ici (https://github.com/JinhuaLiang/WavCraft).

We introduce WavCraft, a collective system that leverages large language models (LLMs) to connect diverse task-specific models for audio content creation and editing. Specifically, WavCraft describes the content of raw audio materials in natural language and prompts the LLM conditioned on audio descriptions and user requests. WavCraft leverages the in-context learning ability of the LLM to decomposes users' instructions into several tasks and tackle each task collaboratively with the particular module. Through task decomposition along with a set of task-specific models, WavCraft follows the input instruction to create or edit audio content with more details and rationales, facilitating user control. In addition, WavCraft is able to cooperate with users via dialogue interaction and even produce the audio content without explicit user commands. Experiments demonstrate that WavCraft yields a better performance than existing methods, especially when adjusting the local regions of audio clips. Moreover, WavCraft can follow complex instructions to edit and create audio content on the top of input recordings, facilitating audio producers in a broader range of applications. Our implementation and demos are available at this https://github.com/JinhuaLiang/WavCraft.

Lien vers l’article

https://arxiv.org/abs/2403.09527v3

Pour aller plus loin

https://github.com/JinhuaLiang/WavCraft

Workflow RLHF : du reward modeling au RLHF en ligne / RLHF Workflow: From Reward Modeling to Online RLHF

Présentation de l’article

Fournit une recette facilement reproductible pour le RLHF itératif en ligne, et présente les éclairages théoriques, les principes algorithmiques ainsi que l’implémentation pratique du RLHF itératif en ligne.

Provides an easily reproducible recipe for online iterative RLHF; discusses theoretical insights and algorithmic principles of online iterative RLHF and practical implementation.

Résumé(Abstract)

Ce rapport technique présente le workflow de l’apprentissage par renforcement itératif en ligne à partir de retours humains (RLHF), largement décrit dans la littérature récente sur les grands modèles de langage (LLM) comme nettement plus performant que son équivalent hors ligne. Cependant, les projets open source de RLHF existants restent encore largement confinés à un cadre d’apprentissage hors ligne. Ce rapport technique vise à combler cet écart et à fournir une recette détaillée, facile à reproduire, pour le RLHF itératif en ligne. En particulier, comme le retour humain en ligne est généralement irréalisable pour les communautés open source disposant de ressources limitées, nous commençons par construire des modèles de préférence à l’aide d’un ensemble diversifié de jeux de données open source, puis nous utilisons le modèle de préférence proxy ainsi construit pour approximer le retour humain. Nous discutons ensuite des intuitions théoriques et des principes algorithmiques qui sous-tendent le RLHF itératif en ligne, avant de passer à une implémentation pratique détaillée. Notre LLM entraîné, SFR-Iterative-DPO-LLaMA-3-8B-R, obtient des performances impressionnantes sur des benchmarks de chatbots LLM, notamment AlpacaEval-2, Arena-Hard et MT-Bench, ainsi que sur d’autres benchmarks académiques comme HumanEval et TruthfulQA. Nous avons montré que le supervised fine-tuning (SFT) et le RLHF itératif peuvent atteindre des performances de pointe avec des jeux de données entièrement open source. En outre, nous avons rendu publics nos modèles, nos jeux de données curatés et des guides de code complets étape par étape. Pour plus de détails, consultez https://github.com/RLHFlow/RLHF-Reward-Modeling et https://github.com/RLHFlow/Online-RLHF.

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

Lien vers l’article

https://arxiv.org/abs/2405.07863v1

Pour aller plus loin

https://github.com/RLHFlow/RLHF-Reward-Modeling et https://github.com/RLHFlow/Online-RLHF

https://x.com/CaimingXiong/status/1790379121719361776

Une seule mise en cache : architectures décodeur-décodeur pour les modèles de langage / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Présentation de l’article

Les architectures LLM de type décodeur-décodeur qui ne mettent en cache les paires clé-valeur qu’une seule fois empilent un cross-decoder au-dessus d’un self-decoder qui encode efficacement le cache global clé-valeur, tandis que le cross-encoder réutilise ce cache via l’attention croisée ; cela permet de réduire fortement l’utilisation de la mémoire GPU sans dégrader les capacités, tout en atteignant des performances comparables à celles des Transformer dans divers scénarios d’augmentation de la taille du modèle et du nombre de tokens d’entraînement.

A decoder-decoder LLM architecture that only caches key-value pairs once; it involves a cross-decoder stacked upon a self-decoder which efficiently encodes global key-value caches and the cross-encoder reuses the cache via cross-attention; this leads to a significant reduction in GPU memory use without sacrificing capabilities; achieves comparable performance to Transformer in various settings of scaling up model size and number of training token.

Résumé(Abstract)

Présentation de YOCO, une architecture décodeur-décodeur pour les grands modèles de langage qui ne met en cache les paires clé-valeur qu’une seule fois. Cette architecture se compose de deux éléments : un self-decoder et un cross-decoder empilé au-dessus. Le self-decoder encode efficacement des caches globaux clé-valeur (KV) réutilisés par le cross-decoder via la cross-attention. L’ensemble du modèle se comporte comme un Transformer à décodeur seul, mais YOCO n’utilise le cache qu’une seule fois. Cette conception réduit fortement les besoins en mémoire GPU tout en conservant une capacité d’attention globale. De plus, le flux de calcul permet une sortie anticipée dès le préfill sans modifier la sortie finale, ce qui accélère considérablement l’étape de préfill. Les résultats expérimentaux montrent que YOCO obtient des performances avantageuses par rapport au Transformer dans divers scénarios d’augmentation de la taille du modèle et du nombre de tokens d’entraînement. YOCO a également été étendu à une longueur de contexte de 1M avec une précision de récupération d’aiguille quasi parfaite. Les résultats de profiling indiquent que YOCO améliore de plusieurs ordres de grandeur la mémoire d’inférence, la latence de préfill et le débit selon la longueur de contexte et la taille du modèle. Le code est disponible sur https://aka.ms/YOCO.

We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.

Lien vers l’article

https://arxiv.org/abs/2405.05254

Pour aller plus loin

https://github.com/microsoft/unilm/tree/master/YOCO

https://x.com/arankomatsuzaki/status/1788435838474355098

CAT3D : créer n’importe quoi en 3D avec des modèles de diffusion multi-vues / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Présentation de l’article

Présentation d’une méthode permettant de créer n’importe quoi en 3D en simulant le processus de capture réel à l’aide d’un modèle de diffusion multi-vues ; elle peut générer de nouvelles vues cohérentes d’une scène pouvant servir d’entrée à des techniques de reconstruction 3D afin de produire une représentation 3D rendue en temps réel ; une scène CAT3D peut être générée en moins d’une minute et surpasse, selon les résultats rapportés, les méthodes existantes pour la création de scènes 3D à partir d’une image unique ou d’un petit nombre de vues.

Presents a method for creating anything in 3D by simulating the real-world capture process using a multi-view diffusion model; it can generate consistent novel views of a scene which can be used as input to 3D reconstruction techniques to produce 3D representation rendered in real-time; the scene from CAT3D can be generated in less than one minute and is reported to outperform existing methods on single image and few-view 3D scene creation tasks.

Résumé de l’article (Abstract)

Les progrès de la reconstruction 3D ont permis une capture 3D de haute qualité, mais créer une scène 3D exige de collecter des centaines, voire des milliers d’images. Unity présente CAT3D, une méthode qui simule ce processus de capture du monde réel à l’aide d’un modèle de diffusion multi-vues afin de créer n’importe quoi en 3D. Étant donné un certain nombre d’images d’entrée et un ensemble de nouveaux points de vue cibles, le modèle de Unity génère des vues inédites très cohérentes de la scène. Ces vues générées peuvent être utilisées comme entrée pour des techniques robustes de reconstruction 3D afin de produire des représentations 3D pouvant être rendues en temps réel depuis n’importe quel point de vue. CAT3D peut générer une scène 3D complète en seulement une minute et offre de meilleures performances que les approches existantes pour la création de scènes 3D à partir d’une image unique ou d’un petit nombre de vues. Consultez la page du projet pour voir les résultats et les démos interactives : https://cat3d.github.io.

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .

Cet article a été compilé à l’aide d’un modèle GPT ; il peut donc contenir des erreurs. Nous vous recommandons de consulter également le texte original en bas de page. Si vous repérez des passages maladroits ou incorrects pendant votre lecture, merci de nous le signaler en commentaire. 🤗

⚠️Publicité⚠️ : cet article compilé par le 🔥groupe d'utilisateurs PyTorch Corée🇰🇷 vous a-t-il été utile ? Si vous devenez membre, nous vous enverrons par e-mail💌 les principaux articles ! (Le réglage par défaut est Weekly, mais vous pouvez aussi le passer à Daily.)

[2024/05/13 ~ 05/19] Principaux articles ML de la semaine (Top ML Papers of the Week)

GPT-4o

Présentation

Liens associés

Pour aller plus loin

Gemini 1.5 Flash

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Veo

Présentation

Liens associés

Pour aller plus loin

Chameleon : modèles de fondation à fusion précoce multimodale mixte / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

Le fine-tuning des LLM sur de nouvelles connaissances favorise-t-il les hallucinations ? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Transfert zero-shot de tokenizer / Zero-Shot Tokenizer Transfer

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

WavCraft: édition et génération audio avec de grands modèles de langage / WavCraft: Audio Editing and Generation with Large Language Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Workflow RLHF : du reward modeling au RLHF en ligne / RLHF Workflow: From Reward Modeling to Online RLHF

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

Une seule mise en cache : architectures décodeur-décodeur pour les modèles de langage / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Présentation de l’article

Résumé(Abstract)

Lien vers l’article

Pour aller plus loin

CAT3D : créer n’importe quoi en 3D avec des modèles de diffusion multi-vues / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Présentation de l’article

Résumé de l’article (Abstract)

Lien vers l’article

Pour aller plus loin

Texte original

À lire aussi

Aucun commentaire pour le moment.