18] Principaux papiers ML de la semaine (Top ML Papers of the Week)

(discuss.pytorch.kr)

2 points par ninebow 2024-02-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Aperçu

Nous avons essayé de traduire automatiquement les articles sur les papiers ML publiés chaque semaine par DAIR.AI.
Les papiers sélectionnés cette semaine reflètent les tendances de recherche les plus récentes en traitement du langage naturel, en réseaux de neurones profonds et en apprentissage par renforcement. De plus, les travaux liés aux technologies de traitement du langage naturel (NLP) ont été particulièrement remarqués cette semaine. En outre, les termes « World Model » et « neural network trainability » semblent être liés aux aspects théoriques de l’apprentissage par renforcement ou des réseaux de neurones profonds.
Le secteur de l’intelligence artificielle montre actuellement un vif intérêt pour les progrès des grands modèles de langage. En effet, depuis que des modèles comme GPT-3 ont montré des performances remarquables dans de nombreuses tâches linguistiques, le NLP est devenu un sujet central tant en recherche théorique qu’en applications pratiques. Les grands modèles de langage peuvent être utilisés pour la traduction, le résumé, le question-réponse et la rédaction créative, entre autres, et les recherches visant à mieux comprendre et améliorer ces modèles sont très actives.
En outre, des concepts tels que « neural network trainability » et « World Model » suggèrent des travaux sur de nouvelles techniques permettant d’entraîner les réseaux de neurones plus efficacement et de modéliser des environnements plus complexes. En apprentissage par renforcement, l’accent est mis sur le développement de modèles d’environnement plus sophistiqués afin de permettre aux agents d’acquérir une capacité à résoudre des problèmes plus complexes ; c’est également une tendance majeure de la recherche IA moderne.
Cet article a été résumé avec un modèle GPT, donc il peut contenir des erreurs ; veuillez également consulter le texte original ci-dessous. Si, en le lisant, vous découvrez des formulations maladroites ou incorrectes, merci de nous en informer dans les commentaires.

Sora d’OpenAI

Introduction de l’article

Un modèle d’IA text-to-video qui peut créer des vidéos d’un maximum d’une minute de scènes réalistes et imaginatives à partir d’instructions textuelles ; il peut générer des scènes complexes avec plusieurs personnages, différents types de mouvement et des arrière-plans variés, et comprendre leurs relations entre eux ; d’autres fonctionnalités incluent la création de plusieurs plans au sein d’une seule vidéo tout en assurant une continuité des personnages et du style visuel.

A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.

Lien de l’article

https://openai.com/research/…

Pour aller plus loin

https://discuss.pytorch.kr/t/gn-openai-sora-ai/3519

https://x.com/OpenAI/status/1758192957386342435

Gemini 1.5 / Gemini 1.5

Introduction de l’article

Un modèle multimodal mixture-of-experts efficace en calcul, centré sur des fonctions telles que le rappel et le raisonnement sur du contenu de long format ; il peut raisonner sur de longs documents pouvant contenir des millions de tokens, y compris des heures de vidéo et d’audio ; il améliore les performances de l’état de l’art en QA de longs documents, QA de longues vidéos et ASR à long contexte. Gemini 1.5 pro obtient des performances équivalentes ou supérieures à celles de Gemini 1.0 ultra sur les benchmarks standard et atteint une récupération quasi parfaite (>99%) jusqu’à au moins 10 millions de tokens, une avancée importante par rapport aux autres LLMs à long contexte.

A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.

Lien de l’article

https://storage.googleapis.com/deepmind-media/gemini/…

Pour aller plus loin

https://discuss.pytorch.kr/t/gn-gemini-1-5/3518

https://x.com/omarsar0/status/1758151923612483839

V-JEPA

Introduction de l’article

Une collection de modèles visuels entraînés sur un objectif de prédiction de caractéristiques à l’aide de 2 millions de vidéos ; reposant sur l’apprentissage auto-supervisé, ils n’utilisent ni d’encodeurs d’images préentraînés, ni de texte, d’exemples négatifs, de reconstruction, ni d’autres sources de supervision ; elle affirme obtenir des représentations visuelles polyvalentes qui performent bien à la fois sur des tâches basées sur le mouvement et sur l’apparence, sans adaptation des paramètres du modèle.

A collection of vision models trained on a feature prediction objective using 2 million videos; relies on self-supervised learning and doesn’t use pretrained image encoders, text, negative examples, reconstruction, or other supervision sources; claims to achieve versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters.

Résumé (Abstract)

Cet article explore la prédiction de caractéristiques comme objectif indépendant pour l’apprentissage non supervisé à partir de vidéos et présente V-JEPA, une collection de modèles de vision entraînés uniquement avec un objectif de prédiction de caractéristiques, sans utiliser d’encodeurs d’images préentraînés, de texte, d’exemples négatifs, de reconstruction ni d’autres sources de supervision. Le modèle est entraîné sur 2 millions de vidéos collectées depuis des jeux de données publics et évalué sur des tâches image et vidéo en aval. Les résultats montrent que l’apprentissage par prédiction des caractéristiques vidéo permet d’obtenir des représentations visuelles polyvalentes qui obtiennent de bons résultats aussi bien sur des tâches basées sur le mouvement que sur l’apparence, sans adaptation des paramètres du modèle ; par exemple, avec un backbone gelé, notre plus grand modèle, un ViT-H/16 entraîné uniquement sur des vidéos, obtient 81.9 % sur Kinetics-400, 72.2 % sur Something-Something-v2 et 77.9 % sur ImageNet1K.

This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters; e.g., using a frozen backbone, our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.

Liens de l'article

https://ai.meta.com/research/publications/…

Pour aller plus loin

https://ai.meta.com/blog/…

https://github.com/facebookresearch/jepa

https://x.com/AIatMeta/status/1758176023588577326

LWM (Large World Model) : un modèle vidéo et langage à contexte de 1 M avec RingAttention / World Model on Million-Length Video And Language With RingAttention

Présentation de l'article

Un modèle multimodal généraliste à contexte 1M, entraîné sur de longues vidéos et des livres grâce à RingAttention ; fixe de nouveaux standards sur des tâches de recherche difficiles et la compréhension de longues vidéos ; utilise un mélange de longueurs de séquence différentes, d’un pondérage de la perte et d’un dataset QA généré par le modèle pour le chat de longues séquences via le masquage de séquences ; open-source une famille de modèles de 7 milliards de paramètres capable de traiter des textes et vidéos de plus d’un million de tokens.

Résumé (Abstract)

Les modèles de langage actuels peinent à comprendre des aspects du monde difficiles à décrire avec des mots et ont du mal avec les tâches complexes de type long format. Les séquences vidéo offrent des informations temporelles précieuses qui ne sont ni dans le langage ni dans les images statiques, ce qui les rend particulièrement intéressantes pour un apprentissage conjoint avec le langage. De tels modèles pourraient développer une compréhension à la fois des connaissances textuelles humaines et du monde physique, permettant des capacités d’IA plus larges pour assister les humains. Cependant, apprendre à partir de millions de séquences vidéo et langage est difficile en raison des limites de mémoire, de la complexité computationnelle et de la taille limitée des jeux de données. Pour relever ces défis, nous rassemblons un vaste ensemble de données de vidéos et de livres diversifiés, utilisons la technique RingAttention pour entraîner de façon scalable sur de longues séquences, et augmentons progressivement la taille du contexte de 4K à 1 million de tokens. Cet article apporte les contributions suivantes : (a) Réseau neuronal à la plus grande taille de contexte : nous entraînons l’un des transformeurs à plus grande taille de contexte sur de longues séquences vidéo et langage, établissant de nouvelles références sur des tâches de retrieval difficiles et la compréhension de longues vidéos. (b) Des solutions pour surmonter les problèmes d’apprentissage vision-langage, notamment le masked sequence packing pour mélanger des longueurs de séquences variées, la pondération de la perte pour équilibrer langage et vision, et un jeu de données QA généré par le modèle pour le chat sur longues séquences. (c) Une implémentation hautement optimisée avec RingAttention, masked sequence packing et d’autres fonctionnalités clés pour entraîner des séquences multimodales de longueur de plusieurs millions. (d) Une famille de modèles de 7B paramètres entièrement open source capable de traiter des documents texte longs (LWM-Text, LWM-Text-Chat) et des vidéos (LWM, LWM-Chat) de plus d’1 million de tokens. Ce travail ouvre la voie à l’entraînement sur de vastes jeux de données de longues vidéos et langages afin de développer une compréhension tant de la connaissance humaine que du monde multimodal, ainsi que des capacités plus larges.

Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop an understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

Liens du papier

https://arxiv.org/abs/2402.08268

Pour aller plus loin

https://largeworldmodel.github.io/

https://huggingface.co/LargeWorldModel

https://x.com/haoliuhl/status/1757828392362389999

La frontière de l'entraînabilité des réseaux de neurones est fractale / The boundary of neural network trainability is fractal

Présentation de l'article

Nous constatons que la frontière entre les configurations d’hyperparamètres entraînables et non entraînables d’un réseau de neurones est fractale, observons des paysages d’hyperparamètres fractals pour chaque configuration de réseau de neurones ainsi que pour les réseaux linéaires profonds, et observons que les meilleurs hyperparamètres sont situés à la limite de la stabilité.

Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.

Résumé (Abstract)

Par exemple, certaines fractales, comme celles associées à l'ensemble de Mandelbrot et aux ensembles de Julia quadratiques, sont calculées en itérant une fonction et en identifiant la frontière entre les hyperparamètres pour lesquels la série résultante diverge ou reste bornée. L'entraînement d'un réseau de neurones fonctionne de la même manière : il applique de manière répétée une fonction de mise à jour (par exemple des étapes répétées de descente de gradient), peut produire un comportement convergent ou divergent, et peut réagir de manière extrêmement sensible à de petites variations des hyperparamètres. S'inspirant de ces similitudes, ils ont examiné expérimentalement la frontière entre les hyperparamètres des réseaux de neurones conduisant à un apprentissage stable ou divergent. Ils ont constaté que cette frontière est fractale sur plus d'une dizaine de décennies d'échelle dans toutes les configurations testées.

Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.

Lien du papier

https://arxiv.org/abs/2402.06184

Pour en savoir plus

https://x.com/jaschasd/status/1756930242965606582

OS-Copilot : vers des agents informatiques généralistes grâce à l'auto-amélioration / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Présentation du papier

OS-Copilot est un cadre pour construire des agents informatiques généralistes qui interagissent avec des éléments clés d'un système d'exploitation comme Linux ou macOS ; il propose également un agent incarné qui s'auto-améliore pour automatiser des tâches informatiques générales ; cet agent surpasse les méthodes précédentes de 35 % sur le benchmark GAIA, dédié aux assistants IA généralistes.

a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.

Résumé (Abstract)

L'interaction autonome avec l'ordinateur constitue un défi ancien au fort potentiel, et la récente diffusion des grands modèles de langage (LLM) a nettement accéléré les progrès dans la création d'agents numériques. Cependant, la plupart de ces agents sont conçus pour interagir avec un domaine étroit, par exemple un logiciel ou un site web spécifique. Cette focalisation restreinte limite leur applicabilité aux tâches informatiques générales. Pour cette raison, nous présentons OS-Copilot, un cadre permettant de construire des agents généralistes capables d'interagir avec des éléments complets d'un système d'exploitation (OS), incluant le web, les terminaux de code, les fichiers, le multimédia et diverses applications tierces. Nous utilisons OS-Copilot pour créer FRIDAY, un agent incarné qui s'auto-améliore pour automatiser des tâches informatiques générales. Sur GAIA, un benchmark d'assistants IA généralistes, FRIDAY surpasse les méthodes antérieures de 35 %, démontrant une forte capacité de généralisation vers des applications inédites grâce aux compétences accumulées lors de tâches antérieures. Nous présentons également des preuves quantitatives et numériques que FRIDAY apprend à contrôler et à s'auto-améliorer sur Excel et PowerPoint avec une supervision minimale. Notre cadre OS-Copilot et nos résultats empiriques fournissent une infrastructure et des enseignements pour la recherche future en vue d'agents informatiques plus performants et plus généralistes.

Lien du papier

https://arxiv.org/abs/2402.07456

Pour en savoir plus

https://x.com/omarsar0/status/1757443594976206885

TestGen-LLM : améliorer automatiquement les tests unitaires avec de grands modèles de langage chez Meta / Automated Unit Test Improvement using Large Language Models at Meta

Présentation du papier

Après une évaluation des produits Reels et Stories d'Instagram, ils rapportent que 75 % des cas de test de testgen-llm ont été correctement construits, que 57 % ont réussi de manière fiable et que la couverture a augmenté de 25 %.

Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.

Résumé (Abstract)

Cet article décrit l'outil TestGen-LLM de Meta, qui utilise des LLM pour améliorer automatiquement les tests existants rédigés par des humains. TestGen-LLM vérifie que les classes de tests générées passent avec succès une série de filtres garantissant une amélioration mesurable par rapport à la suite de tests d'origine, supprimant ainsi les problèmes liés aux hallucinations de LLM. Il décrit ensuite le déploiement de TestGen-LLM dans les test-a-thons de Meta pour les plateformes Instagram et Facebook. Lors d’une évaluation sur les produits Reels et Stories d'Instagram, 75 % des cas de test de TestGen-LLM ont été construits correctement, 57 % ont réussi de manière fiable et 25 % ont augmenté la couverture. Lors des test-a-thons Instagram et Facebook de Meta, cette solution a amélioré 11,5 % de toutes les classes auxquelles elle a été appliquée, et 73 % des recommandations des ingénieurs logiciels de Meta ont été acceptées pour le déploiement en production. Nous pensons que c'est le premier rapport sur le déploiement à grande échelle de code généré par LLM, appuyé par une garantie d'amélioration du code.

This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.

Lien de l'article

https://arxiv.org/abs/2402.09171

ChemLLM : modèle de langage de grande taille pour la chimie / ChemLLM: A Chemical Large Language Model

Présentation de l'article

En étant entraîné spécifiquement pour les tâches liées à la chimie, il affirme dépasser GPT-3.5 dans des tâches essentielles comme la conversion de noms, la génération de légendes moléculaires et la prédiction de réactions, et dépasser GPT-4 sur deux de ces tâches.

A dedicated llm trained for chemistry-related tasks; claims to outperform gpt-3.5 on principal tasks such as name conversion, molecular caption, and reaction prediction; it also surpasses gpt-4 on two of these tasks.

Résumé de l'article (Abstract)

Les grands modèles de langage (LLM) ont réalisé d'importants progrès dans la chimie, notamment pour la prédiction des propriétés moléculaires, la génération de molécules et la conception de protocoles d'expériences. Toutefois, la communauté manque d'un modèle de dialogue spécifiquement conçu pour la chimie. Ce problème vient du fait que la plupart des données chimiques et connaissances scientifiques sont principalement stockées dans des bases de données structurées, et l'utilisation directe de ces données structurées compromet la capacité du modèle à maintenir un dialogue cohérent. Pour relever ce défi, nous avons développé une nouvelle méthode de construction d'instructions basée sur des templates, qui transforme les connaissances structurées en dialogue standard, adapté à l'entraînement des modèles de langage. En tirant parti de cette approche, nous avons mis au point ChemLLM, le premier grand modèle de langage dédié à la chimie, capable d'effectuer diverses tâches à travers les disciplines chimiques via des interactions de dialogue fluides. ChemLLM surpasse GPT-3.5 sur les trois tâches majeures en chimie, à savoir la conversion de noms, la légende moléculaire et la prédiction de réactions, et bat GPT-4 sur deux d'entre elles. De manière remarquable, ChemLLM montre aussi une remarquable capacité d'adaptation aux tâches mathématiques et physiques associées malgré un entraînement principalement basé sur des corpus centrés sur la chimie. De plus, ChemLLM démontre sa maîtrise des tâches NLP spécialisées en chimie, telles que la traduction d'articles scientifiques et la programmation chimio-informatique. ChemLLM ouvre de nouvelles pistes de recherche en chimie, tandis que notre méthode d'intégration des connaissances chimiques structurées dans des systèmes de dialogue ouvre un nouveau champ pour le développement de LLM dans plusieurs disciplines scientifiques. Les codes, jeux de données et poids du modèle sont accessibles publiquement à hf.co/AI4Chem/ChemLLM-7B-Chat.

Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.

Liens des articles

https://arxiv.org/abs/2402.06852

Pour aller plus loin

https://hf.co/AI4Chem/ChemLLM-7B-Chat

https://x.com/omarsar0/status/1757246740539773165

Grands modèles de langage : revue / Large Language Models: A Survey

Présentation de l'article

Cet article analyse trois familles populaires de LLM (GPT, Llama, PaLM), leurs caractéristiques, contributions et limites ; il résume également les capacités et les techniques développées pour la construction et l'amélioration des LLM ; il aborde aussi les jeux de données couramment utilisés pour l'entraînement, le réglage fin et l'évaluation des LLM, ainsi que les métriques d'évaluation des LLM, et se termine par les défis non résolus et les directions de recherche futures.

Reviews three popular families of llms (gpt, llama, palm), their characteristics, contributions, and limitations; includes a summary of capabilities and techniques developed to build and augment llm; it also discusses popular datasets for llm training, fine-tuning, and evaluation, and llm evaluation metrics; concludes with open challenges and future research directions.

Résumé de l'article (Abstract)

Depuis la sortie de ChatGPT en novembre 2022, les grands modèles de langage (LLM) suscitent un grand intérêt grâce à leurs performances solides sur une large gamme de tâches de langage naturel. La capacité de compréhension et de génération linguistique à usage général des LLM est acquise en entraînant des milliards de paramètres de modèle sur d'énormes quantités de données textuelles, comme le prédisent les lois d'échelle \cite{kaplan2020scaling,hoffmann2022training}. Le domaine de recherche des LLM est très récent, mais il évolue rapidement de nombreuses façons. Dans cet article, nous examinons certains des LLM les plus remarquables, notamment trois familles de LLM populaires (GPT, LLaMA, PaLM), et discutons de leurs caractéristiques, contributions et limites. Nous donnons également un aperçu des techniques développées pour construire et renforcer les LLM. Nous étudions ensuite les jeux de données populaires préparés pour l'entraînement, le fine-tuning et l'évaluation des LLM, passons en revue les métriques d'évaluation des LLM les plus utilisées et comparons les performances de plusieurs LLM populaires sur un ensemble de benchmarks représentatifs. Enfin, nous concluons l'article en discutant des défis non résolus et des futures directions de recherche.

Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.

Lien vers l'article

https://arxiv.org/abs/2402.06196

Pour en savoir plus

https://x.com/omarsar0/status/1757049645119799804

Les agents LLM peuvent pirater des sites web de manière autonome / LLM Agents can Autonomously Hack Websites

Présentation de l'article

Cette étude montre qu'il est possible de pirater automatiquement des sites web et d'effectuer des tâches comme des injections SQL sans feedback humain ni connaissance explicite préalable de la vulnérabilité. Cela est possible grâce à l'utilisation d'outils par les LLM et à leur capacité de contexte long, et GPT-4 peut mener ce type de piratage, notamment en trouvant des vulnérabilités de sites web en conditions réelles, alors que les modèles open source ne démontrent pas les mêmes capacités.

Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.

Résumé (Abstract)

Au cours des dernières années, les capacités des grands modèles de langage (LLM) sont devenues de plus en plus performantes et ils peuvent désormais interagir avec des outils (c'est-à-dire appeler des fonctions), lire des documents et s'appeler eux-mêmes de manière récursive. En conséquence, ces LLM peuvent maintenant fonctionner de façon autonome en tant qu'agents. Avec l'augmentation des capacités de ces agents, des travaux récents ont spéculé sur la manière dont les agents LLM affecteront la cybersécurité. Cependant, on ne sait pas grand-chose sur les capacités offensives des agents LLM. Dans cette étude, nous montrons que les agents LLM peuvent pirater des sites web de manière autonome, en effectuant des tâches aussi complexes que l'extraction à l'aveugle de schémas de base de données et les injections SQL sans feedback humain. Il est important de noter que l'agent n'a pas besoin de connaître au préalable la vulnérabilité. Cette capacité est rendue possible de manière unique par des modèles frontier hautement capables d'utiliser des outils et d'exploiter un contexte étendu. En particulier, nous montrons que GPT-4 est capable de tels piratages, mais les modèles open source existants ne le sont pas. Enfin, nous montrons que GPT-4 est capable de détecter de manière autonome des vulnérabilités sur des sites web en conditions réelles. Nos résultats posent des questions sur le déploiement à grande échelle des LLM.

In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.

⚠️Publicité⚠️ : Ce guide du Groupe d'utilisateurs PyTorch de Corée vous a été utile ? En vous inscrivant en tant que membre, nous vous enverrons les articles principaux par e-mail ! (Le réglage par défaut est Weekly, mais vous pouvez aussi le passer en Daily.)

[2024/02/12 ~ 02/18] Principaux papiers ML de la semaine (Top ML Papers of the Week)

Aperçu

Sora d’OpenAI

Introduction de l’article

Lien de l’article

Pour aller plus loin

Gemini 1.5 / Gemini 1.5

Introduction de l’article

Lien de l’article

Pour aller plus loin

V-JEPA

Introduction de l’article

Résumé (Abstract)

Liens de l'article

Pour aller plus loin

LWM (Large World Model) : un modèle vidéo et langage à contexte de 1 M avec RingAttention / World Model on Million-Length Video And Language With RingAttention

Présentation de l'article

Résumé (Abstract)

Liens du papier

Pour aller plus loin

La frontière de l'entraînabilité des réseaux de neurones est fractale / The boundary of neural network trainability is fractal

Présentation de l'article

Résumé (Abstract)

Lien du papier

Pour en savoir plus

OS-Copilot : vers des agents informatiques généralistes grâce à l'auto-amélioration / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Présentation du papier

Résumé (Abstract)

Lien du papier

Pour en savoir plus

TestGen-LLM : améliorer automatiquement les tests unitaires avec de grands modèles de langage chez Meta / Automated Unit Test Improvement using Large Language Models at Meta

Présentation du papier

Résumé (Abstract)

Lien de l'article

À lire aussi

ChemLLM : modèle de langage de grande taille pour la chimie / ChemLLM: A Chemical Large Language Model

Présentation de l'article

Résumé de l'article (Abstract)

Liens des articles

Pour aller plus loin

Grands modèles de langage : revue / Large Language Models: A Survey

Présentation de l'article

Résumé de l'article (Abstract)

Lien vers l'article

Pour en savoir plus

Les agents LLM peuvent pirater des sites web de manière autonome / LLM Agents can Autonomously Hack Websites

Présentation de l'article

Résumé (Abstract)

Lien vers l'article

Pour en savoir plus

Texte original

À lire aussi

Aucun commentaire pour le moment.