The Pile, un jeu de données open source de 825 Gio pour la modélisation du langage (2020)

(pile.eleuther.ai)

1 points par GN⁺ 2024-03-09 | 1 commentaires | Partager sur WhatsApp

Alors que l’étendue des sources de données devient importante pour l’entraînement de grands modèles de langage, The Pile a été publié comme un jeu d’entraînement public de 825 Gio regroupant 22 jeux de données de haute qualité
Sa conception centrale consiste à combiner plusieurs sources — livres, code, pages web, journaux de discussion, articles scientifiques, etc. — afin d’améliorer la généralisation inter-domaines
Les modèles entraînés avec The Pile ont montré des améliorations modérées sur les benchmarks classiques de modélisation du langage, et des améliorations significatives sur Pile BPB
Comme Pile BPB traite simultanément des textes issus de plusieurs domaines, il sert à évaluer des capacités de modélisation textuelle plus larges que les performances sur un corpus unique
Le leaderboard signale par * les possibles doublons avec le jeu de test, et Zero-shot signifie que tous les composants de The Pile n’étaient pas inclus dans les données d’entraînement

Composition et distribution de The Pile

The Pile est un jeu de données open source diversifié de 825 Gio pour la modélisation du langage
Il est constitué en combinant 22 jeux de données plus petits et de haute qualité
Les fichiers de téléchargement sont hébergés sur the Eye
Si vous utilisez The Pile ou si vous évaluez des modèles avec The Pile, vous pouvez en informer EleutherAI
Si vous utilisez The Pile ou ses composants, vous devez citer l’article suivant
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - Prépublication arXiv arXiv:2101.00027, 2020

Rôle comme jeu d’entraînement et benchmark

En particulier pour les modèles à grande échelle, la diversité des sources de données améliore les connaissances générales inter-domaines et les capacités de généralisation sur les tâches en aval
Les résultats d’évaluation montrent que les modèles entraînés avec The Pile ont enregistré des améliorations modérées sur les benchmarks traditionnels de modélisation du langage, et des améliorations significatives sur Pile BPB
Pile BPB (bits per byte) est un benchmark qui nécessite de comprendre des textes issus de plusieurs domaines
- Les domaines ciblés incluent les livres, les dépôts GitHub, les pages web et les journaux de discussion
- Il inclut aussi des articles de médecine, de physique, de mathématiques, d’informatique et de philosophie
Ce benchmark exige à la fois des connaissances du monde propres à chaque domaine et des capacités de raisonnement, et sert à évaluer les capacités de modélisation de texte inter-domaines des grands modèles de langage
Les exemples du leaderboard incluent des entrées au 1er janvier 2021
- GPT-3 (Zero-Shot)*, OpenAI : Test BPB 0,7177
- GPT-2 (Zero-Shot)*, OpenAI : Test BPB 1,2253
- * indique une possible duplication avec le jeu de test
- Zero-shot signifie que tous les composants de The Pile n’étaient pas inclus dans les données d’entraînement

1 commentaires

GN⁺ 2024-03-09

Avis de Hacker News

En 2020, quelqu’un s’est inquiété de l’inclusion de Books3 dans The Pile, et Stella Biderman, qui était responsable d’Eleuther, a répondu ainsi :
Elle a expliqué qu’il y avait, dans les données, 1) les matériaux sources bruts existant dans le monde et mis en ligne, 2) les données par ensemble, nettoyées et transformées à partir de ces matériaux sources pour la modélisation du langage, 3) The Pile, qui combine largement les données par ensemble, pondérations comprises.
Eleuther a créé et publié 2 et 3, et a expliqué que 2 était mis à disposition pour que les gens puissent le repondérer et le recombiner, tandis que la plupart téléchargeraient simplement 3 tel quel.
Elle a aussi estimé que, même si 2 et 3 contiennent des données protégées par le droit d’auteur, il s’agit, au regard du droit américain, d’un usage loyal et non d’une violation du droit d’auteur ; télécharger Maroon 5 depuis un site web pour créer un jeu de données relevant de 2 pourrait, selon les cas, constituer une infraction, mais leur propre usage ne l’était pas selon elle.
- Dire que « 2 et 3 relèvent de l’usage loyal et ne violent donc pas le droit d’auteur », c’est quelque chose qu’on ne peut pas savoir avant de l’avoir contesté en justice.
  L’usage loyal ne se constitue pas simplement parce qu’on le déclare soi-même ; c’est un peu comme Michael Scott dans The Office qui crie « Je déclare faillite ! ».
  Les tribunaux apprécient 1) l’objectif et le caractère de l’utilisation, 2) la nature de l’œuvre protégée, 3) la quantité et le caractère substantiel de la partie utilisée, 4) l’effet sur le marché potentiel ou la valeur de l’œuvre ; c’est précisément pour cela qu’OpenAI est en litige avec le New York Times.
  Cette page donne un assez bon aperçu : https://copyright.columbia.edu/basics/fair-use.html
- Je ne comprends pas comment cette affirmation peut être vraie si l’ensemble n° 2 contient des œuvres complètes dont les ayants droit n’ont pas autorisé la distribution, par exemple un livre entier.
  À moins que « traitement pour la modélisation du langage » signifie un processus totalement irréversible.
- Je ne connais pas la bonne réponse aux questions de droit d’auteur, mais en 2024 j’aimerais qu’on adopte, à propos du travail humain qui entre dans les modèles, une attitude meilleure que des formulations passives du type « les données existent dans le monde » ou « elles ont été collectées dans un dataset ».
- Ils distribuent des œuvres sans l’autorisation des auteurs, les utilisent d’une manière qui concurrence ces auteurs, beaucoup d’IA gagnent de l’argent, et certaines reproduisent le texte original tel quel.
  De tels datasets semblent échouer à la plupart des volets du test en quatre facteurs du droit d’auteur, et même les non-spécialistes à qui j’ai expliqué les LLM ont compris que les entreprises d’IA volaient le travail d’autrui.
  Il existe un article qui récapitule les questions juridiques associées, les différents datasets dont The Pile, les alternatives légales et des propositions équilibrées de réforme du droit d’auteur : http://gethisword.com/tech/exploringai/
  Pour l’instant, je pense qu’il faudrait immédiatement, au moins dans un pays, trois règles : les œuvres auxquelles on a un droit d’accès légal doivent pouvoir être utilisées pour l’entraînement d’IA ; les restrictions d’entraînement, surtaxes et limitations de téléchargement doivent être illégales ; il doit être permis de copier et transformer les œuvres accessibles pour un entraînement à usage personnel ; et les œuvres publiées gratuitement sur le web doivent pouvoir être copiées, partagées, traitées et regroupées pour l’entraînement d’IA, quelles que soient leurs conditions.
  Le droit d’auteur sur les sorties d’IA devrait suivre la doctrine existante sur les œuvres d’IA et les œuvres mixtes, et si une sortie est protégeable, l’utilisateur devrait avoir le même statut que s’il l’avait publiée lui-même en s’appuyant sur une œuvre existante ; pour pouvoir en juger, les jeux d’entraînement devraient aussi être rendus publics.
- Gratter Libgen, télécharger du contenu protégé par le droit d’auteur et le redistribuer ne serait pas illégal ?
  Je suis sceptique. Seeder en torrent un film récupéré quelque part sur Internet n’est pas un « usage loyal », et The Pile n’est pas seulement du code qui transforme des données, c’est les données redistribuées elles-mêmes.
  Avec cette logique, cela voudrait dire qu’on peut exploiter légalement un miroir de Libgen.
Où peut-on vérifier la reproduction des licences et les crédits/attributions des contenus distribués dans ce dataset ?
Tout est-il inclus ? Peut-on savoir si tous les éléments inclus sont conformes ?
Je suis ouvert à l’idée qu’un générateur créé avec un modèle nourri de données sous droit d’auteur puisse éviter les obligations de droit d’auteur dans ses sorties, mais le dataset lui-même n’est-il pas évidemment lié aux droits d’auteur des contenus qu’il contient ?
- Ce dataset contient Books3, qui est proche d’un dump complet de Bibliotik, un tracker torrent privé consacré aux ebooks piratés.
  Si vous recouvrez un mur de noms d’auteurs ou d’éditeurs célèbres et que vous lancez une fléchette, il y a de bonnes chances que celui que vous touchez détienne des droits sur une partie de ces données.
  Il semble suffire de dire « pour la recherche en IA » pour pouvoir tout faire. Comme si le simple fait d’avoir un domaine en .ai autorisait à mettre en ligne des rips Blu-ray.
- Ils ont volé parce qu’ils estiment que fabriquer leur jouet est plus important que les droits que d’autres personnes ont sur le produit de leur travail.
Je n’arrive pas à croire que des gens partagent et republient sur Internet des œuvres protégées par le droit d’auteur. C’est choquant.
Bref, avec RedPajama 30T et The Pile, c’est « all you need », non ? ;)
- Plus tard, cela suffit pour du préentraînement destiné à traiter des tâches spécifiques de traitement automatique du langage naturel.
  Pour obtenir des résultats intéressants, il faut générer à partir de là un dataset d’instructions, qui couvre des tâches variées.
  Ce n’est pas le texte achevé lui-même qui fait émerger connaissances et raisonnement dans un LLM, mais un vaste dataset d’instructions diversifié.
- Il y a tellement de débats sur le droit d’auteur qu’un projet est en cours pour créer The Pile v2, ne contenant que des données sous licence permissive.
Est-ce que Books3, mentionné dans l’article sur The Pile, est bien le dataset qui fait l’objet des procès intentés par des auteurs ? Celui qui contient en masse des œuvres populaires et protégées par le droit d’auteur ?
- Oui. D’après l’article lié, Books3 est un dataset de livres dérivé d’une copie du contenu du tracker privé Bibliotik, publiée par Shawn Presser.
  Bibliotik mélange fiction et non-fiction ; il est presque d’un ordre de grandeur plus grand que BookCorpus2, le deuxième plus gros dataset de livres, et l’article explique qu’il a été inclus parce que les livres sont précieux pour la recherche sur la modélisation de longs contextes et la narration cohérente.
- Comme point de départ pour examiner les différentes procédures judiciaires, cette liste semble correcte. Je ne sais pas à quelle fréquence elle est mise à jour, notamment jusqu’aux affaires Silverman et autres.
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- Il semblerait. Voir https://www.wired.com/story/battle-over-books3/
- Ils affirment que leurs données ne viennent pas de sources protégées par le droit d’auteur, ou qu’elles ne sont pas soumises au droit d’auteur ?
Books3 a beaucoup attiré l’attention, mais un autre gros composant de ce dataset porte un nom un peu trompeur : OpenWebText2.
Il s’agit de 15 ans de sites web tiers liés depuis des soumissions Reddit très recommandées, et certains de mes textes y figurent aussi.
- Sans même parler de pertinence ni d’impact, j’ai du mal à comprendre qu’on publie quelque chose publiquement sur Internet, sur un site sans restriction d’accès, puis qu’on revendique des droits moraux sur ce contenu.
  C’est comme le diffuser à la radio ou livrer des imprimés devant la porte de millions de personnes au hasard.
  Il existe des moyens d’établir la propriété intellectuelle et de protéger des données par le droit d’auteur, mais les fanfictions Tumblr, les commentaires YouTube et les discussions HN ne sont pas une voie formelle d’obtention de droits d’auteur.
  Ce que vous mettez sur un site web qui peut être légalement scrapé peut relever du fair use.
  Les données collectées sur des sites web publics, vous pouvez en faire ce que vous voulez en privé, et vous pourriez même créer un excellent LLM HN à partir du dataset scrapé pour votre usage personnel.
  Au vu de la jurisprudence récente, tant que vous faites des efforts de bonne foi pour respecter le droit d’auteur et empêcher la reproduction du texte original, vous pourriez proposer via une API et exploiter commercialement un modèle entraîné sur des œuvres du monde entier.
  En revanche, vendre ou distribuer le modèle lui-même vous fait entrer dans un autre domaine juridique.
  Internet a été conçu pour fonctionner ainsi ; si vous voulez empêcher l’accès, il faut mettre en place de l’authentification, de la configuration réseau et du contrôle d’accès.
  Si vous publiez sur un site public sans ces dispositifs, il faut considérer que vous avez largement renoncé à faire valoir une protection contre un usage étendu relevant du fair use ; dès lors que vous avez un serveur et un domaine, vous avez implicitement invité le monde entier à venir télécharger.
  Ce que vous considérez comme une mauvaise utilisation dans OpenWebText2 vient fondamentalement du fait que vous l’avez mis sur un site public et avez ensuite perdu le contrôle des usages ultérieurs ; cela a été scrapé loyalement.
- Donnez-moi le nom de domaine et je vérifierai s’il y a du plagiat dans les principaux LLM.
  Je pense qu’aucun modèle ne pourra probablement produire une seule phrase de vos textes.
Peut-on encore le télécharger quelque part ? J’ai essayé il y a quelques mois, mais le lien de téléchargement renvoyait un 404, et ça semble toujours être le cas.
- La distribution se fait surtout via torrents/liens magnet et par échange direct de disques durs.
  Si vous ne connaissez personne qui l’a déjà, cherchez sur des trackers publics.
  Sachez toutefois que comme il contient du contenu protégé par le droit d’auteur, sa distribution relève du piratage.
- Je ne sais pas si c’est acceptable de poster un lien magnet ici.
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- The Pile est une vieille nouvelle, et il est recommandé de regarder des datasets plus récents comme the-stack-v2.
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- The Pile contient beaucoup de sources sélectionnées, et la tendance récente consiste plutôt à combiner des sources de données sélectionnées avec des crawls web filtrés.
  Par exemple en traitant fortement Common Crawl avant de le mélanger ; dolma, cité par d’autres, ou the-stack-v2 pour les modèles de code, en sont des exemples.
Le nom est stylé. Ça me fait penser au « Pile » original du Manhattan Project.
Je l’ai lu dans “The Making of the Atomic Bomb” (1986), et ça apparaît probablement aussi dans le film récent.
- En fait, presque pas. Je me souviens tout au plus d’une scène où c’est mentionné très brièvement.
  Le film donnait l’impression d’avoir enfilé des anecdotes pour fabriquer un message lourd à la fin.
  Comme récit fictionnel plutôt que comme reconstitution réelle, c’était un bon film, mais mieux vaut lire le livre.
  Si Fermi vous intéresse particulièrement, je recommande “The Last Man Who Knew Everything” de David Schwartz.
The Pile date pas mal ; est-ce une version mise à jour ?
- Non
  Dans le même registre, la v2 du dataset the-stack a été publiée récemment
  Elle aurait parcouru le dataset de graphe Software Heritage 2023-09-06 pour collecter 3,28 milliards de fichiers uniques appartenant à 104,2 millions de dépôts GitHub, et ajouté des métadonnées au niveau des dépôts à partir des données GitHub Archive jusqu’au 2023-09-14
  La taille totale non compressée est de 67,53 To, et le pipeline de prétraitement a implémenté une déduplication approximative en plus d’une déduplication exacte
  Après déduplication, en taille et en nombre de tokens, la v1 fait 2,9 To·200B, et la v2 32,1 To·900B
  On dirait que des modèles de code open source assez puissants vont bientôt arriver ; les modèles à tester sont dolphincoder-starcoder2-15b-iMat.GGUF, CodeFuse-DeepSeek-33B-iMat.GGUF, OpenCodeInterpreter-DS-33B-iMat.GGUF et starcoder2-15b-instruct-iMat.GGUF
  Dataset : https://huggingface.co/datasets/bigcode/the-stack-v2
  Quantification GGUF : https://huggingface.co/dranger003
Les grands studios hollywoodiens versent beaucoup d’argent à plusieurs entreprises de cybersécurité pour repérer les contenus piratés et envoyer aux hébergeurs des notifications de retrait pour atteinte au droit d’auteur
Si des auteurs et des artistes se regroupent sous une forme comme une coalition autour des données, ils peuvent faire la même chose que les studios
Si le droit d’auteur a un réel pouvoir, une telle organisation pourrait envoyer des demandes légales aux endroits qui hébergent ces contenus pour exiger leur retrait

The Pile, un jeu de données open source de 825 Gio pour la modélisation du langage (2020)

Composition et distribution de The Pile

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Rôle comme jeu d’entraînement et benchmark

À lire aussi

1 commentaires

Avis de Hacker News