RedPajama - un projet open source qui recrée le dataset de LLaMA

xguru · 2023-04-19T10:03:01+09:00

Un projet visant à créer un modèle de langage entièrement open source et reproductible, plutôt qu’un modèle semi-ouvert comme LLaMA, Alpaca ou Vicuna Trois composants Des données de pré-entraînement de haute qualité avec une large couverture Un modèle de base entraîné à grande échelle sur ces données Des données et modèles d’instruction tuning pour rendre le modèle de base sûr et utilisable Publication du premier composant, le dataset RedPajama-Data-1T Un dataset entièrement ouvert composé de 1,2 billion de tokens, créé selon la recette décrite dans l’article sur LLaMA Téléchargeable via HuggingFace. 5 To au total (distribué compressé à 3 To) Composé de 7 fragments de données : chacun a été prétraité et filtré pour obtenir des volumes similaires à ceux de l’article LLaMA (les méthodes de prétraitement et les filtres sont également publiés sur GitHub) CommonCrawl (878b) - données de crawl web C4 (175b) - version Colossal, nettoyée, de Common Crawl GitHub (59b) - données GitHub filtrées selon la licence et la qualité arXiv (28b) - articles et publications scientifiques (boilerplate supprimé) Books (26b) - corpus de livres publics dédupliqué selon la similarité de contenu Wikipedia (24b) - une partie des pages de Wikipédia (boilerplate supprimé) StackExchange (20b) - une partie des pages de Stack Exchange (boilerplate supprimé) La prochaine étape consiste à entraîner un modèle de base puissant, avec une publication prévue dans les prochaines semaines L’instruction tuning devrait s’appuyer sur ce qui a été fourni via OpenChatkit

(together.xyz)

14 points par xguru 2023-04-19 | 1 commentaires | Partager sur WhatsApp

Un projet visant à créer un modèle de langage entièrement open source et reproductible, plutôt qu’un modèle semi-ouvert comme LLaMA, Alpaca ou Vicuna
Trois composants
- Des données de pré-entraînement de haute qualité avec une large couverture
- Un modèle de base entraîné à grande échelle sur ces données
- Des données et modèles d’instruction tuning pour rendre le modèle de base sûr et utilisable
Publication du premier composant, le dataset RedPajama-Data-1T
- Un dataset entièrement ouvert composé de 1,2 billion de tokens, créé selon la recette décrite dans l’article sur LLaMA
- Téléchargeable via HuggingFace. 5 To au total (distribué compressé à 3 To)
- Composé de 7 fragments de données : chacun a été prétraité et filtré pour obtenir des volumes similaires à ceux de l’article LLaMA (les méthodes de prétraitement et les filtres sont également publiés sur GitHub)
  - CommonCrawl (878b) - données de crawl web
  - C4 (175b) - version Colossal, nettoyée, de Common Crawl
  - GitHub (59b) - données GitHub filtrées selon la licence et la qualité
  - arXiv (28b) - articles et publications scientifiques (boilerplate supprimé)
  - Books (26b) - corpus de livres publics dédupliqué selon la similarité de contenu
  - Wikipedia (24b) - une partie des pages de Wikipédia (boilerplate supprimé)
  - StackExchange (20b) - une partie des pages de Stack Exchange (boilerplate supprimé)
La prochaine étape consiste à entraîner un modèle de base puissant, avec une publication prévue dans les prochaines semaines
L’instruction tuning devrait s’appuyer sur ce qui a été fourni via OpenChatkit

1 commentaires

xguru 2023-04-19

Publication d’OpenChatKit - un projet open source permettant d’implémenter ChatGPT

RedPajama - un projet open source qui recrée le dataset de LLaMA

À lire aussi

1 commentaires