- Un projet visant à créer un modèle de langage entièrement open source et reproductible, plutôt qu’un modèle semi-ouvert comme LLaMA, Alpaca ou Vicuna
- Trois composants
- Des données de pré-entraînement de haute qualité avec une large couverture
- Un modèle de base entraîné à grande échelle sur ces données
- Des données et modèles d’instruction tuning pour rendre le modèle de base sûr et utilisable
- Publication du premier composant, le dataset RedPajama-Data-1T
- Un dataset entièrement ouvert composé de 1,2 billion de tokens, créé selon la recette décrite dans l’article sur LLaMA
- Téléchargeable via HuggingFace. 5 To au total (distribué compressé à 3 To)
- Composé de 7 fragments de données : chacun a été prétraité et filtré pour obtenir des volumes similaires à ceux de l’article LLaMA (les méthodes de prétraitement et les filtres sont également publiés sur GitHub)
- CommonCrawl (878b) - données de crawl web
- C4 (175b) - version Colossal, nettoyée, de Common Crawl
- GitHub (59b) - données GitHub filtrées selon la licence et la qualité
- arXiv (28b) - articles et publications scientifiques (boilerplate supprimé)
- Books (26b) - corpus de livres publics dédupliqué selon la similarité de contenu
- Wikipedia (24b) - une partie des pages de Wikipédia (boilerplate supprimé)
- StackExchange (20b) - une partie des pages de Stack Exchange (boilerplate supprimé)
- La prochaine étape consiste à entraîner un modèle de base puissant, avec une publication prévue dans les prochaines semaines
- L’instruction tuning devrait s’appuyer sur ce qui a été fourni via OpenChatkit
1 commentaires
Publication d’OpenChatKit - un projet open source permettant d’implémenter ChatGPT