- Une échelle bien plus grande que RedPajama-1T, qui comptait 1 billion de tokens
- Plus de 100 milliards de documents texte contenant plus de 100 billions de tokens bruts issus de 84 dumps CommonCrawl
- Plus de 40 annotations de qualité parmi les plus utilisées, pré-calculées sur un sous-ensemble dédupliqué de 30 billions de tokens
- 5 langues : anglais, français, espagnol, allemand, italien
- Tous les scripts de traitement des données sont open source et disponibles sur GitHub, et toutes les données sont disponibles sur HuggingFace
1 commentaires
RedPajama - projet open source qui recrée le jeu de données de LLaMA
Publication des modèles RedPajama 3B et 7B
RedPajama publie un modèle 7B plus performant que les autres modèles LLM 7B publics dans le benchmark HELM