RedPajama v2 - jeu de données de 30 billions (30T) de tokens pour l’entraînement des LLM

xguru · 2023-11-09T09:46:02+09:00

Une échelle bien plus grande que RedPajama-1T, qui comptait 1 billion de tokens Plus de 100 milliards de documents texte contenant plus de 100 billions de tokens bruts issus de 84 dumps CommonCrawl Plus de 40 annotations de qualité parmi les plus utilisées, pré-calculées sur un sous-ensemble dédupliqué de 30 billions de tokens 5 langues : anglais, français, espagnol, allemand, italien Tous les scripts de traitement des données sont open source et disponibles sur GitHub, et toutes les données sont disponibles sur HuggingFace

(together.ai)

5 points par xguru 2023-11-09 | 1 commentaires | Partager sur WhatsApp

Une échelle bien plus grande que RedPajama-1T, qui comptait 1 billion de tokens
Plus de 100 milliards de documents texte contenant plus de 100 billions de tokens bruts issus de 84 dumps CommonCrawl
Plus de 40 annotations de qualité parmi les plus utilisées, pré-calculées sur un sous-ensemble dédupliqué de 30 billions de tokens
5 langues : anglais, français, espagnol, allemand, italien
Tous les scripts de traitement des données sont open source et disponibles sur GitHub, et toutes les données sont disponibles sur HuggingFace

1 commentaires

xguru 2023-11-09

RedPajama - projet open source qui recrée le jeu de données de LLaMA
Publication des modèles RedPajama 3B et 7B
RedPajama publie un modèle 7B plus performant que les autres modèles LLM 7B publics dans le benchmark HELM

RedPajama v2 - jeu de données de 30 billions (30T) de tokens pour l’entraînement des LLM

À lire aussi

1 commentaires