5 points par xguru 2023-11-09 | 1 commentaires | Partager sur WhatsApp
  • Une échelle bien plus grande que RedPajama-1T, qui comptait 1 billion de tokens
  • Plus de 100 milliards de documents texte contenant plus de 100 billions de tokens bruts issus de 84 dumps CommonCrawl
  • Plus de 40 annotations de qualité parmi les plus utilisées, pré-calculées sur un sous-ensemble dédupliqué de 30 billions de tokens
  • 5 langues : anglais, français, espagnol, allemand, italien
  • Tous les scripts de traitement des données sont open source et disponibles sur GitHub, et toutes les données sont disponibles sur HuggingFace