AI2 Dolma : corpus open de 3T tokens pour les modèles de langage
(blog.allenai.org)- Un jeu de données créé par l’Allen Institute for AI
- Un mélange de contenus web, publications académiques, code, livres et ressources encyclopédiques
- Avec 3 billions (
Trillion) de tokens, il s’agit du plus grand jeu de données public publié à ce jour - Téléchargeable depuis le hub HuggingFace
- Licence AI2 ImpACT (classification Low/Medium/High selon le niveau de risque de l’artifact)
Aucun commentaire pour le moment.