- Jeu de données de 627M (627 millions) de tables et 867B (867 milliards) de tokens pour l'entraînement des LLM
- Inclut des tables extraites de pages web, d'Excel, de CSV, de SQLite, etc.
- Données contextuelles riches, comme le nom de fichier, l'URL source et le texte autour de chaque table
- Avec l'espoir d'aider à mieux comprendre les données tabulaires et à développer de meilleures techniques pour les exploiter
- 65 billions de lignes et jusqu'à 8 milliards de colonnes
- La plus grande table contient 32 millions de lignes
- La table la plus large comporte 3 millions de colonnes
Aucun commentaire pour le moment.