7 points par xguru 2023-10-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Jeu de données de 627M (627 millions) de tables et 867B (867 milliards) de tokens pour l'entraînement des LLM
    • Inclut des tables extraites de pages web, d'Excel, de CSV, de SQLite, etc.
    • Données contextuelles riches, comme le nom de fichier, l'URL source et le texte autour de chaque table
  • Avec l'espoir d'aider à mieux comprendre les données tabulaires et à développer de meilleures techniques pour les exploiter
  • 65 billions de lignes et jusqu'à 8 milliards de colonnes
  • La plus grande table contient 32 millions de lignes
  • La table la plus large comporte 3 millions de colonnes

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.