- Une bibliothèque moderne de dataframes Python conçue pour l’IA
- Conçue pour structurer des données non structurées en jeux de données et les wrangler à grande échelle sur une machine locale
- Intégrée à la stack de données postmoderne sans abstraire ni masquer les modèles d’IA et les appels d’API
Fonctionnalités principales
- Dépôt Source of Truth
- Traite les données non structurées depuis S3, GCP, Azure et les systèmes de fichiers locaux, sans copies dupliquées
- Prise en charge des données multimodales : images, vidéos, texte, PDF, JSON, CSV, parquet, etc.
- Unifie fichiers et métadonnées en jeux de données persistants, versionnés et orientés colonnes
- Pipeline de données pensé pour Python
- Travaille sur les objets Python et leurs champs
- Parallélisation intégrée et traitement out-of-core, sans SQL ni Spark
- Enrichissement et traitement des données
- Génération de métadonnées à l’aide de modèles d’IA locaux et d’API de LLM
- Filtrage, jointure et regroupement à partir des métadonnées. Recherche via embeddings vectoriels
- Transmission des jeux de données à Pytorch ou Tensorflow, ou réexport vers le dépôt
- Efficacité
- Parallélisation, traitement out-of-core et mise en cache des données
- Opérations vectorisées sur les champs d’objets Python : somme, nombre, moyenne, etc.
- Recherche vectorielle optimisée
Aucun commentaire pour le moment.