14 points par xguru 2024-10-20 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une bibliothèque moderne de dataframes Python conçue pour l’IA
  • Conçue pour structurer des données non structurées en jeux de données et les wrangler à grande échelle sur une machine locale
  • Intégrée à la stack de données postmoderne sans abstraire ni masquer les modèles d’IA et les appels d’API

Fonctionnalités principales

  • Dépôt Source of Truth
    • Traite les données non structurées depuis S3, GCP, Azure et les systèmes de fichiers locaux, sans copies dupliquées
    • Prise en charge des données multimodales : images, vidéos, texte, PDF, JSON, CSV, parquet, etc.
    • Unifie fichiers et métadonnées en jeux de données persistants, versionnés et orientés colonnes
  • Pipeline de données pensé pour Python
    • Travaille sur les objets Python et leurs champs
    • Parallélisation intégrée et traitement out-of-core, sans SQL ni Spark
  • Enrichissement et traitement des données
    • Génération de métadonnées à l’aide de modèles d’IA locaux et d’API de LLM
    • Filtrage, jointure et regroupement à partir des métadonnées. Recherche via embeddings vectoriels
    • Transmission des jeux de données à Pytorch ou Tensorflow, ou réexport vers le dépôt
  • Efficacité
    • Parallélisation, traitement out-of-core et mise en cache des données
    • Opérations vectorisées sur les champs d’objets Python : somme, nombre, moyenne, etc.
    • Recherche vectorielle optimisée

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.