- ETL basé sur Python, conçu pour extraire, préparer et nettoyer des données à partir de sources et formats variés
- Prend en charge à la fois les fichiers structurés et non structurés (CSV, Parquet, PDF, Word, HTML, etc.)
- Vise à permettre aussi bien aux data scientists qu’aux data engineers de développer facilement des pipelines grâce à une interface low-code intuitive, tout en générant du code Python déployable partout
- Conçoit des pipelines de données via une interface graphique et génère du code Python natif pouvant être déployé aussi bien on-premise que dans le cloud
- Excellentes performances pour l’intégration de données des fichiers vers les bases de données, l’extraction et la préparation de données pour la data science et les systèmes basés sur les LLM, ainsi que pour la récupération et l’enrichissement via API
1 commentaires
Avis Hacker News
rapidsai dask_cudf, similaire à pandas.