12 points par xguru 2024-06-20 | 1 commentaires | Partager sur WhatsApp
  • ETL basé sur Python, conçu pour extraire, préparer et nettoyer des données à partir de sources et formats variés
    • Prend en charge à la fois les fichiers structurés et non structurés (CSV, Parquet, PDF, Word, HTML, etc.)
  • Vise à permettre aussi bien aux data scientists qu’aux data engineers de développer facilement des pipelines grâce à une interface low-code intuitive, tout en générant du code Python déployable partout
    • Conçoit des pipelines de données via une interface graphique et génère du code Python natif pouvant être déployé aussi bien on-premise que dans le cloud
  • Excellentes performances pour l’intégration de données des fichiers vers les bases de données, l’extraction et la préparation de données pour la data science et les systèmes basés sur les LLM, ainsi que pour la récupération et l’enrichissement via API

1 commentaires

 
xguru 2024-06-20
Avis Hacker News
  • Amphi est un outil ETL low-code pour les données structurées et non structurées, utile pour l’intégration de fichiers, la préparation des données, la migration de données et la création de pipelines de données pour des tâches d’IA. Il génère du code Python, déployable partout.
  • Ce n’est pas toujours une bonne chose de permettre à des non-spécialistes de faire facilement du travail sur les données. Si écrire du Python et du SQL est difficile, il vaut mieux envisager un autre métier.
  • Il faudrait changer le titre. Ce n’est pas open source, c’est sous licence Elastic License v2.
  • Ce n’est pas open source. Le titre est trompeur.
  • Il serait bon d’ajouter une explication de l’acronyme ETL sur le site web pour les personnes qui ne le connaissent pas.
  • Parmi les outils ETL Python open source, dlthub.com et hub.meltano.com sont de meilleures options. J’utilise Meltano en production et j’en suis satisfait.
  • Je me demande si Amphi prend en charge le framework rapidsai dask_cudf, similaire à pandas.
  • L’idée est bonne, mais l’abstraction de haut niveau dans la documentation est ratée. Il devrait être possible de définir ce qui se comporte comme une table dans un pipeline de données et d’y appliquer des transformations. Le fait que l’outil soit gratuit mérite d’être salué.
  • Je suis satisfait de Dagster, mais Amphi est aussi intéressant.
  • Je me demande comment un outil comme Amphi est né. Il existe déjà beaucoup d’outils ETL Python open source ; j’aimerais savoir si celui-ci a été créé pour résoudre un problème précis ou s’il s’agit d’un projet passion.