Launch HN : Trellis – un workflow IA pour les données non structurées
(news.ycombinator.com)- Trellis est un outil ETL (Extract, Transform, Load) basé sur l’IA pour les données non structurées
- Il convertit les appels téléphoniques, les PDF et les contenus de chat en format SQL structuré selon un schéma défini par l’utilisateur en langage naturel
- Il aide les équipes data et opérationnelles à automatiser la saisie manuelle de données et à traiter des données complexes avec des requêtes SQL
Contexte du développement de Trellis
- Après s’être rencontrés au laboratoire d’IA de Stanford, ils ont collaboré avec les équipes data de plusieurs grandes entreprises et ont identifié le problème des données non structurées
- 80 % des données d’entreprise sont constituées de données non structurées, difficiles à traiter avec les plateformes existantes
- Par exemple, une grande banque commerciale ne pouvait pas améliorer ses modèles de risque de crédit à cause de données essentielles enfermées dans des PDF et des e-mails
- En s’appuyant sur leurs recherches en IA, ils ont développé une solution ETL basée sur l’IA qui transforme les données non structurées en tables conformes à un schéma
Défis techniques
- Prise en charge des documents complexes : traitement de documents longs avec un map-reduce basé sur des LLM, et utilisation de modèles de vision pour extraire les tableaux et la mise en page
- Routage de modèles : sélection du modèle optimal pour chaque transformation afin d’optimiser les coûts et la vitesse
- Validation des données et garantie du schéma : assurance de l’exactitude grâce à des liens de référence et à la détection d’anomalies
Divers cas d’usage
- Services financiers : traitement de documents complexes (obligations, notations de crédit, etc.) dans un format structuré afin d’accélérer l’underwriting et d’automatiser le traitement des prêts
- Support client et opérations back-office : amélioration de la vitesse d’onboarding et garantie du respect des SOP grâce au mapping de documents entre différents schémas et systèmes ERP
- Prétraitement et collecte de données : besoin de prétraitement des données et de collecte de données RAG dans les pipelines ETL
Récapitulatif de GN⁺
- Trellis est un outil ETL basé sur l’IA qui convertit des données non structurées en format SQL structuré, automatisant le travail manuel des équipes data et opérationnelles
- Il relève des défis techniques comme le traitement de documents complexes, le routage de modèles et la validation des données
- Il peut être utile dans de nombreux secteurs, notamment les services financiers, le support client et le prétraitement des données
- Il sera particulièrement utile aux entreprises qui rencontrent des difficultés avec le traitement de données non structurées
- Parmi les projets aux fonctionnalités similaires figurent notamment Alteryx et Talend
1 commentaires
Commentaires sur Hacker News
Je développe un package Python open source qui offre des fonctionnalités similaires
Une grande banque commerciale n’a pas réussi à exploiter les données enfermées dans des PDF et des e-mails, et n’a donc pas pu améliorer son modèle de risque de crédit
J’ai travaillé sur un projet connexe chez SoundTrace
J’ai travaillé chez Instabase, et la capacité à traiter les PDF et les scans de documents est essentielle
Félicitations pour le lancement de Trellis, mais le taux de cas limites doit être proche de 0 %
Question sur la concurrence avec Roe AI et sur ce qui les différencie
Curiosité sur la manière dont l’exactitude des données a été vérifiée
Dans un projet personnel, j’utilise TypeChat, Zod et Unstructured pour faire un travail similaire
J’ai utilisé l’appel de fonctions d’OpenAI pour extraire des champs de milliers de documents scannés
Félicitations pour ce lancement alors que le gros problème n’est pas encore résolu