Launch HN : Trellis – un workflow IA pour les données non structurées

(news.ycombinator.com)

6 points par GN⁺ 2024-08-15 | 1 commentaires | Partager sur WhatsApp

Trellis est un outil ETL (Extract, Transform, Load) basé sur l’IA pour les données non structurées
Il convertit les appels téléphoniques, les PDF et les contenus de chat en format SQL structuré selon un schéma défini par l’utilisateur en langage naturel
Il aide les équipes data et opérationnelles à automatiser la saisie manuelle de données et à traiter des données complexes avec des requêtes SQL

Contexte du développement de Trellis

Après s’être rencontrés au laboratoire d’IA de Stanford, ils ont collaboré avec les équipes data de plusieurs grandes entreprises et ont identifié le problème des données non structurées
80 % des données d’entreprise sont constituées de données non structurées, difficiles à traiter avec les plateformes existantes
Par exemple, une grande banque commerciale ne pouvait pas améliorer ses modèles de risque de crédit à cause de données essentielles enfermées dans des PDF et des e-mails
En s’appuyant sur leurs recherches en IA, ils ont développé une solution ETL basée sur l’IA qui transforme les données non structurées en tables conformes à un schéma

Défis techniques

Prise en charge des documents complexes : traitement de documents longs avec un map-reduce basé sur des LLM, et utilisation de modèles de vision pour extraire les tableaux et la mise en page
Routage de modèles : sélection du modèle optimal pour chaque transformation afin d’optimiser les coûts et la vitesse
Validation des données et garantie du schéma : assurance de l’exactitude grâce à des liens de référence et à la détection d’anomalies

Divers cas d’usage

Services financiers : traitement de documents complexes (obligations, notations de crédit, etc.) dans un format structuré afin d’accélérer l’underwriting et d’automatiser le traitement des prêts
Support client et opérations back-office : amélioration de la vitesse d’onboarding et garantie du respect des SOP grâce au mapping de documents entre différents schémas et systèmes ERP
Prétraitement et collecte de données : besoin de prétraitement des données et de collecte de données RAG dans les pipelines ETL

Récapitulatif de GN⁺

Trellis est un outil ETL basé sur l’IA qui convertit des données non structurées en format SQL structuré, automatisant le travail manuel des équipes data et opérationnelles
Il relève des défis techniques comme le traitement de documents complexes, le routage de modèles et la validation des données
Il peut être utile dans de nombreux secteurs, notamment les services financiers, le support client et le prétraitement des données
Il sera particulièrement utile aux entreprises qui rencontrent des difficultés avec le traitement de données non structurées
Parmi les projets aux fonctionnalités similaires figurent notamment Alteryx et Talend

1 commentaires

GN⁺ 2024-08-15

Commentaires sur Hacker News

Je développe un package Python open source qui offre des fonctionnalités similaires
- Partage d’un exemple de démo avec les e-mails d’Enron
Une grande banque commerciale n’a pas réussi à exploiter les données enfermées dans des PDF et des e-mails, et n’a donc pas pu améliorer son modèle de risque de crédit
- Résoudre ce problème crée une grande valeur
J’ai travaillé sur un projet connexe chez SoundTrace
- Il fallait extraire parfaitement les données d’audiogrammes en PDF d’un nouveau client
- Le pipeline utilisait l’OCR sur les PDF pour extraire le texte et les tableaux, puis les analysait directement via un LLM
- Le graphique d’audiogramme était envoyé à un convnet, et les tableaux étaient analysés de façon programmatique
- Les résultats étaient vérifiés avec Claude sonnet, puis envoyés en revue manuelle s’ils ne correspondaient pas
- La précision a atteint presque 100 %
J’ai travaillé chez Instabase, et la capacité à traiter les PDF et les scans de documents est essentielle
Félicitations pour le lancement de Trellis, mais le taux de cas limites doit être proche de 0 %
- C’est un service dont toutes les organisations ont besoin, et s’il réussit, il aura beaucoup de clients
Question sur la concurrence avec Roe AI et sur ce qui les différencie
Curiosité sur la manière dont l’exactitude des données a été vérifiée
Dans un projet personnel, j’utilise TypeChat, Zod et Unstructured pour faire un travail similaire
J’ai utilisé l’appel de fonctions d’OpenAI pour extraire des champs de milliers de documents scannés
- Pour certains champs, les résultats étaient mauvais sur des formats de documents d’entrée variés
- J’ai expérimenté avec des schémas JSON pour extraire les informations optimales
- Pour les documents longs, il fallait décider s’il fallait envoyer le document entier ou seulement les parties pertinentes
- La qualité de l’OCR était mauvaise
- La principale innovation consiste à permettre à des utilisateurs non techniques d’effectuer l’étape 2 de manière répétée
Félicitations pour ce lancement alors que le gros problème n’est pas encore résolu
- Les clients avec de gros problèmes et de gros budgets restent les plus mal desservis
- Des solutions sur mesure sont fournies aux clients via un onboarding / une intégration à la Palantir
- Une précision supérieure à 99 % et une intervention humaine sont efficaces
- Passer de 95 % à 99 % peut faire une énorme différence
- Il faudrait mettre en avant « extraction avec une précision de 99 %+ » plutôt que « workflow propulsé par l’IA »

Launch HN : Trellis – un workflow IA pour les données non structurées

Contexte du développement de Trellis

Défis techniques

Divers cas d’usage

Récapitulatif de GN⁺

À lire aussi

1 commentaires

Commentaires sur Hacker News