6 points par GN⁺ 2024-08-15 | 1 commentaires | Partager sur WhatsApp
  • Trellis est un outil ETL (Extract, Transform, Load) basé sur l’IA pour les données non structurées
  • Il convertit les appels téléphoniques, les PDF et les contenus de chat en format SQL structuré selon un schéma défini par l’utilisateur en langage naturel
  • Il aide les équipes data et opérationnelles à automatiser la saisie manuelle de données et à traiter des données complexes avec des requêtes SQL

Contexte du développement de Trellis

  • Après s’être rencontrés au laboratoire d’IA de Stanford, ils ont collaboré avec les équipes data de plusieurs grandes entreprises et ont identifié le problème des données non structurées
  • 80 % des données d’entreprise sont constituées de données non structurées, difficiles à traiter avec les plateformes existantes
  • Par exemple, une grande banque commerciale ne pouvait pas améliorer ses modèles de risque de crédit à cause de données essentielles enfermées dans des PDF et des e-mails
  • En s’appuyant sur leurs recherches en IA, ils ont développé une solution ETL basée sur l’IA qui transforme les données non structurées en tables conformes à un schéma

Défis techniques

  • Prise en charge des documents complexes : traitement de documents longs avec un map-reduce basé sur des LLM, et utilisation de modèles de vision pour extraire les tableaux et la mise en page
  • Routage de modèles : sélection du modèle optimal pour chaque transformation afin d’optimiser les coûts et la vitesse
  • Validation des données et garantie du schéma : assurance de l’exactitude grâce à des liens de référence et à la détection d’anomalies

Divers cas d’usage

  • Services financiers : traitement de documents complexes (obligations, notations de crédit, etc.) dans un format structuré afin d’accélérer l’underwriting et d’automatiser le traitement des prêts
  • Support client et opérations back-office : amélioration de la vitesse d’onboarding et garantie du respect des SOP grâce au mapping de documents entre différents schémas et systèmes ERP
  • Prétraitement et collecte de données : besoin de prétraitement des données et de collecte de données RAG dans les pipelines ETL

Récapitulatif de GN⁺

  • Trellis est un outil ETL basé sur l’IA qui convertit des données non structurées en format SQL structuré, automatisant le travail manuel des équipes data et opérationnelles
  • Il relève des défis techniques comme le traitement de documents complexes, le routage de modèles et la validation des données
  • Il peut être utile dans de nombreux secteurs, notamment les services financiers, le support client et le prétraitement des données
  • Il sera particulièrement utile aux entreprises qui rencontrent des difficultés avec le traitement de données non structurées
  • Parmi les projets aux fonctionnalités similaires figurent notamment Alteryx et Talend

1 commentaires

 
GN⁺ 2024-08-15
Commentaires sur Hacker News
  • Je développe un package Python open source qui offre des fonctionnalités similaires

    • Partage d’un exemple de démo avec les e-mails d’Enron
  • Une grande banque commerciale n’a pas réussi à exploiter les données enfermées dans des PDF et des e-mails, et n’a donc pas pu améliorer son modèle de risque de crédit

    • Résoudre ce problème crée une grande valeur
  • J’ai travaillé sur un projet connexe chez SoundTrace

    • Il fallait extraire parfaitement les données d’audiogrammes en PDF d’un nouveau client
    • Le pipeline utilisait l’OCR sur les PDF pour extraire le texte et les tableaux, puis les analysait directement via un LLM
    • Le graphique d’audiogramme était envoyé à un convnet, et les tableaux étaient analysés de façon programmatique
    • Les résultats étaient vérifiés avec Claude sonnet, puis envoyés en revue manuelle s’ils ne correspondaient pas
    • La précision a atteint presque 100 %
  • J’ai travaillé chez Instabase, et la capacité à traiter les PDF et les scans de documents est essentielle

  • Félicitations pour le lancement de Trellis, mais le taux de cas limites doit être proche de 0 %

    • C’est un service dont toutes les organisations ont besoin, et s’il réussit, il aura beaucoup de clients
  • Question sur la concurrence avec Roe AI et sur ce qui les différencie

  • Curiosité sur la manière dont l’exactitude des données a été vérifiée

  • Dans un projet personnel, j’utilise TypeChat, Zod et Unstructured pour faire un travail similaire

  • J’ai utilisé l’appel de fonctions d’OpenAI pour extraire des champs de milliers de documents scannés

    • Pour certains champs, les résultats étaient mauvais sur des formats de documents d’entrée variés
    • J’ai expérimenté avec des schémas JSON pour extraire les informations optimales
    • Pour les documents longs, il fallait décider s’il fallait envoyer le document entier ou seulement les parties pertinentes
    • La qualité de l’OCR était mauvaise
    • La principale innovation consiste à permettre à des utilisateurs non techniques d’effectuer l’étape 2 de manière répétée
  • Félicitations pour ce lancement alors que le gros problème n’est pas encore résolu

    • Les clients avec de gros problèmes et de gros budgets restent les plus mal desservis
    • Des solutions sur mesure sont fournies aux clients via un onboarding / une intégration à la Palantir
    • Une précision supérieure à 99 % et une intervention humaine sont efficaces
    • Passer de 95 % à 99 % peut faire une énorme différence
    • Il faudrait mettre en avant « extraction avec une précision de 99 %+ » plutôt que « workflow propulsé par l’IA »