22 points par xguru 2024-05-26 | 1 commentaires | Partager sur WhatsApp
  • Moteur NL-to-SQL permettant d’interroger des données structurées en langage naturel
  • L’ensemble de la base de code passe en open source : moteur principal, clients (authentification/RBAC), etc.
  • Il est désormais possible pour tout le monde de créer une solution text-to-SQL au sein de son propre produit
  • Le moteur Core NL-to-SQL de Dataherald est un agent basé sur des LLM, qui utilise le raisonnement CoT (Chain of Thought) et divers outils pour générer un SQL très précis à partir du prompt utilisateur fourni
  • Un total de 4 services est inclus
    • Moteur : agent LLM, vector store et connecteurs de base de données
    • Console d’administration : frontend NextJS pour la configuration du moteur et la gestion de l’observability
    • Backend enterprise : encapsule le moteur principal pour ajouter l’authentification, le cache, l’API, etc.
    • Bot Slack : ajoute Dataherald aux workflows Slack

1 commentaires

 
xguru 2024-05-26

Dataherald - moteur natural language-to-SQL
Je l’avais partagé il y a 8 mois, et maintenant l’ensemble est publié en open source.

Avis de Hacker News

  • Cet outil a l’air vraiment excellent. Les autres outils fonctionnent bien pour des requêtes simples, mais ont du mal avec les schémas complexes et les jointures. Je me demande si DataHerald a résolu ce problème.
  • L’an dernier, j’ai publié en open source un produit de text-to-SQL. Construire ce type de business est très difficile. Il est plus raisonnable de miser sur l’open source et de l’intégrer à des outils de déploiement gratuits comme Snowflake/PowerBI.
  • Je me demande pourquoi ils ont publié l’intégralité du produit en open source. Sont-ils en train de passer à un modèle open core ? Je leur serais reconnaissant de partager leur raison.
  • Merci pour cette contribution historique. Beaucoup d’entreprises sont actuellement en train de « dialoguer » avec leurs données. Beaucoup d’équipes travaillent probablement sur des sujets similaires.
  • C’est l’un des assistants d’analyse IA les plus riches en fonctionnalités. Bravo pour l’avoir publié en open source. Il existe des exemples de réussite comme Metabase, Airbyte et dbt.
  • Je me demande quel est le public cible de cet outil. Le site affirme qu’il permet de répondre à des questions sur les données sans passer par un analyste, mais les analystes sont des experts des modèles et des données. Un data warehouse peut présenter toutes sortes de problèmes. Je me demande si un LLM peut gérer cela de manière cohérente.
  • Si cet outil fonctionne mieux qu’un LLM moyen, c’est parce qu’il peut être entraîné à partir de la structure de la base de données. Mais cette structure peut changer souvent, ce qui peut nécessiter un réentraînement. Je me demande s’il se réentraîne automatiquement après une modification via PR.
  • Je me demande si cet outil peut gérer des jointures complexes. Je n’ai pas trouvé d’exemple sur le site.
  • Je ne comprends pas pourquoi utiliser un système NLP+ORM serait préférable. Il faut utiliser une syntaxe fixe, mais on peut obtenir une précision de 100 %.
  • J’ai récemment utilisé du NL-to-SQL en prototype. La difficulté était de prévenir les erreurs ou les acteurs malveillants susceptibles d’affecter la base de données. Si vous souhaitez discuter d’autres aspects liés à ce sujet, contactez-moi.