1 points par GN⁺ 2025-03-09 | 1 commentaires | Partager sur WhatsApp
  • Un outil de questions-réponses basé sur l’IA pour les documents, utilisé en connexion avec des modèles Ollama locaux
  • Permet de créer, gérer et utiliser un système RAG (Retrieval-Augmented Generation) adapté aux besoins de documentation
  • Disponible sur macOS, Linux et Windows
  • Indexation de dossiers de documents : permet d’indexer des dossiers de documents pour une recherche et des requêtes intelligentes, avec prise en charge de nombreux formats comme le texte, le code, les PDF et les DOCX
  • Traitement local : toutes les données sont traitées localement à l’aide de modèles Ollama, sans fuite de données vers l’extérieur
  • Sessions RAG interactives : permet de créer des sessions interactives pour interroger une base de connaissances documentaire
  • Simplicité de gestion : fournit des commandes simples pour créer, lister et supprimer des systèmes RAG
  • Pensé pour les développeurs : conçu en Go pour les développeurs et les utilisateurs techniques

1 commentaires

 
GN⁺ 2025-03-09
Avis Hacker News
  • Ce système n’utilise pas de découpage en chunks pour les documents et envoie le document entier à Ollama pour la requête d’embedding. Il n’est donc utile que lorsque le document est petit

    • Le modèle d’embedding bge-m3 a une longueur de séquence de 8192 tokens. rlama tente d’encoder un livre entier, mais Ollama ne peut inclure que les premières pages dans la requête d’embedding
    • Lors de la recherche, il récupère le document entier au lieu des passages pertinents, puis le tronque à 1000 caractères. Résultat, même si le mot "Buddha" apparaît 44 121 fois dans le document, le modèle répond qu’"il n’y a pas de mention directe de Buddha"
    • Une meilleure solution serait de découper les documents en chunks adaptés au contexte du modèle d’embedding, puis de rechercher ces chunks avec leurs métadonnées
  • Il est recommandé d’afficher les résultats de recherche à l’utilisateur. Un moteur de recherche vectorielle seul est déjà très utile

    • Modifier le prompt pour fournir des références (par exemple à partir des métadonnées des chunks, comme les numéros de page)
  • Quelques notes rapides, tout en saluant le projet

    • Principales préoccupations pour une application qui utilise le système de fichiers
      • Qui peut lire les données, et si l’application les partage
      • Il faut un blocage strict de l’accès à Internet. Est-ce que rlama fonctionne toujours correctement dans ce cas
      • Si l’application peut modifier/supprimer des fichiers
      • Il faudrait n’autoriser qu’un accès en lecture, et non un accès complet au système de fichiers
  • Note sur le code : étonnant que .ts (typescript) ne soit pas dans la liste

  • Le site web est très propre. Je me demande s’il a été codé de zéro ou s’il repose sur un template

  • Il est très facile de créer son propre RAG. Ollama propose un tutoriel de démarrage rapide. On peut ajuster le processus selon ses besoins

  • Je reste sceptique sur l’utilité de ce type d’outils. Avec les problèmes d’hallucination, je me demande à quel point ils sont fiables et s’ils citent correctement leurs sources

    • Le plus important est d’obtenir des données exactes. J’utilise parfois des outils d’IA pour coder, mais pour d’autres usages je n’ai pas confiance dans les résultats
  • Il n’y a aucune information sur l’architecture / la stack technique de ce projet. Rien non plus dans le readme GitHub ni sur le site web

    • J’apprécie le fait qu’il soit écrit en Go et assez petit pour être parcouru en un week-end. Mais comme j’ai déjà perdu du temps avec des outils de l’écosystème LLM, j’hésite à explorer le code sans avoir les informations de base
    • Fournir une vue d’ensemble de haut niveau de l’architecture du projet aiderait davantage de personnes à adopter l’outil
  • En tant qu’historien amateur, je scanne des documents dans des archives et je les stocke en fichiers JPG. Je me demande quelle est la meilleure façon d’exploiter cet ensemble de connaissances

    • En ce moment, je bricole quelque chose avec Gemini, mais je ne sais pas s’il existe une solution sans devoir construire un système RAG depuis zéro
  • Je me demande si cela peut fonctionner avec llama.cpp, qui est le moteur d’Ollama

    • En général, je compile llama.cpp depuis les sources et je télécharge des modèles quantifiés depuis Huggingface. Je n’ai jamais utilisé Ollama
  • Ce serait bien d’avoir une interface API pour pouvoir l’intégrer à d’autres systèmes

  • Beau projet. Je me demande sous quelle licence il est publié. Ce n’est pas documenté

  • Je suis curieux des performances du RAG. Il ne suffit pas de jeter une base de données vectorielle dedans pour que ce soit utile