11 points par GN⁺ 2024-12-16 | 3 commentaires | Partager sur WhatsApp
  • Buzee est une application de recherche en texte intégral utilisable sur Mac et Windows
  • Un outil qui permet aux utilisateurs d’effectuer des recherches Full-Text rapides dans tous leurs documents, images, audios, vidéos, dossiers et l’historique du navigateur
  • Recherche possible dans les documents et dossiers locaux par mot-clé, date, type, ou une combinaison de ces critères
  • Possibilité d’exclure certains fichiers ou dossiers de l’indexation, ou d’exclure uniquement leur contenu
  • Affichage/masquage de l’application via un raccourci global (⎇ / Alt + Space)
  • Accès direct à la recherche dans l’application (⌘ / Ctrl + F or K), accès au scratchpad (⌘ / Ctrl + Shift + S)
  • Affichage de statistiques sur les fichiers et fourniture d’un profil documentaire unique
  • Fonctions annexes : extraction de texte depuis les PDF et les images, utilisation d’un scratchpad, synchronisation automatique avec les changements du système de fichiers
  • Package d’installation léger et faible consommation mémoire
  • Formats de fichiers pris en charge
    • Documents : csv, docx, key, md, numbers, pages, pdf, pptx, txt, xlsx, xls
    • Images : jpg, jpeg, png, gif
    • Livres : epub, mobi, azw3, pdf
    • Audio : mp3, wav, aac, flac, ogg
    • Vidéo : mp4, mkv, avi, mov, wmv
  • Open source basé sur Rust + NodeJS + Tauri

Recherche sémantique

Inclure/exclure de la recherche

  • Utilisation d’un filtre par type de fichier ou saisie directe dans la requête de recherche (ex. : invoice pdf)
  • Utilisation de guillemets autour des mots-clés pour rechercher une expression exacte (ex. : "annual report")
  • Utilisation d’un tiret devant les mots-clés à exclure de la recherche (ex. : "annual report" -2022 -pdf)

Rechercher par date

  • Utilisation d’un filtre de plage de dates ou indication directe d’une date/période dans la requête
  • Ex. : **last month** pdf invoice, annual report ppt **this year**

Compiler depuis les sources

  • Buzee offre les meilleures performances sur Mac ; les tests sur Windows et Linux restent limités
  • Après installation de Rust et NodeJS, il est possible de lancer l’application en mode développement avec les commandes npm install et cargo install

TODO / problèmes connus

  • Diverses améliorations sont nécessaires, comme l’affichage du texte correspondant dans les résultats de recherche ou la prise en charge de requêtes complexes dans la recherche de l’historique du navigateur
  • De nouvelles fonctionnalités doivent être développées, comme l’ajout de « tags » aux documents, la création d’une vue « dashboard » ou l’ajout de tests à la base de code

Stack technique

  • Backend : Rust, Tauri v2, SQLite, Tantivy
  • Frontend : Svelte 4, TypeScript, TailwindCSS

Architecture

  • Toutes les métadonnées de fichiers sont stockées dans la table document de SQLite
  • Un index en texte intégral est créé dans la table metadata et stocké dans Tantivy
  • L’historique de Firefox, Chrome et Arc est recherché via leurs bases de données d’historique respectives

Licence

  • Licence MIT.

3 commentaires

 
dhlee0305 2024-12-16

J’hésitais un peu vu que c’est une version 0.1.1, mais pour l’instant ça fonctionne sans problème.
En revanche, comme je l’utilise sur PC, je ne sais pas si c’est configuré pour consommer peu de ressources, mais la vitesse d’indexation me semble lente.
Cela dit, c’est pratique qu’il puisse retrouver le texte à l’intérieur des fichiers, y compris dans les images. Ça rappelle un peu Google Desktop.

 
GN⁺ 2024-12-16
Avis Hacker News
  • Un utilisateur demande de partager le parcours expliquant pourquoi le projet a échoué et ce qui serait fait différemment s’il était relancé aujourd’hui. Il soulève le manque de marché ou les difficultés d’adaptation comme raisons possibles de l’échec de plusieurs startups de recherche universelle

  • Un commentaire remercie pour le passage en open source, tout en soulignant l’absence de fonctionnalités de recherche IA. L’application repose sur des bases solides, mais devrait selon lui être davantage peaufinée pour être vraiment pratique

  • Un intervenant explique qu’il utilise un programme appelé Recoll pour rechercher divers types de fichiers. Il met en avant la possibilité de retrouver des documents MS-Word stockés dans des dossiers Thunderbird et d’ouvrir des PDF en double-cliquant

  • Un commentaire mentionne un problème empêchant le téléchargement et estime que l’outil serait utile dans un environnement où Windows Search ne fonctionne pas à cause du volume trop important d’archives électroniques. Il insiste sur la nécessité de gérer les fichiers électroniques

  • Un utilisateur partage la photo de son chien en plaisantant sur le fait qu’il n’utiliserait pas un programme nommé Labrador Retriever

  • Un commentaire indique qu’il s’agissait d’une tentative de reproduire des fonctions similaires à Microsoft SharePoint, et souligne que convaincre des entreprises centrées sur MS posait un problème commercial. Il demande aussi s’il serait possible de construire un produit au-dessus de SharePoint

  • Un intervenant signale que le lien de téléchargement ne fonctionne pas et suggère qu’un projet dont la principale valeur est l’interface graphique devrait inclure des captures d’écran

  • Un commentaire propose, pour des recherches de fichiers complexes, d’utiliser une extension de duckdb permettant d’exécuter du SQL sur le système de fichiers

  • Un utilisateur demande des recommandations pour une application capable de rechercher dans Google Drive, GitHub, GitLab, Box.com et les fichiers locaux

  • Un commentaire remercie pour le passage en open source, tout en pointant une documentation insuffisante. L’auteur explique être en train de construire un système de documentation par IA et demande l’autorisation de rédiger la documentation et d’ouvrir une PR. Il présente le projet AkiraDocs