-
Basé sur Rust + Tantivy (un open source similaire à Apache Lucene, implémenté en Rust, avec prise en charge du tokenizer coréen)
-
Conçu pour bien indexer de très grands jeux de données
→ Séparation du compute et du storage : permet de rechercher dans des stockages comme S3
→ Gestion facile des clusters de recherche : ajout/suppression d’instances en quelques secondes
- Fonctionnalités prises en charge
→ CLI simple pour la gestion des index et des clusters
→ Index locaux/distants
→ Instances stateless
→ Utilisable avec n’importe quel object storage prenant en charge les requêtes Byte Range
→ Recherche full text (y compris les Phrase Query)
→ Prise en charge intégrée du partitionnement temporel
→ Prise en charge des requêtes booléennes
→ Prise en charge des types de données text, i64, f64, date, bytes, ainsi que des types composites object et array
1 commentaires
La façon dont ils ont réussi à le rendre aussi rentable est expliquée dans l’article de présentation sur leur blog.
Quickwit: A highly cost-efficient search engine in Rust https://quickwit.io/blog/quickwit-first-release/
Tantivy https://github.com/tantivy-search/tantivy
Quand j’avais présenté auparavant " Bayard - serveur de recherche et d’indexation en texte intégral implémenté en Rust https://fr.news.hada.io/topic?id=841 ", Tantivy n’avait pas encore de tokenizer coréen, mais il a été ajouté depuis.
https://github.com/lindera-morphology/lindera-ko-dic-builder
tokenizer coréen