12 points par xguru 2021-07-21 | 1 commentaires | Partager sur WhatsApp
  • Basé sur Rust + Tantivy (un open source similaire à Apache Lucene, implémenté en Rust, avec prise en charge du tokenizer coréen)

  • Conçu pour bien indexer de très grands jeux de données

→ Séparation du compute et du storage : permet de rechercher dans des stockages comme S3

→ Gestion facile des clusters de recherche : ajout/suppression d’instances en quelques secondes

  • Fonctionnalités prises en charge

→ CLI simple pour la gestion des index et des clusters

→ Index locaux/distants

→ Instances stateless

→ Utilisable avec n’importe quel object storage prenant en charge les requêtes Byte Range

→ Recherche full text (y compris les Phrase Query)

→ Prise en charge intégrée du partitionnement temporel

→ Prise en charge des requêtes booléennes

→ Prise en charge des types de données text, i64, f64, date, bytes, ainsi que des types composites object et array

1 commentaires

 
xguru 2021-07-21

La façon dont ils ont réussi à le rendre aussi rentable est expliquée dans l’article de présentation sur leur blog.

Quand j’avais présenté auparavant " Bayard - serveur de recherche et d’indexation en texte intégral implémenté en Rust https://fr.news.hada.io/topic?id=841 ", Tantivy n’avait pas encore de tokenizer coréen, mais il a été ajouté depuis.

https://github.com/lindera-morphology/lindera-ko-dic-builder

tokenizer coréen