- Taille d’installation de base de 21 Mo, soit 80 à 171 Mo de moins que les bibliothèques alternatives
- Vitesse de chunking par tokens 33 fois plus rapide que d’autres bibliothèques populaires
- Prise en charge de diverses stratégies de chunking, dont les tokens, les mots, les phrases, le sémantique et le SDPM
- Compatible avec les principaux tokenizers, dont
transformers, tokenizers et tiktoken
- Aucune dépendance externe pour les fonctionnalités de base
Optimisations techniques
- Utilise
tiktoken, qui prend en charge le multithreading, pour une tokenisation plus rapide
- Mise en œuvre d’un caching agressif et de précalculs
- Utilise le Running Mean Pooling pour un chunking sémantique efficace
- Système de dépendances modulaire permettant d’installer uniquement ce qui est nécessaire
Aucun commentaire pour le moment.