- Tokenizer haute performance 100 % compatible avec TikToken d’OpenAI, offrant plus de 2 fois le débit et une tokenisation de code 4 fois plus rapide pour le traitement de grands volumes de texte
- Moteur d’analyse d’expressions régulières haute vitesse basé sur PCRE2 pour maximiser la rapidité de correspondance des motifs de tokens
- Algorithme BPE simplifié afin de minimiser la baisse de performance lors du traitement de grands volumes de special tokens
- Dans des benchmarks réels, la tokenisation de code est plus de 4 fois plus rapide, et il peut être utilisé en remplacement direct du code existant basé sur TikToken
- Compatible avec Python 3.8+, installation simple via PyPI avec
pip install tokendagger, avec une dépendance à PCRE2
1 commentaires
Avis Hacker News