Comprendre le tokenizer de GPT
(simonwillison.net)- Les modèles de LLM comme GPT/LLaMA/PaLM fonctionnent sur la base de tokens
- Ils prennent du texte en entrée, le convertissent en tokens (integers), puis prédisent quel token viendra ensuite
- OpenAI a publié son Tokenizer, mais l’auteur a aussi publié sa propre version sous forme de notebook Observable (à visée pédagogique, basée sur GPT-2)
- Prend en charge la conversion texte-vers-tokens, tokens-vers-texte, ainsi que la recherche dans la table complète des tokens
-
The dog eats the apples
El perro come las manzanas
片仮名 - Explication à partir du résultat de la conversion en tokens des phrases ci-dessus
Theetthesont des tokens différents- De nombreux mots correspondent à des tokens incluant un espace initial (bien plus efficace pour l’encodage de phrases complètes)
- Les mots autres qu’anglais sont tokenisés de manière inefficace
Aucun commentaire pour le moment.