Comprendre le tokenizer de GPT

xguru · 2023-06-12T10:57:14+09:00

Les modèles de LLM comme GPT/LLaMA/PaLM fonctionnent sur la base de tokens Ils prennent du texte en entrée, le convertissent en tokens (integers), puis prédisent quel token viendra ensuite OpenAI a publié son Tokenizer, mais l’auteur a aussi publié sa propre version sous forme de notebook Observable (à visée pédagogique, basée sur GPT-2) Prend en charge la conversion texte-vers-tokens, tokens-vers-texte, ainsi que la recherche dans la table complète des tokens The dog eats the apples El perro come las manzanas 片仮名 Explication à partir du résultat de la conversion en tokens des phrases ci-dessus The et the sont des tokens différents De nombreux mots correspondent à des tokens incluant un espace initial (bien plus efficace pour l’encodage de phrases complètes) Les mots autres qu’anglais sont tokenisés de manière inefficace

(simonwillison.net)

15 points par xguru 2023-06-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les modèles de LLM comme GPT/LLaMA/PaLM fonctionnent sur la base de tokens
Ils prennent du texte en entrée, le convertissent en tokens (integers), puis prédisent quel token viendra ensuite
OpenAI a publié son Tokenizer, mais l’auteur a aussi publié sa propre version sous forme de notebook Observable (à visée pédagogique, basée sur GPT-2)
- Prend en charge la conversion texte-vers-tokens, tokens-vers-texte, ainsi que la recherche dans la table complète des tokens
The dog eats the apples
El perro come las manzanas
片仮名
Explication à partir du résultat de la conversion en tokens des phrases ci-dessus
- The et the sont des tokens différents
- De nombreux mots correspondent à des tokens incluant un espace initial (bien plus efficace pour l’encodage de phrases complètes)
- Les mots autres qu’anglais sont tokenisés de manière inefficace

Comprendre le tokenizer de GPT

À lire aussi

Aucun commentaire pour le moment.