15 points par xguru 2023-06-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Les modèles de LLM comme GPT/LLaMA/PaLM fonctionnent sur la base de tokens
  • Ils prennent du texte en entrée, le convertissent en tokens (integers), puis prédisent quel token viendra ensuite
  • OpenAI a publié son Tokenizer, mais l’auteur a aussi publié sa propre version sous forme de notebook Observable (à visée pédagogique, basée sur GPT-2)
    • Prend en charge la conversion texte-vers-tokens, tokens-vers-texte, ainsi que la recherche dans la table complète des tokens
  • The dog eats the apples
    El perro come las manzanas
    片仮名

  • Explication à partir du résultat de la conversion en tokens des phrases ci-dessus
    • The et the sont des tokens différents
    • De nombreux mots correspondent à des tokens incluant un espace initial (bien plus efficace pour l’encodage de phrases complètes)
    • Les mots autres qu’anglais sont tokenisés de manière inefficace

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.