Llama 4 est le modèle open source le plus adapté au coréen.
(blog.sionic.ai)Selon l’équipe de recherche de Sionic AI, Llama 4, dévoilé dimanche dernier par Meta, est le modèle open source le plus adapté au coréen.
On constate que la configuration du tokenizer de Llama 4 s’est nettement améliorée du point de vue de l’expression en coréen : elle est 2,5 fois supérieure à celle de Llama 3.3, et progresse aussi fortement par rapport à Qwen, qui affichait jusqu’ici le meilleur niveau de prise en charge du coréen.
Comprendre ces tokens BPE coréens peut aider directement à l’implémentation sur divers appareils (NPU, GPU, FPGA) ainsi qu’aux stratégies de génération de tokens à bas niveau nécessitant de hautes performances. Cela peut notamment résoudre les problèmes de génération d’une langue incohérente, comme du chinois.
Sionic Llama4 Token Editor est un outil qui analyse les tokenizers des modèles des familles Llama et Qwen, et permet d’ajuster le poids de certaines catégories de tokens.
- Classification des tokens : il effectue une analyse exhaustive et classe les tokens en différentes catégories comme le coréen, l’anglais et les caractères spéciaux.
- Ajustement des poids : à partir de la liste de tokens analysés, il est possible d’augmenter ou de diminuer la log-probabilité des tokens coréens, ce qui peut avoir un impact direct sur les résultats générés par le modèle.
- Sortie JSON et texte : il enregistre l’ensemble des résultats de l’analyse dans un fichier JSON et produit séparément, dans des fichiers texte, la liste des ID de tokens classifiés ainsi que celle des ID de tokens non classifiés.
Le dépôt GitHub est disponible ici.
https://github.com/sionic-ai/Llama4-Token-Editor
Aucun commentaire pour le moment.