- Byte Latent Transformer (BLT) est une nouvelle architecture de grand modèle de langage (LLM) au niveau des octets, qui atteint les mêmes performances que les modèles fondés sur la tokenisation tout en améliorant fortement l’efficacité en inférence et la robustesse
- Les octets sont encodés en patchs de taille dynamique, qui deviennent l’unité principale de calcul
- Segmentation dynamique des patchs : alloue davantage de ressources de calcul aux données complexes en fonction de l’entropie de l’octet suivant
- Première étude de mise à l’échelle contrôlée par FLOP pour un modèle fondé sur les octets :
- Mise à l’échelle jusqu’à 8B (8 milliards) de paramètres et 4 billions (4T) d’octets d’entraînement
- Validation de la possibilité d’entraîner le modèle sur des octets bruts sans nécessiter de vocabulaire fixe
Principaux résultats
- Entraînement et inférence efficaces :
- Réduit le volume de calcul en choisissant des patchs longs lorsque les données sont prévisibles
- Le modèle ajuste dynamiquement les patchs selon la complexité afin d’optimiser les ressources
- Amélioration de la mise à l’échelle :
- À coût d’inférence fixe, de meilleures performances que les modèles fondés sur la tokenisation
- Efficacité de scaling obtenue en augmentant simultanément la taille des patchs et celle du modèle
- Amélioration qualitative des performances :
- Meilleures capacités de raisonnement et de généralisation : amélioration qualitative dans le raisonnement et le traitement des données rares (long-tail)
- Dépasse les limites des approches fondées sur un vocabulaire fixe
Portée
- BLT traite des octets bruts sans tokenisation tout en démontrant l’efficacité de l’apprentissage sur de grands volumes de données et avec de grands modèles
- Il offre de meilleures performances au regard du coût d’inférence et suggère le potentiel de la prochaine génération de LLM au niveau des octets
- En particulier, pour les données complexes, l’approche par patchs dynamiques pourrait s’imposer comme un nouveau standard de modélisation adaptative
1 commentaires
Commentaires sur Hacker News
L’été où BERT est sorti, je travaillais dans une startup qui faisait de la classification avec un modèle CNN basé sur les caractères. Les membres de l’équipe s’intéressaient aux word vectors, mais je pensais que le grand nombre de mots hors vocabulaire pouvait mener à un échec
La hiérarchie est intéressante, mais c’est dommage qu’il n’y ait que deux niveaux. Empiler davantage de niveaux pourrait être une piste de recherche
Un petit modèle est utilisé pour générer les patchs en prédisant la probabilité du caractère suivant dans la chaîne d’entrée
Le sampling est l’un des points difficiles des LLM, mais il permet aussi des usages intéressants, comme forcer une sortie toujours valide en JSON ou ajuster la température pour obtenir différentes distributions
Une question se pose : l’IA peut-elle être préentraînée sur des fichiers binaires ?
Une autre question est de savoir s’il est possible de rendre la tokenisation implicite pour ne fournir au modèle que des octets (ou des caractères)
Citation connexe de Karpathy : la tokenisation est au cœur d’une grande partie des bizarreries des LLM
Il s’agit d’un modèle composé de 3 éléments
Méthode de regroupement des octets
Il présente des avantages par rapport à la tokenisation byte pair actuelle des LLM
Je pensais qu’on devait entrer dans une phase de stagnation