- Une architecture capable de dépasser celle des transformeurs utilisés par des modèles comme GTP-4, avec un traitement plus efficace, plus parallélisé et plus facilement scalable
- Les transformeurs sont adaptés aux séquences courtes, mais leur extension à de longues séquences de plus d’un million de tokens, comme des images haute résolution, des podcasts, du code ou des livres, reste difficile
- Megabyte est une architecture de décodeur multi-échelle capable de modéliser des séquences de plus d’un million d’éléments
- Les séquences d’entrée et de sortie sont découpées en
patches plutôt qu’en tokens individuels
- Un modèle d’IA local génère les résultats pour chaque patch, tandis qu’un modèle global gère et coordonne ces patches
- Selon les tests, le modèle Megabyte utilisant 1,5 milliard (1.5B) de paramètres construit les séquences 40 % plus rapidement qu’un modèle transformeur fonctionnant avec 350 millions (350M) de paramètres
- Les tests montrent aussi qu’il peut aller jusqu’à 1.2M tokens, bien au-delà des 32 000 tokens de GPT-4 et des 100 000 tokens de Claude
2 commentaires
Article d’introduction à Megabyte, rédigé par ENCORD, une startup spécialisée dans le développement d’infrastructures et d’outils d’IA, traduit ci-dessous avec autorisation. :)
https://discuss.pytorch.kr/t/…
Le lien vers l’article est également dans le corps du texte, mais voici le lien vers le papier : https://arxiv.org/abs/2305.07185