Meta dévoile Megabyte, une architecture de modèle d’IA innovante

xguru · 2023-05-26T10:02:01+09:00

Une architecture capable de dépasser celle des transformeurs utilisés par des modèles comme GTP-4, avec un traitement plus efficace, plus parallélisé et plus facilement scalable Les transformeurs sont adaptés aux séquences courtes, mais leur extension à de longues séquences de plus d’un million de tokens, comme des images haute résolution, des podcasts, du code ou des livres, reste difficile Megabyte est une architecture de décodeur multi-échelle capable de modéliser des séquences de plus d’un million d’éléments Les séquences d’entrée et de sortie sont découpées en patches plutôt qu’en tokens individuels Un modèle d’IA local génère les résultats pour chaque patch, tandis qu’un modèle global gère et coordonne ces patches Selon les tests, le modèle Megabyte utilisant 1,5 milliard (1.5B) de paramètres construit les séquences 40 % plus rapidement qu’un modèle transformeur fonctionnant avec 350 millions (350M) de paramètres Les tests montrent aussi qu’il peut aller jusqu’à 1.2M tokens, bien au-delà des 32 000 tokens de GPT-4 et des 100 000 tokens de Claude

(artisana.ai)

14 points par xguru 2023-05-26 | 2 commentaires | Partager sur WhatsApp

Une architecture capable de dépasser celle des transformeurs utilisés par des modèles comme GTP-4, avec un traitement plus efficace, plus parallélisé et plus facilement scalable
Les transformeurs sont adaptés aux séquences courtes, mais leur extension à de longues séquences de plus d’un million de tokens, comme des images haute résolution, des podcasts, du code ou des livres, reste difficile
Megabyte est une architecture de décodeur multi-échelle capable de modéliser des séquences de plus d’un million d’éléments
- Les séquences d’entrée et de sortie sont découpées en patches plutôt qu’en tokens individuels
- Un modèle d’IA local génère les résultats pour chaque patch, tandis qu’un modèle global gère et coordonne ces patches
Selon les tests, le modèle Megabyte utilisant 1,5 milliard (1.5B) de paramètres construit les séquences 40 % plus rapidement qu’un modèle transformeur fonctionnant avec 350 millions (350M) de paramètres
Les tests montrent aussi qu’il peut aller jusqu’à 1.2M tokens, bien au-delà des 32 000 tokens de GPT-4 et des 100 000 tokens de Claude

2 commentaires

ninebow 2023-05-27

Article d’introduction à Megabyte, rédigé par ENCORD, une startup spécialisée dans le développement d’infrastructures et d’outils d’IA, traduit ci-dessous avec autorisation. :)

https://discuss.pytorch.kr/t/…

cosine20 2023-05-27

Le lien vers l’article est également dans le corps du texte, mais voici le lien vers le papier : https://arxiv.org/abs/2305.07185

Meta dévoile Megabyte, une architecture de modèle d’IA innovante

À lire aussi

2 commentaires