14 points par xguru 2023-05-26 | 2 commentaires | Partager sur WhatsApp
  • Une architecture capable de dépasser celle des transformeurs utilisés par des modèles comme GTP-4, avec un traitement plus efficace, plus parallélisé et plus facilement scalable
  • Les transformeurs sont adaptés aux séquences courtes, mais leur extension à de longues séquences de plus d’un million de tokens, comme des images haute résolution, des podcasts, du code ou des livres, reste difficile
  • Megabyte est une architecture de décodeur multi-échelle capable de modéliser des séquences de plus d’un million d’éléments
    • Les séquences d’entrée et de sortie sont découpées en patches plutôt qu’en tokens individuels
    • Un modèle d’IA local génère les résultats pour chaque patch, tandis qu’un modèle global gère et coordonne ces patches
  • Selon les tests, le modèle Megabyte utilisant 1,5 milliard (1.5B) de paramètres construit les séquences 40 % plus rapidement qu’un modèle transformeur fonctionnant avec 350 millions (350M) de paramètres
  • Les tests montrent aussi qu’il peut aller jusqu’à 1.2M tokens, bien au-delà des 32 000 tokens de GPT-4 et des 100 000 tokens de Claude

2 commentaires

 
ninebow 2023-05-27

Article d’introduction à Megabyte, rédigé par ENCORD, une startup spécialisée dans le développement d’infrastructures et d’outils d’IA, traduit ci-dessous avec autorisation. :)

https://discuss.pytorch.kr/t/…

 
cosine20 2023-05-27

Le lien vers l’article est également dans le corps du texte, mais voici le lien vers le papier : https://arxiv.org/abs/2305.07185