[Traduction] Explication de Megabyte de Meta AI

(discuss.pytorch.kr)

12 points par ninebow 2023-05-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Présentation de l’architecture principale de MegaByte
- Patch Embedder : encode l’entrée et la découpe en patchs
- Global Module : transformeur autorégressif qui effectue la self-attention
- Local Module : prédit le patch suivant à partir de l’entrée reçue du modèle global
Présentation du Multiscale Transformer
Présentation de l’Autoregressive Transformer
Problèmes des modèles actuels : tokenization, scalabilité, vitesse de génération
Solutions proposées
- self-attention dont le coût de calcul est réduit à O(N^(4/3))
- application de la couche feed-forward au niveau des patchs
- traitement parallèle lors du décodage
(En plus) Dernières actualités de Meta AI
- SAM : https://fr.news.hada.io/topic?id=8893
- MTIA : https://fr.news.hada.io/topic?id=9246
- DINOv2 : https://fr.news.hada.io/topic?id=9269
- ImageBIND : https://fr.news.hada.io/topic?id=9156
- (Absent de l’article, mais à noter) MMS : https://fr.news.hada.io/topic?id=9245
- (Là encore absent de l’article) LIMA : https://fr.news.hada.io/topic?id=9239

À lire aussi