[Traduction] Explication de Megabyte de Meta AI
(discuss.pytorch.kr)Traduction de l’article explicatif sur Megabyte rédigé par la startup ENCORD, qui développe des outils / infrastructures IA
- Présentation de l’architecture principale de MegaByte
- Patch Embedder : encode l’entrée et la découpe en patchs
- Global Module : transformeur autorégressif qui effectue la self-attention
- Local Module : prédit le patch suivant à partir de l’entrée reçue du modèle global
- Présentation du Multiscale Transformer
- Présentation de l’Autoregressive Transformer
- Problèmes des modèles actuels : tokenization, scalabilité, vitesse de génération
- Solutions proposées
- self-attention dont le coût de calcul est réduit à O(N^(4/3))
- application de la couche feed-forward au niveau des patchs
- traitement parallèle lors du décodage
- (En plus) Dernières actualités de Meta AI
- SAM : https://fr.news.hada.io/topic?id=8893
- MTIA : https://fr.news.hada.io/topic?id=9246
- DINOv2 : https://fr.news.hada.io/topic?id=9269
- ImageBIND : https://fr.news.hada.io/topic?id=9156
- (Absent de l’article, mais à noter) MMS : https://fr.news.hada.io/topic?id=9245
- (Là encore absent de l’article) LIMA : https://fr.news.hada.io/topic?id=9239
Aucun commentaire pour le moment.