1 points par ninebow 2024-04-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Meta a dévoilé MTIAv2, la nouvelle génération de MTIA (Meta Training and Inference Accelerator) v1, son accélérateur d’inférence IA développé en interne et présenté l’an dernier. MTIA est une puce conçue pour les charges de travail IA de Meta, en particulier les modèles de recommandation de deep learning qui améliorent diverses expériences à travers l’ensemble de ses produits. À mesure que les charges de travail IA deviennent de plus en plus importantes dans les produits et services de Meta, l’amélioration de l’efficacité de MTIA devrait renforcer sa capacité à offrir la meilleure expérience possible aux utilisateurs du monde entier.

Cette puce MTIAv2 de nouvelle génération a déjà montré des performances 3 fois supérieures à celles de la puce de première génération sur 4 modèles principaux. Au niveau de la plateforme, grâce à un nombre d’appareils multiplié par 2 et à un puissant CPU bi-socket, elle a permis d’atteindre un débit de serving de modèles 6 fois supérieur à celui du système MTIA de première génération, ainsi qu’un gain de 1,5x en performance par watt. Par rapport aux GPU commerciaux, MTIA prouve qu’il joue un rôle très complémentaire pour offrir des performances et une efficacité optimales sur les charges de travail propres à Meta.

Principales caractéristiques de MTIAv2

Les principales caractéristiques de MTIAv2 sont les suivantes :

  • plus du double de la puissance de calcul et de la bande passante mémoire par rapport à la génération précédente
  • conçu pour traiter efficacement les modèles de ranking et de recommandation
  • composé d’éléments de traitement (PE) en grille 8x8, avec des performances de calcul dense multipliées par 3,5 et des performances de calcul sparse multipliées par 7
  • stockage local des PE multiplié par 3, SRAM on-chip doublée avec une bande passante multipliée par 3,5, capacité LPDDR5 doublée
  • architecture NoC (Network on Chip) améliorée avec une bande passante doublée et une latence réduite pour la coordination entre PE

⚠️Publicité⚠️ Voir le même article sur la communauté coréenne PyTorch

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.