- MVDRAM est un système qui accélère les opérations GeMV pour l’inférence de LLM low-bit en utilisant de la DRAM non modifiée
- Il exploite la DRAM comme moteur GeMV afin d’offrir un débit élevé
- Il élimine les coûts de pré-arrangement des entrées et de basculement des bits de sortie des approches PUD existantes
- Les résultats expérimentaux montrent des performances supérieures aux implémentations sur processeur pour les LLM low-bit
- Il ouvre de nouvelles perspectives pour le matériel IA
MVDRAM : accélération des LLM low-bit à partir de DRAM non modifiée
- Les opérations GeMV restent un goulot d’étranglement majeur en matière de latence pour l’inférence des grands modèles de langage (LLM)
- Le Processing-Using-DRAM (PUD) présente le potentiel de réutiliser la DRAM comme moteur GeMV
- Toutefois, l’application du PUD au pipeline d’inférence des LLM entraîne une surcharge importante
L’approche innovante de MVDRAM
- MVDRAM coordonne le processeur et la DRAM en exploitant les motifs de partage des données et la linéarité mathématique
- Il accélère les opérations GeMV en supprimant les coûts des approches PUD existantes
Résultats expérimentaux
- Dans des expériences utilisant quatre modules DRAM DDR4, MVDRAM surpasse les implémentations sur processeur pour les LLM low-bit (4 bits et moins)
- Il atteint jusqu’à 7,29x d’accélération et 30,5x d’efficacité énergétique
Amélioration globale de l’inférence des LLM
- Sur des modèles low-bit quantifiés en 2 bits et 4 bits, il montre respectivement des gains de débit de 2,18x et 1,31x
- L’efficacité énergétique progresse également de 3,04x et 2,35x respectivement
Nouvelles possibilités pour le matériel IA
- MVDRAM démontre qu’il est possible d’exploiter de la DRAM standard comme accélérateur pour LLM
- Il pourrait ouvrir de nouveaux horizons pour le matériel IA
1 commentaires
Commentaires Hacker News
Il y a des informations sur l’une des premières propositions de calcul dans la DRAM
Quelqu’un a remarqué que les listes d’auteurs des références 1 et 3 sont très longues
Il est possible d’obtenir un traitement massivement parallèle en émettant délibérément des commandes DRAM qui violent les paramètres de temporisation spécifiés par le fabricant
L’idée est très originale et créative
Exploiter des bugs dans le monde du matériel peut être dangereux
Des opérations matricielles sont effectuées directement dans la DRAM elle-même
Il y a une mention de la multiplication générale matrice-vecteur (GeMV)
Un avis souligne qu’il n’est pas scientifique de ne pas citer la source originale d’Intelligent RAM (IRAM) de 1997
Quelqu’un se demande si la multiplication matricielle et d’autres opérations pourraient passer des CPU traditionnels à la DRAM
Cela pourrait être une excellente façon de créer des dispositifs d’inférence bon marché pour les grands LLM