1 points par GN⁺ 2025-05-06 | 1 commentaires | Partager sur WhatsApp
  • MVDRAM est un système qui accélère les opérations GeMV pour l’inférence de LLM low-bit en utilisant de la DRAM non modifiée
  • Il exploite la DRAM comme moteur GeMV afin d’offrir un débit élevé
  • Il élimine les coûts de pré-arrangement des entrées et de basculement des bits de sortie des approches PUD existantes
  • Les résultats expérimentaux montrent des performances supérieures aux implémentations sur processeur pour les LLM low-bit
  • Il ouvre de nouvelles perspectives pour le matériel IA

MVDRAM : accélération des LLM low-bit à partir de DRAM non modifiée

  • Les opérations GeMV restent un goulot d’étranglement majeur en matière de latence pour l’inférence des grands modèles de langage (LLM)
  • Le Processing-Using-DRAM (PUD) présente le potentiel de réutiliser la DRAM comme moteur GeMV
  • Toutefois, l’application du PUD au pipeline d’inférence des LLM entraîne une surcharge importante

L’approche innovante de MVDRAM

  • MVDRAM coordonne le processeur et la DRAM en exploitant les motifs de partage des données et la linéarité mathématique
  • Il accélère les opérations GeMV en supprimant les coûts des approches PUD existantes

Résultats expérimentaux

  • Dans des expériences utilisant quatre modules DRAM DDR4, MVDRAM surpasse les implémentations sur processeur pour les LLM low-bit (4 bits et moins)
  • Il atteint jusqu’à 7,29x d’accélération et 30,5x d’efficacité énergétique

Amélioration globale de l’inférence des LLM

  • Sur des modèles low-bit quantifiés en 2 bits et 4 bits, il montre respectivement des gains de débit de 2,18x et 1,31x
  • L’efficacité énergétique progresse également de 3,04x et 2,35x respectivement

Nouvelles possibilités pour le matériel IA

  • MVDRAM démontre qu’il est possible d’exploiter de la DRAM standard comme accélérateur pour LLM
  • Il pourrait ouvrir de nouveaux horizons pour le matériel IA

1 commentaires

 
GN⁺ 2025-05-06
Commentaires Hacker News
  • Il y a des informations sur l’une des premières propositions de calcul dans la DRAM

    • Il existe une première démonstration utilisant des composants commerciaux
    • L’implémentation est réalisée à l’aide d’un outil appelé DRAM Bender
    • Il existe un article sur les avancées récentes du traitement dans la DRAM
  • Quelqu’un a remarqué que les listes d’auteurs des références 1 et 3 sont très longues

    • Il y avait des attentes concernant un article de 2016, mais il n’est pas inclus
    • Un article de 2019 est inclus
    • Le comportement hors spécifications de la DRAM, en particulier les fonctions de copie, est lié à un bug tristement célèbre
  • Il est possible d’obtenir un traitement massivement parallèle en émettant délibérément des commandes DRAM qui violent les paramètres de temporisation spécifiés par le fabricant

    • Cela constitue un défi pour les blobs binaires utilisés pour l’entraînement de la DRAM
  • L’idée est très originale et créative

    • Il peut être gratifiant de travailler dans les détails
  • Exploiter des bugs dans le monde du matériel peut être dangereux

    • Dans le monde du logiciel, il n’est pas souhaitable d’activer des fonctionnalités en exploitant des bugs de la plateforme
    • Si ces bugs sont corrigés, le système peut se comporter de manière inattendue
  • Des opérations matricielles sont effectuées directement dans la DRAM elle-même

    • C’est une idée très intéressante et surprenante
  • Il y a une mention de la multiplication générale matrice-vecteur (GeMV)

    • Certaines personnes manquent de compréhension mathématique
    • Les quaternions sont devenus populaires parce qu’ils sont moins complexes sur le plan du calcul que les matrices
    • Quelqu’un se demande s’il existe des exemples de LLM construits avec des quaternions
  • Un avis souligne qu’il n’est pas scientifique de ne pas citer la source originale d’Intelligent RAM (IRAM) de 1997

  • Quelqu’un se demande si la multiplication matricielle et d’autres opérations pourraient passer des CPU traditionnels à la DRAM

    • Il y a une question sur le point de savoir si ce déplacement du traitement pourrait avantager Samsung et d’autres acteurs
    • On s’interroge aussi sur ce qu’il adviendrait de NVIDIA et des autres
  • Cela pourrait être une excellente façon de créer des dispositifs d’inférence bon marché pour les grands LLM