1 points par GN⁺ 2024-09-08 | 1 commentaires | Partager sur WhatsApp

LLM accélérés matériellement : étude complète et comparaison

  • Les LLM se sont imposés comme des outils puissants pour les tâches de traitement du langage naturel, révolutionnant le domaine par leur capacité à comprendre et générer du texte de type humain
  • Cet article propose une étude complète de plusieurs efforts de recherche sur l’accélération des réseaux Transformer pour les grands modèles de langage à l’aide d’accélérateurs matériels

Framework et comparaison

  • Il présente le framework proposé et réalise des comparaisons qualitatives et quantitatives sur les technologies, les plateformes de traitement (FPGA, ASIC, In-Memory, GPU), les gains de vitesse, l’efficacité énergétique, les performances (GOPs) et l’efficacité énergétique (GOPs/W)
  • Le principal défi est que chaque schéma proposé est implémenté avec une technologie de fabrication différente, ce qui rend une comparaison équitable difficile
  • La contribution majeure de cet article est d’estimer les résultats de performance et d’efficacité énergétique dans une même technologie afin de permettre une comparaison équitable

Expériences et résultats

  • En implémentant certaines parties des LLM sur plusieurs puces FPGA, l’étude estime les résultats dans une même technologie de fabrication et compare équitablement les performances

Le résumé de GN⁺

  • Cet article fournit une étude complète de l’accélération matérielle des grands modèles de langage (LLM)
  • Il compare les performances et l’efficacité énergétique sur différentes plateformes de traitement afin de permettre une comparaison équitable
  • Il estime, via des expériences sur des puces FPGA, les résultats dans une même technologie
  • Il peut être utile aux personnes intéressées par l’amélioration des performances des LLM dans le domaine du traitement du langage naturel
  • Parmi les autres projets aux fonctions similaires figurent les accélérateurs GPU de NVIDIA et les TPU de Google

1 commentaires

 
GN⁺ 2024-09-08
Commentaire Hacker News
  • Depuis les années 1990, la vitesse des CPU a progressé plus vite que la bande passante mémoire

    • William Wulf et Sally McKee ont prédit le « mur de la mémoire » en 1995
    • Au cours des 20 dernières années, les FLOPS du matériel serveur ont été multipliés par 3 tous les deux ans, tandis que la bande passante de la DRAM et des interconnexions n’a progressé que d’un facteur 1,6 et 1,4 respectivement
    • Dans l’entraînement et l’inférence des LLM, le goulet d’étranglement des performances se déplace de plus en plus vers la bande passante mémoire
    • En particulier, dans les modèles décodeurs Transformer autorégressifs, la bande passante mémoire peut devenir le principal goulet d’étranglement
    • De nouvelles technologies comme le compute-in-memory (CIM) ou le processing-in-memory (PIM) deviennent nécessaires
    • Le CIM/PIM améliore la latence et la consommation électrique en effectuant les calculs directement dans la mémoire, sans transférer les données vers les registres du CPU
    • L’article estime les performances en procédé 16 nm afin de comparer le matériel ASIC et FPGA sur différentes tailles de procédés de fabrication des semi-conducteurs
    • Il ne propose pas d’estimation pour le CIM/PIM, car les performances ne dépendent pas uniquement de la technologie de gravure
    • Plus d’informations sont disponibles via les liens ci-dessous
  • Préférence personnelle pour les systolic arrays

    • Après avoir étudié plusieurs options pendant des décennies, le choix s’est porté sur une grille cartésienne de cellules comme solution optimale
    • Chaque cellule possède 4 bits d’entrée et 4 bits de sortie, avec au centre un registre à décalage de 64 bits
    • Grâce à la magie de la coloration de graphe, toutes les cellules peuvent être cadencées pour permettre aux données de circuler dans n’importe quelle direction
    • Cela offre la flexibilité d’un FPGA sans avoir à se soucier des problèmes de timing ou des conditions de course
    • Toutes les opérations s’exécutent en parallèle
    • Cette idée existe depuis 1982, et l’auteur aimerait que quelqu’un la mette en œuvre
    • Cette idée est appelée BitGrid
    • L’article associé est disponible ici
  • J’aimerais voir un LLM dans WebGL où tout est fait en textures

    • Ce serait amusant de voir visuellement les différences d’architecture
  • Explication du succès du LPU basé sur des ASIC de Groq

    • L’inférence LLM est très rapide sur Groq Cloud
    • La réduction de la consommation énergétique est aussi un avantage
  • Le déplacement des données en mémoire est aujourd’hui le goulet d’étranglement

    • D’où la nécessité d’une HBM coûteuse
    • Les designs de Nvidia sont eux aussi optimisés pour la mémoire
  • Je me demande si une architecture hybride FPGA + ASIC + in-memory pourrait jouer un rôle en matière de scalabilité et de flexibilité

    • On peut se demander si l’intégration des avantages de chacun (par ex. la flexibilité du FPGA, les performances de l’ASIC, l’efficacité énergétique de l’in-memory) pourrait encore améliorer les performances des LLM
  • Il existait un article sur un LLM fonctionnant avec la puissance électrique d’une ampoule

  • Je me demande s’il existe une bonne façon de lire le contenu sur Arxiv

    • L’interface du site me déroute souvent, au point que je repars sans consulter le contenu
  • Je me demande si « in-memory » désigne un matériel spécialisé combinant CPU et RAM