L’ère des LLM 1 bit : des paramètres ternaires pour un calcul plus efficace en coût

(arxiv.org)

17 points par GN⁺ 2024-02-29 | 2 commentaires | Partager sur WhatsApp

L’ère des grands modèles de langage 1 bit : tous les grands modèles de langage tiennent en 1,58 bit

Une recherche récente, BitNet, ouvre une nouvelle ère pour les grands modèles de langage (LLM) 1 bit.
Cette étude présente BitNet b1.58, une variante de LLM 1 bit dans laquelle chaque paramètre individuel (ou poids) est ternaire {-1, 0, 1}.
BitNet b1.58 atteint un niveau comparable aux LLM Transformer en pleine précision (par ex. FP16 ou BF16) de même taille de modèle et entraînés avec le même nombre de tokens, en termes de complexité et de performance finale sur les tâches, tout en étant nettement plus efficace en coût sur la latence, la mémoire, le débit et la consommation d’énergie.
Plus en profondeur, les LLM 1,58 bit définissent de nouvelles lois de scaling et de nouvelles recettes pour entraîner une nouvelle génération de LLM à la fois performants et efficaces en coût.
Ils ouvrent aussi la voie à un nouveau paradigme de calcul et à la conception d’un matériel spécifique optimisé pour les LLM 1 bit.

L’avis de GN⁺

Les LLM 1 bit permettent des calculs bien plus efficaces que les grands modèles de langage existants, avec le potentiel de réduire fortement la consommation d’énergie et les coûts dans la recherche et les applications en IA.
Pour que cette technologie soit réellement adoptée à grande échelle, les questions de compatibilité et d’intégration avec les infrastructures matérielles et logicielles existantes seront des points essentiels.
Les avantages apportés par les LLM 1 bit deviendront encore plus importants à mesure que la taille et la complexité des modèles augmenteront, ce qui les rendra particulièrement attractifs pour les développeurs souhaitant utiliser des technologies d’IA dans des environnements aux ressources limitées.
Il existe déjà dans ce domaine du matériel dédié à l’IA comme les TPU de Google, mais la conception de matériel spécialisé pour les LLM 1 bit pourrait créer de nouvelles opportunités de marché.
Les bénéfices concrets attendus de l’adoption de cette technologie sont une réduction de la consommation électrique et des coûts tout en maintenant la précision du modèle et la rapidité de réponse, mais son déploiement réel devra prendre en compte les écarts de performance avec les modèles existants, les problèmes de compatibilité et les nouvelles exigences matérielles.

2 commentaires

kuroneko 2024-02-29

C’est vraiment fascinant. Dire que c’était possible uniquement avec {-1, 0, 1}, sans virgule flottante...
J’ai hâte de voir comment cela va évoluer.

xguru 2024-02-29

Commentaires sur Hacker News

Deux découvertes frappantes issues de cette recherche :
- il est possible de remplacer les valeurs des paramètres des grands modèles de langage (LLM) classiques par des valeurs ternaires (-1, 0, 1) au lieu de nombres réels.
- dans les multiplications de matrices, les multiplications élément par élément de chaque produit scalaire peuvent être remplacées par des additions élément par élément, avec un signe qui varie selon la valeur.
- sur le matériel actuel, cette méthode améliore fortement l’efficacité de calcul et l’efficacité mémoire, sans perte de performance.
- si cette méthode est implémentée directement dans le matériel, les gains d’efficacité pourraient être encore plus importants.
Performances et efficacité de BitNet b1.58 :
- BitNet b1.58 atteint des performances comparables à celles des modèles de référence en pleine précision à partir de la taille 3B.
- cela ouvre la voie à une nouvelle loi de scaling pour les performances des modèles et le coût d’inférence.
- un BitNet b1.58 de 13B est plus efficace qu’un LLM FP16 de 3B en termes de latence, d’utilisation mémoire et de consommation énergétique.
- un BitNet b1.58 de 30B est plus efficace qu’un LLM FP16 de 7B, et un BitNet b1.58 de 70B est plus efficace qu’un LLM FP16 de 13B.
- cet article représente une percée majeure pour l’efficacité des LLM, avec des gains obtenus sans dégradation des performances.
Des questions sont soulevées sur la possibilité de convertir des modèles existants vers cette nouvelle approche, ainsi que quelques plaisanteries sur le cours de l’action NVIDIA.
Réflexion sur la nécessité de repenser le rôle des transistors dans les applications IA :
- en IA, la réduction d’entropie n’est pas un problème majeur, donc il faudrait mieux exploiter la plage de tension disponible.
- cela amène à reconsidérer le rôle des transistors et suggère que les portes NAND ne sont peut-être pas l’élément fondamental.
Référence à un billet de blog sur la représentation en virgule flottante, et interrogation sur de nouveaux modes de représentation :
- le billet explique en quoi la distinction entre +0.0 et -0.0 est utile dans le standard des nombres à virgule flottante.
- en lien avec les valeurs {-1, 0, -1} utilisées dans l’article sur les LLM, la question est posée de savoir si une représentation sur 2 bits {-1, -0, 0, 1} pourrait offrir des avantages supplémentaires.
- curiosité également concernant les valeurs de quantification sur 2 bits proposées dans d’autres articles sur la quantification des LLM.
Doute initial sur le caractère réel des résultats, puis prise de conscience de leur importance après vérification des auteurs de Microsoft Research et de l’UCAS :
- les résultats semblaient trop beaux pour être vrais, puis la vérification des auteurs a confirmé qu’ils étaient crédibles.
- cela devrait réduire non seulement les coûts des applications d’edge computing, mais aussi ceux de la fourniture de LLM haute performance dans le cloud.
- réflexion sur les effets économiques à long terme et spéculations sur l’arrivée de nouveaux concurrents.
Explication des termes « bit » et « trit », et discussion sur les possibilités théoriques du calcul ternaire :
- certains emploient le terme « trit » plutôt que « bit », avec des explications théoriques sur les promesses du calcul ternaire.
- mention de recherches soviétiques sur le calcul ternaire et de la base théoriquement idéale e.
Nouveau plan d’entraînement de modèles chez GigaML et proposition de collaboration :
- GigaML annonce son intention d’entraîner un nouveau modèle compatible avec llama.cpp.
- l’entreprise prévoit d’entraîner un petit modèle (3-4B, 1 bit, open source) sur le dataset stack-v2 et recherche des collaborateurs.
Un point de vue sceptique sur les résultats et l’importance de la reproductibilité :
- certains gardent un regard critique sur ces améliorations et rappellent les tentatives passées de quantification extrême.
Admiration devant une percée majeure dans le domaine des LLM et la possibilité de faire tourner un modèle 120B sur une seule carte :
- étonnement face au potentiel de faire tourner un modèle 120B sur une seule carte disposant de 24GB de VRAM, tout en conservant des performances et une complexité comparables à celles d’un modèle FP16.