- DFloat11 est un framework de compression sans perte qui réduit de 30 % la taille des grands modèles de langage (LLM) tout en conservant une sortie bit à bit identique à celle du modèle d’origine
- Il améliore l’inefficacité des formats de stockage existants en exploitant la faible entropie de la représentation des poids BFloat16
- Pour une inférence efficace sur GPU, des kernels GPU personnalisés ont été développés afin de prendre en charge une décompression en ligne rapide
- Des expériences sur des modèles récents tels que Llama-3.1, Qwen-2.5, Gemma-3 ont validé une réduction de 30 % de la taille du modèle et le maintien exact des sorties
- Avec un budget mémoire GPU fixe, cela permet des longueurs de contexte 5,3 à 13,17 fois plus grandes que les modèles non compressés
70 % de taille, 100 % de précision : compression sans perte des LLM pour une inférence GPU efficace
- La taille des grands modèles de langage (LLM) augmente rapidement, ce qui constitue un défi majeur pour un déploiement efficace sur du matériel aux ressources limitées
- Dynamic-Length Float (DFloat11) est un framework de compression sans perte qui réduit de 30 % la taille des LLM tout en conservant des sorties bit à bit identiques
- Il améliore l’inefficacité des formats de stockage existants en exploitant la faible entropie de la représentation des poids BFloat16
- En appliquant un codage entropique, il attribue aux poids un encodage à longueur dynamique selon leur fréquence afin d’obtenir une compression optimale du point de vue de l’information
- Pour une inférence efficace, des kernels GPU personnalisés ont été développés afin de prendre en charge une décompression en ligne rapide
Conception de DFloat11
- Il décompose les tables de correspondance (LUT) gourmandes en mémoire en LUT compressées adaptées à la SRAM des GPU
- Il développe un kernel en deux étapes utilisant des variables auxiliaires légères pour ajuster les positions de lecture/écriture des threads
- Il minimise la latence grâce à une décompression au niveau des blocs du transformeur
Résultats expérimentaux
- Sur des modèles récents tels que Llama-3.1, Qwen-2.5 et Gemma-3, DFloat11 a validé une réduction de 30 % de la taille du modèle et le maintien exact des sorties
- Par rapport à l’alternative consistant à déporter une partie du modèle non compressé vers le CPU, il atteint un débit 1,9 à 38,8 fois supérieur
- Avec un budget mémoire GPU fixe, il permet des longueurs de contexte 5,3 à 13,17 fois plus grandes que les modèles non compressés
Avantages de DFloat11
- Il permet une inférence sans perte de Llama-3.1-405B, modèle de 810GB, sur un nœud unique équipé de 8x80GB GPU
- Le code et les modèles sont fournis via une URL publique
1 commentaires
Commentaires sur Hacker News
La grande plage dynamique de
bfloat16est en grande partie inutiliséebfloat16est de 10 à 12 bitsfpzipdu LLNL,dietgpude Facebook, etc.rANSest plus efficace que le codage de Huffman sur les jeux d'instructions SIMDPossibilité d'exécuter un modèle à 405B paramètres sur un seul nœud
Reconnaissance pour les progrès rapides des modèles de ML/transformers
llama.cppexploitecublasUne fois la guerre des formats de poids terminée, le matériel pourra les prendre en charge
Dans les cas d'usage réels d'agents, il est difficile d'équilibrer qualité, coût et performances
dfloat11pourrait aider à réduire les coûtsTravaille chez
xmad.aiLe rythme des avancées technologiques est rapide
DFloat11offre un débit 1,9 à 38,8 fois supérieur à l'offloading d'un modèle non compressé vers le CPUQuestion sur le fait de savoir si les LLM sont limités par la bande passante mémoire
A découvert une méthode pour compresser davantage les images avec des LLM
Question sur la différence avec
ZipNNPense qu'utiliser le ternaire au lieu du binaire pourrait permettre un meilleur taux de compression