2 points par GN⁺ 2025-04-26 | 1 commentaires | Partager sur WhatsApp
  • DFloat11 est un framework de compression sans perte qui réduit de 30 % la taille des grands modèles de langage (LLM) tout en conservant une sortie bit à bit identique à celle du modèle d’origine
  • Il améliore l’inefficacité des formats de stockage existants en exploitant la faible entropie de la représentation des poids BFloat16
  • Pour une inférence efficace sur GPU, des kernels GPU personnalisés ont été développés afin de prendre en charge une décompression en ligne rapide
  • Des expériences sur des modèles récents tels que Llama-3.1, Qwen-2.5, Gemma-3 ont validé une réduction de 30 % de la taille du modèle et le maintien exact des sorties
  • Avec un budget mémoire GPU fixe, cela permet des longueurs de contexte 5,3 à 13,17 fois plus grandes que les modèles non compressés

70 % de taille, 100 % de précision : compression sans perte des LLM pour une inférence GPU efficace

  • La taille des grands modèles de langage (LLM) augmente rapidement, ce qui constitue un défi majeur pour un déploiement efficace sur du matériel aux ressources limitées
  • Dynamic-Length Float (DFloat11) est un framework de compression sans perte qui réduit de 30 % la taille des LLM tout en conservant des sorties bit à bit identiques
  • Il améliore l’inefficacité des formats de stockage existants en exploitant la faible entropie de la représentation des poids BFloat16
  • En appliquant un codage entropique, il attribue aux poids un encodage à longueur dynamique selon leur fréquence afin d’obtenir une compression optimale du point de vue de l’information
  • Pour une inférence efficace, des kernels GPU personnalisés ont été développés afin de prendre en charge une décompression en ligne rapide

Conception de DFloat11

  • Il décompose les tables de correspondance (LUT) gourmandes en mémoire en LUT compressées adaptées à la SRAM des GPU
  • Il développe un kernel en deux étapes utilisant des variables auxiliaires légères pour ajuster les positions de lecture/écriture des threads
  • Il minimise la latence grâce à une décompression au niveau des blocs du transformeur

Résultats expérimentaux

  • Sur des modèles récents tels que Llama-3.1, Qwen-2.5 et Gemma-3, DFloat11 a validé une réduction de 30 % de la taille du modèle et le maintien exact des sorties
  • Par rapport à l’alternative consistant à déporter une partie du modèle non compressé vers le CPU, il atteint un débit 1,9 à 38,8 fois supérieur
  • Avec un budget mémoire GPU fixe, il permet des longueurs de contexte 5,3 à 13,17 fois plus grandes que les modèles non compressés

Avantages de DFloat11

  • Il permet une inférence sans perte de Llama-3.1-405B, modèle de 810GB, sur un nœud unique équipé de 8x80GB GPU
  • Le code et les modèles sont fournis via une URL publique

1 commentaires

 
GN⁺ 2025-04-26
Commentaires sur Hacker News
  • La grande plage dynamique de bfloat16 est en grande partie inutilisée

    • les gens préfèrent des hyperparamètres comme 0.01
    • multiplier tous les éléments du réseau par 10^6 ne change pas grand-chose
    • l'entropie typique des valeurs bfloat16 est de 10 à 12 bits
    • le signe et les bits de mantisse sont du bruit incompressible
    • des techniques de compression sans perte sont utilisées dans le labo de Martin Burtscher, fpzip du LLNL, dietgpu de Facebook, etc.
    • rANS est plus efficace que le codage de Huffman sur les jeux d'instructions SIMD
  • Possibilité d'exécuter un modèle à 405B paramètres sur un seul nœud

    • offre une grande opportunité pour les laboratoires de recherche et les startups
  • Reconnaissance pour les progrès rapides des modèles de ML/transformers

    • curiosité sur la manière dont llama.cpp exploite cublas
  • Une fois la guerre des formats de poids terminée, le matériel pourra les prendre en charge

    • besoin d'un matériel de multiplication matricielle adapté au format de poids optimal
  • Dans les cas d'usage réels d'agents, il est difficile d'équilibrer qualité, coût et performances

    • dfloat11 pourrait aider à réduire les coûts
  • Travaille chez xmad.ai

  • Le rythme des avancées technologiques est rapide

    • intérêt pour les gains d'efficacité
  • DFloat11 offre un débit 1,9 à 38,8 fois supérieur à l'offloading d'un modèle non compressé vers le CPU

    • permet des longueurs de contexte plus importantes avec un budget mémoire GPU fixe
  • Question sur le fait de savoir si les LLM sont limités par la bande passante mémoire

  • A découvert une méthode pour compresser davantage les images avec des LLM

    • prévoit de publier un white paper connexe
  • Question sur la différence avec ZipNN

    • difficile de comprendre si c'est la base, si c'est différent, ou si c'est meilleur
  • Pense qu'utiliser le ternaire au lieu du binaire pourrait permettre un meilleur taux de compression