13 points par GN⁺ 2025-04-18 | 4 commentaires | Partager sur WhatsApp
  • Des chercheurs de Microsoft ont développé BitNet b1.58 2B4T, un modèle d’IA ultra-efficace
  • Grâce à une quantification sur 1 bit, il atteint une vitesse élevée et une faible consommation mémoire, ce qui lui permet de fonctionner aussi sur CPU, et il est publié sous licence MIT
  • Il peut fonctionner sur des CPU comme l’Apple M2, sans GPU
  • Avec 2 milliards de paramètres, BitNet b1.58 2B4T surpasse les modèles de Meta, Google et Alibaba
  • En revanche, il nécessite l’usage du framework bitnet.cpp de Microsoft, et des problèmes de compatibilité avec les GPU subsistent

Le modèle d’IA 1 bit ultra-léger de Microsoft, BitNet b1.58 2B4T

Le concept du modèle ultra-léger BitNet

  • BitNet est un modèle d’IA appliquant une quantification sur 1 bit, qui représente ses paramètres avec seulement trois valeurs : -1, 0, 1
  • Les modèles quantifiés classiques sont généralement représentés en 8 bits ou 4 bits, mais BitNet n’utilise qu’1 bit, ce qui lui confère une efficacité mémoire écrasante
  • Cette approche apporte de grands avantages sur du matériel peu puissant, en particulier dans des environnements CPU sans GPU

Caractéristiques de BitNet b1.58 2B4T

  • Nombre de paramètres : 2 milliards
  • Données d’entraînement : 4 000 milliards de tokens (environ l’équivalent de 33 millions de livres)
  • Publication en open source sous licence MIT
  • Peut fonctionner sur des CPU généralistes comme l’Apple M2

Comparaison des performances et résultats de benchmarks

  • BitNet b1.58 2B4T affiche de meilleures performances sur certains benchmarks que les modèles suivants :
    • Meta Llama 3.2 1B
    • Google Gemma 3 1B
    • Alibaba Qwen 2.5 1.5B
  • Principaux benchmarks utilisés :
    • GSM8K : évaluation de problèmes de mathématiques de niveau primaire
    • PIQA : évaluation des capacités de raisonnement physique de bon sens
  • Sur certains tests, il atteint une vitesse jusqu’à 2 fois supérieure, avec une consommation mémoire nettement plus faible

Limites et problèmes de compatibilité

  • Les performances de BitNet dépendent du framework propriétaire de Microsoft, bitnet.cpp
  • bitnet.cpp ne prend actuellement en charge que certains CPU et pas les GPU
  • Ce manque de compatibilité avec les environnements GPU, standard de l’infrastructure IA, est pointé comme un inconvénient

4 commentaires

 
cartwheel8815 2025-04-21

> BitNet est un modèle d’IA appliquant une quantification sur 1 bit, et représente ses paramètres en n’utilisant que trois valeurs : -1, 0 et 1

Trois valeurs pour 1 bit ? Ça m’a semblé étrange, donc j’ai regardé quelques commentaires sur HN,

> https://compilade.net/blog/ternary-packing

Au lieu d’utiliser 8 bits pour représenter 2 valeurs par octet, on le traite comme 5 chiffres ternaires permettant de représenter 3 valeurs ; ce n’est donc pas, à strictement parler, un modèle 1 bit, mais plutôt un modèle à log(3) / log(2) = 1.5849... bits. Vu que le nom du modèle inclut b1.58, cela semble bien être le cas.

 
cartwheel8815 2025-04-21

Il semble qu’une correction soit nécessaire à la 4e ligne : 2억 개의 파라미터를 -> 20억 개의 파라미터를.

 
GN⁺ 2025-04-18
Avis Hacker News
  • Le BitNet de Microsoft est plus rentable en termes de latence, de mémoire, de débit et de consommation énergétique, tout en utilisant la même taille de modèle et le même volume de tokens d’entraînement que des Transformer LLM de précision FP16 ou BF16
    • Plus d’informations sont disponibles via le lien GitHub et l’article arXiv
  • Le « nombre de paramètres » d’un modèle d’IA est l’équivalent des « GHz » pour un modèle d’IA
    • Tous les modèles comparés ont entre 1 et 2 milliards de paramètres, mais leur taille réelle peut varier de plus d’un facteur 10
  • La plupart des LLM gratuits peuvent fonctionner sur CPU
    • L’affirmation ici est que ce modèle fonctionne utilement vite sur CPU
    • Impossible d’être certain de l’exactitude de cette affirmation sans connaître sa vitesse d’exécution sur GPU
  • Le modèle BitNet b1.58 2B4T est plus rapide que d’autres modèles de taille comparable, avec une consommation mémoire plus faible
    • La taille du modèle dépasse 1 Go, et il existe déjà de nombreux modèles de 1 à 2 Go qui fonctionnent bien même sur des CPU modernes
  • NVidia semble se précipiter vers un verrouillage logiciel via CUDA
    • Sinon, son action pourrait suivre la même trajectoire que Zoom
  • On parle de « 1-bit », mais en réalité il utilise {-1, 0, 1}
    • Cela peut prêter à confusion
  • Quelqu’un se demande s’il existe une bibliothèque permettant de distiller un plus grand modèle vers BitNet
  • Disponible publiquement sous licence MIT, et exécutable sur CPU, y compris l’Apple M2
    • Le M2 exécute déjà facilement des modèles LLama et Mistral de 7 Go ou 13 Go
  • Avec la diffusion massive des puces de série M et des MacBook, on peut oublier à quel point un CPU moyen (i3 ou i5) est peu puissant
  • La guerre des prix va continuer à tirer les prix vers le bas
  • C’est une technologie vieille de plus d’un an, et tout le monde n’a pas basculé dessus
    • Quand on regarde pourquoi, on voit qu’elle affecte réellement les métriques, certaines plus que d’autres
    • Ce n’est pas une solution miracle
 
cartwheel8815 2025-04-21

À la 4e ligne, tous les modèles comparés comptent entre 1 et 2 cents millions de -> tous les modèles comparés comptent entre 10 et 20 milliards de
La traduction de billion en IA est étrange.