Microsoft développe BitNet, un modèle d’IA ultra-efficace capable de fonctionner sur CPU

(techcrunch.com)

13 points par GN⁺ 2025-04-18 | 4 commentaires | Partager sur WhatsApp

Des chercheurs de Microsoft ont développé BitNet b1.58 2B4T, un modèle d’IA ultra-efficace
Grâce à une quantification sur 1 bit, il atteint une vitesse élevée et une faible consommation mémoire, ce qui lui permet de fonctionner aussi sur CPU, et il est publié sous licence MIT
Il peut fonctionner sur des CPU comme l’Apple M2, sans GPU
Avec 2 milliards de paramètres, BitNet b1.58 2B4T surpasse les modèles de Meta, Google et Alibaba
En revanche, il nécessite l’usage du framework bitnet.cpp de Microsoft, et des problèmes de compatibilité avec les GPU subsistent

Le modèle d’IA 1 bit ultra-léger de Microsoft, BitNet b1.58 2B4T

Le concept du modèle ultra-léger BitNet

BitNet est un modèle d’IA appliquant une quantification sur 1 bit, qui représente ses paramètres avec seulement trois valeurs : -1, 0, 1
Les modèles quantifiés classiques sont généralement représentés en 8 bits ou 4 bits, mais BitNet n’utilise qu’1 bit, ce qui lui confère une efficacité mémoire écrasante
Cette approche apporte de grands avantages sur du matériel peu puissant, en particulier dans des environnements CPU sans GPU

Caractéristiques de BitNet b1.58 2B4T

Nombre de paramètres : 2 milliards
Données d’entraînement : 4 000 milliards de tokens (environ l’équivalent de 33 millions de livres)
Publication en open source sous licence MIT
Peut fonctionner sur des CPU généralistes comme l’Apple M2

Comparaison des performances et résultats de benchmarks

BitNet b1.58 2B4T affiche de meilleures performances sur certains benchmarks que les modèles suivants :
- Meta Llama 3.2 1B
- Google Gemma 3 1B
- Alibaba Qwen 2.5 1.5B
Principaux benchmarks utilisés :
- GSM8K : évaluation de problèmes de mathématiques de niveau primaire
- PIQA : évaluation des capacités de raisonnement physique de bon sens
Sur certains tests, il atteint une vitesse jusqu’à 2 fois supérieure, avec une consommation mémoire nettement plus faible

Limites et problèmes de compatibilité

Les performances de BitNet dépendent du framework propriétaire de Microsoft, bitnet.cpp
bitnet.cpp ne prend actuellement en charge que certains CPU et pas les GPU
Ce manque de compatibilité avec les environnements GPU, standard de l’infrastructure IA, est pointé comme un inconvénient

4 commentaires

cartwheel8815 2025-04-21

BitNet est un modèle d’IA appliquant une quantification sur 1 bit, et représente ses paramètres en n’utilisant que trois valeurs : -1, 0 et 1

Trois valeurs pour 1 bit ? Ça m’a semblé étrange, donc j’ai regardé quelques commentaires sur HN,

https://compilade.net/blog/ternary-packing

Au lieu d’utiliser 8 bits pour représenter 2 valeurs par octet, on le traite comme 5 chiffres ternaires permettant de représenter 3 valeurs ; ce n’est donc pas, à strictement parler, un modèle 1 bit, mais plutôt un modèle à log(3) / log(2) = 1.5849... bits. Vu que le nom du modèle inclut b1.58, cela semble bien être le cas.

cartwheel8815 2025-04-21

Il semble qu’une correction soit nécessaire à la 4e ligne : 2억 개의 파라미터를 -> 20억 개의 파라미터를.

GN⁺ 2025-04-18

Avis Hacker News

Le BitNet de Microsoft est plus rentable en termes de latence, de mémoire, de débit et de consommation énergétique, tout en utilisant la même taille de modèle et le même volume de tokens d’entraînement que des Transformer LLM de précision FP16 ou BF16
- Plus d’informations sont disponibles via le lien GitHub et l’article arXiv
Le « nombre de paramètres » d’un modèle d’IA est l’équivalent des « GHz » pour un modèle d’IA
- Tous les modèles comparés ont entre 1 et 2 milliards de paramètres, mais leur taille réelle peut varier de plus d’un facteur 10
La plupart des LLM gratuits peuvent fonctionner sur CPU
- L’affirmation ici est que ce modèle fonctionne utilement vite sur CPU
- Impossible d’être certain de l’exactitude de cette affirmation sans connaître sa vitesse d’exécution sur GPU
Le modèle BitNet b1.58 2B4T est plus rapide que d’autres modèles de taille comparable, avec une consommation mémoire plus faible
- La taille du modèle dépasse 1 Go, et il existe déjà de nombreux modèles de 1 à 2 Go qui fonctionnent bien même sur des CPU modernes
NVidia semble se précipiter vers un verrouillage logiciel via CUDA
- Sinon, son action pourrait suivre la même trajectoire que Zoom
On parle de « 1-bit », mais en réalité il utilise {-1, 0, 1}
- Cela peut prêter à confusion
Quelqu’un se demande s’il existe une bibliothèque permettant de distiller un plus grand modèle vers BitNet
Disponible publiquement sous licence MIT, et exécutable sur CPU, y compris l’Apple M2
- Le M2 exécute déjà facilement des modèles LLama et Mistral de 7 Go ou 13 Go
Avec la diffusion massive des puces de série M et des MacBook, on peut oublier à quel point un CPU moyen (i3 ou i5) est peu puissant
La guerre des prix va continuer à tirer les prix vers le bas
C’est une technologie vieille de plus d’un an, et tout le monde n’a pas basculé dessus
- Quand on regarde pourquoi, on voit qu’elle affecte réellement les métriques, certaines plus que d’autres
- Ce n’est pas une solution miracle

cartwheel8815 2025-04-21

À la 4e ligne, tous les modèles comparés comptent entre 1 et 2 cents millions de -> tous les modèles comparés comptent entre 10 et 20 milliards de
La traduction de billion en IA est étrange.

Microsoft développe BitNet, un modèle d’IA ultra-efficace capable de fonctionner sur CPU

Le modèle d’IA 1 bit ultra-léger de Microsoft, BitNet b1.58 2B4T

Le concept du modèle ultra-léger BitNet

Caractéristiques de BitNet b1.58 2B4T

Comparaison des performances et résultats de benchmarks

Limites et problèmes de compatibilité

À lire aussi

4 commentaires

Avis Hacker News