1-bit Bonsai - le premier LLM 1 bit commercialement viable

(prismml.com)

14 points par GN⁺ 29 일 전 | 2 commentaires | Partager sur WhatsApp

PrismML, une startup IA issue de recherches menées à Caltech, a dévoilé le modèle 1-bit Bonsai 8B, qui rend possible une inférence IA réellement exploitable sur smartphone et appareils edge grâce à une taille de seulement 1,15 Go, soit environ 14 fois plus petite que les modèles 16 bits comparables
Avec une véritable architecture 1 bit de bout en bout couvrant sans exception l’ensemble du réseau (embeddings, attention, MLP, tête LM), le modèle surmonte les problèmes de dégradation de qualité en exécution d’instructions, raisonnement multi-étapes et usage d’outils qui affectaient les précédents modèles basse précision
Selon l’indicateur Intelligence Density, il atteint 1,06/GB, soit environ 10,6 fois mieux que le concurrent le plus proche dans la même classe de paramètres (Qwen3 8B, 0,10/GB)
Il fonctionne à 131 tok/s sur un Mac M4 Pro, 368 tok/s sur une RTX 4090 et environ 44 tok/s sur un iPhone 17 Pro Max, avec une efficacité énergétique environ 4 à 5 fois supérieure à celle des modèles 16 bits
Si du matériel dédié au 1 bit est conçu, cela pourrait encore ouvrir la voie à des gains de performance et d’efficacité d’un facteur à un chiffre, élargissant ainsi de nouvelles catégories de déploiement comme l’IA on-device, la robotique ou les environnements de sécurité enterprise

Contexte de l’arrivée de PrismML et de 1-bit Bonsai

Au cours des dix dernières années, les progrès de l’IA ont suivi une trajectoire consistant à agrandir les modèles toujours plus (plus de paramètres, de GPU, d’électricité, de mémoire et de coûts)
Il en a résulté une contrainte structurelle : l’intelligence la plus avancée s’est retrouvée enfermée dans de grands clusters et des infrastructures dédiées
Or, les environnements où l’IA est réellement nécessaire ne se limitent pas aux datacenters : smartphones, ordinateurs portables, véhicules, robots, sécurité enterprise et appareils edge notamment
PrismML est née d’une équipe de recherche de Caltech et a été fondée avec le soutien de Khosla Ventures, Cerberus et Google
L’entreprise a défini comme principal indicateur d’optimisation la densité d’intelligence (Intelligence Density) — la quantité d’intelligence fournie par unité de taille du modèle (en Go)

Une véritable architecture de modèle 1 bit

1-bit Bonsai 8B implémente en 1 bit les embeddings, les couches d’attention, les couches MLP et la tête LM, et conserve une architecture intégralement 1 bit sur l’ensemble de ses 8,2 milliards de paramètres, sans échappatoire en haute précision
Les modèles basse précision précédents subissaient de fortes pertes de performance en exécution d’instructions, en raisonnement multi-étapes et en fiabilité d’usage des outils, ce qui les rendait difficiles à utiliser comme base de produits réels
Bonsai démontre qu’un modèle 1 bit peut être un système complet de niveau production, et non un simple compromis étroit

Mesure de l’Intelligence Density

L’Intelligence Density est définie comme la valeur négative logarithmique du taux d’erreur moyen sur l’ensemble des benchmarks, divisée par la taille du modèle
Cet indicateur reflète un niveau d’intelligence plus réaliste qu’une simple moyenne de benchmarks : il accorde davantage de valeur aux améliorations supplémentaires lorsque la précision est déjà élevée
1-bit Bonsai 8B : 1,06/GB, Qwen3 8B : 0,10/GB — il ne s’agit pas seulement d’un léger avantage, mais d’un résultat d’un tout autre ordre
Même sur la moyenne brute des benchmarks, 1-bit Bonsai 8B conserve des performances compétitives face aux principaux modèles de classe 8B, tout en affichant une empreinte mémoire de 1,15 Go, soit environ 12 à 14 fois moins que ses équivalents

Taille et vitesse

Avec une taille de 1,15 Go, le modèle peut fonctionner sur iPhone 17 Pro — alors qu’un modèle 8B 16 bits classique ne peut être embarqué sur aucun iPhone
Vitesse d’inférence selon l’appareil :
- Mac M4 Pro : 131 tok/s
- RTX 4090 : 368 tok/s
- iPhone 17 Pro Max : environ 44 tok/s
Dans une simulation de synthèse et d’attribution de 50 tickets, 1-bit Bonsai 8B a traité les 50, tandis qu’un modèle 8B 16 bits dans les mêmes conditions n’en a traité que 6
Sur des charges de travail d’agents de longue durée, un débit plus élevé et une mémoire plus faible augmentent la quantité réelle de tâches qu’un agent peut prendre en charge

Efficacité énergétique

1-bit Bonsai 8B atteint une efficacité énergétique environ 4 à 5 fois supérieure à celle des modèles full precision 16 bits
- M4 Pro : 0,074 mWh/tok
- iPhone 17 Pro Max : 0,068 mWh/tok
Pour que l’IA devienne une infrastructure fondamentale, une amélioration radicale de l’efficacité énergétique est indispensable

Le potentiel d’un matériel dédié au 1 bit

Les gains de performance actuels proviennent principalement de la réduction de l’empreinte mémoire des modèles 1 bit ; l’exploitation complète de leur structure de poids 1 bit pendant l’inférence n’est pas encore atteinte
Dans des couches linéaires comme les MLP, des poids 1 bit permettent de remplacer les multiplications par des additions
Si un matériel dédié à l’inférence 1 bit est conçu, les performances et l’efficacité énergétique pourraient encore être améliorées d’un facteur supplémentaire à un chiffre

Les modèles Bonsai 4B et 1.7B

Deux modèles plus petits, 1-bit Bonsai 4B et 1-bit Bonsai 1.7B, ont également été lancés
Dans un nuage de points comparant intelligence et taille sur 20 grands modèles instruct (de 1,2 Go à 16,4 Go), toute la famille Bonsai déplace nettement vers la gauche la frontière de Pareto existante
La frontière de Pareto précédente était constituée de Qwen3 0.6B, 1.7B, 4B, 8B et de Ministral3 3B, mais la famille Bonsai définit désormais une nouvelle frontière

Ce que rend possible une intelligence condensée

Lorsqu’un modèle devient assez petit, rapide et efficace pour fonctionner on-device, l’espace de conception des produits IA change immédiatement :
- Meilleure réactivité : inférence on-device sans latence réseau
- Confidentialité renforcée : les données sensibles ne quittent pas l’appareil
- Fiabilité accrue : moindre dépendance à une connexion cloud continue
- Viabilité économique : usage de l’IA possible même dans des environnements où un déploiement côté serveur était trop coûteux
Nouvelles catégories ouvertes : agents persistants on-device, robotique temps réel, copilotes de sécurité enterprise, intelligence hors ligne, produits AI-native pour les environnements contraints par la bande passante, l’énergie ou la réglementation

Support plateforme et modalités de publication

1-bit Bonsai 8B prend en charge une exécution native sur les appareils Apple (Mac, iPhone, iPad) via MLX et sur GPU NVIDIA via llama.cpp CUDA
Les poids du modèle sont actuellement publiés sous licence Apache 2.0
Tous les détails techniques du processus d’entraînement, d’évaluation et de benchmarking sont fournis dans le whitepaper officiel

2 commentaires

runableapp 29 일 전

C’est une bonne information.

GN⁺ 29 일 전

Avis de Hacker News

Souligne que le cadrage à 1,125 bit (poids à 1 bit + échelle partagée sur 16 bits par groupe de 128) est une mesure techniquement honnête
Il faut distinguer si « commercialement viable » se juge sur le coût d’inférence, ou si cela est possible via du fine-tuning
Si, comme dans l’article BitNet de Microsoft, le modèle a été entraîné dès le départ avec un objectif 1 bit, alors c’est quelque chose de complètement différent d’un simple modèle quantifié
En particulier, l’efficacité en inférence sur du matériel généraliste paraît bien plus attractive qu’une quantification INT4
Cela dit, les benchmarks le comparent à de grands modèles quantifiés, ce qui masque un peu la substance réelle de l’affirmation
J’aimerais voir si les performances se maintiennent aussi sur des tâches nécessitant un raisonnement en plusieurs étapes
Il est intéressant de voir qu’une architecture 1 bit + échelle FP16 (une pour 128 bits) fonctionne aussi bien
J’ai essayé de générer des tests de pages web via Cursor, et sa capacité à utiliser des outils était assez impressionnante
Dans une simulation Monte Carlo de π, la logique était correcte, mais il a échoué à générer l’interface et quelques corrections manuelles ont été nécessaires
Le résultat de l’image du pélican était très abstrait
Comme il n’y a pas de démo officielle, j’ai laissé ouverte une instance locale de llama.cpp
- Grâce au lien, j’ai pu tester moi-même, et la vitesse de réponse est très élevée
  J’ai essayé diverses requêtes, comme des scripts R ou la génération de formules LaTeX, et notamment la formule d’Euler a été produite parfaitement
  Malgré la petite taille de ce modèle 1 bit, sa densité de connaissances est élevée et il réagit vite
- En tant qu’historien de l’art, j’approuve totalement l’idée du « pélican à vélo »
- Le lien ngrok a été bloqué à cause de l’affluence, donc je partage une version Google Colab
- Je me demande s’il faut le fork llama.cpp de Prism
- On a l’impression que, comme le ChatGPT des débuts, il a souvent raison mais dit parfois des absurdités
  En ajoutant une « étape de réflexion » ou un renforcement basé sur la recherche, il pourrait devenir bien plus utile
J’ai lancé mon propre benchmark de débogage SQL, et c’était assez impressionnant
8 réussites sur 25, 0 échec, 17 erreurs, soit un niveau situé entre Qwen3.5-4B et Nanbeige4.1-3B
L’ensemble des tests s’est terminé en 200 secondes, et côté vitesse c’était bien plus efficace que Granite 7B 4bit
Les résultats sont visibles sur le site du benchmark SQL
- J’ai aussi utilisé le runpod de @freakynit
  Personnellement, j’ai fait un test en lui demandant de créer une application Pomodoro ; le résultat n’était pas très abouti, mais dans certains domaines c’était tout à fait exploitable
  Ses capacités rédactionnelles sont aussi étonnamment correctes, et il est intéressant de noter qu’il utilise peu les tirets cadratins
  Il est faible en HTML, mais combiner un modèle 1 bit avec des embeddings Ngram pourrait ouvrir beaucoup de nouvelles possibilités
  Je partage aussi le code de mon prototype
Avec la version récemment mise à jour de l’app Locally AI, on peut aussi l’exécuter sur iPhone
Pour une taille de 1,2 Go, les performances sont étonnantes
Le résultat SVG du pélican avait de bons commentaires, mais le dessin n’était pas terrible
- J’ai constaté que les petits modèles sont très faibles pour les conversions de fuseaux horaires
  J’ai demandé : « 9h30, heure normale de Taïwan, cela correspond à quelle heure sur la côte Pacifique des États-Unis ? », et aucun modèle n’a trouvé la bonne réponse
- Je me demande si le vélo avait été demandé pour le pélican, ou si le modèle l’a ajouté de manière créative
J’ai fait tourner publiquement le modèle 8GiB sur une RTX 3090 pendant 5 heures
J’ai partagé le lien du serveur et la commande de lancement
5 requêtes en parallèle, limite d’environ 13K tokens, 4GiB de VRAM utilisés
Il a affiché des performances très rapides, avec une vitesse de 190 t/s
- Il est conseillé de conserver le cache KV sans perte de précision
- C’est vraiment agréable de discuter avec ce modèle
  Dans cet exemple de conversation, à la question « faut-il aller au lavage auto à pied ou en voiture ? », il a donné une réponse créative
- Mise à jour : le serveur a été arrêté à cause de l’arrêt de l’instance spot
- Impressionné par la vitesse
- Partage aussi un résultat Pastebin, en précisant que des modèles faibles n’arrivent pas à produire ce genre de résultat
Je n’avais pas de GPU, donc je l’ai exécuté sur CPU : sur un vieux portable, on est passé de 0,6 t/s à 12 t/s après ajout d’AVX2
Je trouve que c’est une performance tout à fait correcte
- Il y a aussi eu des retours disant que même avec un build AVX2 c’était lent ou que cela ne produisait qu’une sortie dénuée de sens
  La cause était l’oubli de l’étape git checkout prism, et après correction tout fonctionnait normalement
- Quelqu’un plaisante en disant que l’expression « not shabby » est un euphémisme
Je pense que l’avenir des grands modèles ira vers le bit plutôt que le float
La plupart des valeurs en float sont concentrées dans une plage étroite, ce qui est inefficace, et au final tout est implémenté en opérations sur des bits
Le problème, c’est surtout que les GPU et les bases théoriques sont adaptés aux calculs en virgule flottante
- L’inférence à faible précision est facile, mais l’entraînement est difficile et instable
  Si le format float reste dominant, c’est surtout parce qu’il est simplement plus compatible avec la pile GPU
- Cet article va jusqu’à réaliser l’entraînement sur une base binaire
  Il introduit le concept de « Boolean variation », qui définit la dérivation sous forme binaire et effectue directement la rétropropagation
La similarité avec les réseaux neuronaux impulsionnels est intéressante
Ils communiquent en 1 bit via la présence ou non d’un spike, tout en utilisant un potentiel de membrane analogique
J’ai contrôlé la locomotion quadrupède avec 5 000 neurones d’Izhikevich, et c’était plus efficace que PPO
L’efficacité du 1 bit est un concept qui dépasse les LLM
Je me demande si un ratio de « -log error / model size » proche de 1 signifie que le taux d’erreur est d’environ 40 %
Il ajoute qu’en termes mathématiques, cela donne error/model size = 1/e
Bonsai propose un modèle 8B en 1,15 Go, et je me demande quelle taille feraient des modèles 27B ou 35B
Si la mise à l’échelle se maintient, on pourrait peut-être faire tenir un modèle 100B dans 64 Go de RAM
- Le vrai problème reste toutefois le coût de l’entraînement
  Il sera probablement aussi élevé que celui d’un modèle pleine précision ; sinon cela aurait déjà été mis en avant

1-bit Bonsai - le premier LLM 1 bit commercialement viable

Contexte de l’arrivée de PrismML et de 1-bit Bonsai

Une véritable architecture de modèle 1 bit

Mesure de l’Intelligence Density

Taille et vitesse

Efficacité énergétique

Le potentiel d’un matériel dédié au 1 bit

Les modèles Bonsai 4B et 1.7B

Ce que rend possible une intelligence condensée

Support plateforme et modalités de publication

À lire aussi

2 commentaires

Avis de Hacker News