- PrismML, une startup IA issue de recherches menées à Caltech, a dévoilé le modèle 1-bit Bonsai 8B, qui rend possible une inférence IA réellement exploitable sur smartphone et appareils edge grâce à une taille de seulement 1,15 Go, soit environ 14 fois plus petite que les modèles 16 bits comparables
- Avec une véritable architecture 1 bit de bout en bout couvrant sans exception l’ensemble du réseau (embeddings, attention, MLP, tête LM), le modèle surmonte les problèmes de dégradation de qualité en exécution d’instructions, raisonnement multi-étapes et usage d’outils qui affectaient les précédents modèles basse précision
- Selon l’indicateur Intelligence Density, il atteint 1,06/GB, soit environ 10,6 fois mieux que le concurrent le plus proche dans la même classe de paramètres (Qwen3 8B, 0,10/GB)
- Il fonctionne à 131 tok/s sur un Mac M4 Pro, 368 tok/s sur une RTX 4090 et environ 44 tok/s sur un iPhone 17 Pro Max, avec une efficacité énergétique environ 4 à 5 fois supérieure à celle des modèles 16 bits
- Si du matériel dédié au 1 bit est conçu, cela pourrait encore ouvrir la voie à des gains de performance et d’efficacité d’un facteur à un chiffre, élargissant ainsi de nouvelles catégories de déploiement comme l’IA on-device, la robotique ou les environnements de sécurité enterprise
Contexte de l’arrivée de PrismML et de 1-bit Bonsai
- Au cours des dix dernières années, les progrès de l’IA ont suivi une trajectoire consistant à agrandir les modèles toujours plus (plus de paramètres, de GPU, d’électricité, de mémoire et de coûts)
- Il en a résulté une contrainte structurelle : l’intelligence la plus avancée s’est retrouvée enfermée dans de grands clusters et des infrastructures dédiées
- Or, les environnements où l’IA est réellement nécessaire ne se limitent pas aux datacenters : smartphones, ordinateurs portables, véhicules, robots, sécurité enterprise et appareils edge notamment
- PrismML est née d’une équipe de recherche de Caltech et a été fondée avec le soutien de Khosla Ventures, Cerberus et Google
- L’entreprise a défini comme principal indicateur d’optimisation la densité d’intelligence (Intelligence Density) — la quantité d’intelligence fournie par unité de taille du modèle (en Go)
Une véritable architecture de modèle 1 bit
- 1-bit Bonsai 8B implémente en 1 bit les embeddings, les couches d’attention, les couches MLP et la tête LM, et conserve une architecture intégralement 1 bit sur l’ensemble de ses 8,2 milliards de paramètres, sans échappatoire en haute précision
- Les modèles basse précision précédents subissaient de fortes pertes de performance en exécution d’instructions, en raisonnement multi-étapes et en fiabilité d’usage des outils, ce qui les rendait difficiles à utiliser comme base de produits réels
- Bonsai démontre qu’un modèle 1 bit peut être un système complet de niveau production, et non un simple compromis étroit
Mesure de l’Intelligence Density
- L’Intelligence Density est définie comme la valeur négative logarithmique du taux d’erreur moyen sur l’ensemble des benchmarks, divisée par la taille du modèle
- Cet indicateur reflète un niveau d’intelligence plus réaliste qu’une simple moyenne de benchmarks : il accorde davantage de valeur aux améliorations supplémentaires lorsque la précision est déjà élevée
- 1-bit Bonsai 8B : 1,06/GB, Qwen3 8B : 0,10/GB — il ne s’agit pas seulement d’un léger avantage, mais d’un résultat d’un tout autre ordre
- Même sur la moyenne brute des benchmarks, 1-bit Bonsai 8B conserve des performances compétitives face aux principaux modèles de classe 8B, tout en affichant une empreinte mémoire de 1,15 Go, soit environ 12 à 14 fois moins que ses équivalents
Taille et vitesse
- Avec une taille de 1,15 Go, le modèle peut fonctionner sur iPhone 17 Pro — alors qu’un modèle 8B 16 bits classique ne peut être embarqué sur aucun iPhone
- Vitesse d’inférence selon l’appareil :
- Mac M4 Pro : 131 tok/s
- RTX 4090 : 368 tok/s
- iPhone 17 Pro Max : environ 44 tok/s
- Dans une simulation de synthèse et d’attribution de 50 tickets, 1-bit Bonsai 8B a traité les 50, tandis qu’un modèle 8B 16 bits dans les mêmes conditions n’en a traité que 6
- Sur des charges de travail d’agents de longue durée, un débit plus élevé et une mémoire plus faible augmentent la quantité réelle de tâches qu’un agent peut prendre en charge
Efficacité énergétique
- 1-bit Bonsai 8B atteint une efficacité énergétique environ 4 à 5 fois supérieure à celle des modèles full precision 16 bits
- M4 Pro : 0,074 mWh/tok
- iPhone 17 Pro Max : 0,068 mWh/tok
- Pour que l’IA devienne une infrastructure fondamentale, une amélioration radicale de l’efficacité énergétique est indispensable
Le potentiel d’un matériel dédié au 1 bit
- Les gains de performance actuels proviennent principalement de la réduction de l’empreinte mémoire des modèles 1 bit ; l’exploitation complète de leur structure de poids 1 bit pendant l’inférence n’est pas encore atteinte
- Dans des couches linéaires comme les MLP, des poids 1 bit permettent de remplacer les multiplications par des additions
- Si un matériel dédié à l’inférence 1 bit est conçu, les performances et l’efficacité énergétique pourraient encore être améliorées d’un facteur supplémentaire à un chiffre
Les modèles Bonsai 4B et 1.7B
- Deux modèles plus petits, 1-bit Bonsai 4B et 1-bit Bonsai 1.7B, ont également été lancés
- Dans un nuage de points comparant intelligence et taille sur 20 grands modèles instruct (de 1,2 Go à 16,4 Go), toute la famille Bonsai déplace nettement vers la gauche la frontière de Pareto existante
- La frontière de Pareto précédente était constituée de Qwen3 0.6B, 1.7B, 4B, 8B et de Ministral3 3B, mais la famille Bonsai définit désormais une nouvelle frontière
Ce que rend possible une intelligence condensée
- Lorsqu’un modèle devient assez petit, rapide et efficace pour fonctionner on-device, l’espace de conception des produits IA change immédiatement :
- Meilleure réactivité : inférence on-device sans latence réseau
- Confidentialité renforcée : les données sensibles ne quittent pas l’appareil
- Fiabilité accrue : moindre dépendance à une connexion cloud continue
- Viabilité économique : usage de l’IA possible même dans des environnements où un déploiement côté serveur était trop coûteux
- Nouvelles catégories ouvertes : agents persistants on-device, robotique temps réel, copilotes de sécurité enterprise, intelligence hors ligne, produits AI-native pour les environnements contraints par la bande passante, l’énergie ou la réglementation
Support plateforme et modalités de publication
- 1-bit Bonsai 8B prend en charge une exécution native sur les appareils Apple (Mac, iPhone, iPad) via MLX et sur GPU NVIDIA via llama.cpp CUDA
- Les poids du modèle sont actuellement publiés sous licence Apache 2.0
- Tous les détails techniques du processus d’entraînement, d’évaluation et de benchmarking sont fournis dans le whitepaper officiel
2 commentaires
C’est une bonne information.
Avis de Hacker News
Souligne que le cadrage à 1,125 bit (poids à 1 bit + échelle partagée sur 16 bits par groupe de 128) est une mesure techniquement honnête
Il faut distinguer si « commercialement viable » se juge sur le coût d’inférence, ou si cela est possible via du fine-tuning
Si, comme dans l’article BitNet de Microsoft, le modèle a été entraîné dès le départ avec un objectif 1 bit, alors c’est quelque chose de complètement différent d’un simple modèle quantifié
En particulier, l’efficacité en inférence sur du matériel généraliste paraît bien plus attractive qu’une quantification INT4
Cela dit, les benchmarks le comparent à de grands modèles quantifiés, ce qui masque un peu la substance réelle de l’affirmation
J’aimerais voir si les performances se maintiennent aussi sur des tâches nécessitant un raisonnement en plusieurs étapes
Il est intéressant de voir qu’une architecture 1 bit + échelle FP16 (une pour 128 bits) fonctionne aussi bien
J’ai essayé de générer des tests de pages web via Cursor, et sa capacité à utiliser des outils était assez impressionnante
Dans une simulation Monte Carlo de π, la logique était correcte, mais il a échoué à générer l’interface et quelques corrections manuelles ont été nécessaires
Le résultat de l’image du pélican était très abstrait
Comme il n’y a pas de démo officielle, j’ai laissé ouverte une instance locale de llama.cpp
J’ai essayé diverses requêtes, comme des scripts R ou la génération de formules LaTeX, et notamment la formule d’Euler a été produite parfaitement
Malgré la petite taille de ce modèle 1 bit, sa densité de connaissances est élevée et il réagit vite
En ajoutant une « étape de réflexion » ou un renforcement basé sur la recherche, il pourrait devenir bien plus utile
J’ai lancé mon propre benchmark de débogage SQL, et c’était assez impressionnant
8 réussites sur 25, 0 échec, 17 erreurs, soit un niveau situé entre Qwen3.5-4B et Nanbeige4.1-3B
L’ensemble des tests s’est terminé en 200 secondes, et côté vitesse c’était bien plus efficace que Granite 7B 4bit
Les résultats sont visibles sur le site du benchmark SQL
Personnellement, j’ai fait un test en lui demandant de créer une application Pomodoro ; le résultat n’était pas très abouti, mais dans certains domaines c’était tout à fait exploitable
Ses capacités rédactionnelles sont aussi étonnamment correctes, et il est intéressant de noter qu’il utilise peu les tirets cadratins
Il est faible en HTML, mais combiner un modèle 1 bit avec des embeddings Ngram pourrait ouvrir beaucoup de nouvelles possibilités
Je partage aussi le code de mon prototype
Avec la version récemment mise à jour de l’app Locally AI, on peut aussi l’exécuter sur iPhone
Pour une taille de 1,2 Go, les performances sont étonnantes
Le résultat SVG du pélican avait de bons commentaires, mais le dessin n’était pas terrible
J’ai demandé : « 9h30, heure normale de Taïwan, cela correspond à quelle heure sur la côte Pacifique des États-Unis ? », et aucun modèle n’a trouvé la bonne réponse
J’ai fait tourner publiquement le modèle 8GiB sur une RTX 3090 pendant 5 heures
J’ai partagé le lien du serveur et la commande de lancement
5 requêtes en parallèle, limite d’environ 13K tokens, 4GiB de VRAM utilisés
Il a affiché des performances très rapides, avec une vitesse de 190 t/s
Dans cet exemple de conversation, à la question « faut-il aller au lavage auto à pied ou en voiture ? », il a donné une réponse créative
Je n’avais pas de GPU, donc je l’ai exécuté sur CPU : sur un vieux portable, on est passé de 0,6 t/s à 12 t/s après ajout d’AVX2
Je trouve que c’est une performance tout à fait correcte
La cause était l’oubli de l’étape
git checkout prism, et après correction tout fonctionnait normalementJe pense que l’avenir des grands modèles ira vers le bit plutôt que le float
La plupart des valeurs en float sont concentrées dans une plage étroite, ce qui est inefficace, et au final tout est implémenté en opérations sur des bits
Le problème, c’est surtout que les GPU et les bases théoriques sont adaptés aux calculs en virgule flottante
Si le format float reste dominant, c’est surtout parce qu’il est simplement plus compatible avec la pile GPU
Il introduit le concept de « Boolean variation », qui définit la dérivation sous forme binaire et effectue directement la rétropropagation
La similarité avec les réseaux neuronaux impulsionnels est intéressante
Ils communiquent en 1 bit via la présence ou non d’un spike, tout en utilisant un potentiel de membrane analogique
J’ai contrôlé la locomotion quadrupède avec 5 000 neurones d’Izhikevich, et c’était plus efficace que PPO
L’efficacité du 1 bit est un concept qui dépasse les LLM
Je me demande si un ratio de « -log error / model size » proche de 1 signifie que le taux d’erreur est d’environ 40 %
Il ajoute qu’en termes mathématiques, cela donne error/model size = 1/e
Bonsai propose un modèle 8B en 1,15 Go, et je me demande quelle taille feraient des modèles 27B ou 35B
Si la mise à l’échelle se maintient, on pourrait peut-être faire tenir un modèle 100B dans 64 Go de RAM
Il sera probablement aussi élevé que celui d’un modèle pleine précision ; sinon cela aurait déjà été mis en avant