14 points par GN⁺ 28 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • PrismML, une startup IA issue de recherches menées à Caltech, a dévoilé le modèle 1-bit Bonsai 8B, qui rend possible une inférence IA réellement exploitable sur smartphone et appareils edge grâce à une taille de seulement 1,15 Go, soit environ 14 fois plus petite que les modèles 16 bits comparables
  • Avec une véritable architecture 1 bit de bout en bout couvrant sans exception l’ensemble du réseau (embeddings, attention, MLP, tête LM), le modèle surmonte les problèmes de dégradation de qualité en exécution d’instructions, raisonnement multi-étapes et usage d’outils qui affectaient les précédents modèles basse précision
  • Selon l’indicateur Intelligence Density, il atteint 1,06/GB, soit environ 10,6 fois mieux que le concurrent le plus proche dans la même classe de paramètres (Qwen3 8B, 0,10/GB)
  • Il fonctionne à 131 tok/s sur un Mac M4 Pro, 368 tok/s sur une RTX 4090 et environ 44 tok/s sur un iPhone 17 Pro Max, avec une efficacité énergétique environ 4 à 5 fois supérieure à celle des modèles 16 bits
  • Si du matériel dédié au 1 bit est conçu, cela pourrait encore ouvrir la voie à des gains de performance et d’efficacité d’un facteur à un chiffre, élargissant ainsi de nouvelles catégories de déploiement comme l’IA on-device, la robotique ou les environnements de sécurité enterprise

Contexte de l’arrivée de PrismML et de 1-bit Bonsai

  • Au cours des dix dernières années, les progrès de l’IA ont suivi une trajectoire consistant à agrandir les modèles toujours plus (plus de paramètres, de GPU, d’électricité, de mémoire et de coûts)
  • Il en a résulté une contrainte structurelle : l’intelligence la plus avancée s’est retrouvée enfermée dans de grands clusters et des infrastructures dédiées
  • Or, les environnements où l’IA est réellement nécessaire ne se limitent pas aux datacenters : smartphones, ordinateurs portables, véhicules, robots, sécurité enterprise et appareils edge notamment
  • PrismML est née d’une équipe de recherche de Caltech et a été fondée avec le soutien de Khosla Ventures, Cerberus et Google
  • L’entreprise a défini comme principal indicateur d’optimisation la densité d’intelligence (Intelligence Density) — la quantité d’intelligence fournie par unité de taille du modèle (en Go)

Une véritable architecture de modèle 1 bit

  • 1-bit Bonsai 8B implémente en 1 bit les embeddings, les couches d’attention, les couches MLP et la tête LM, et conserve une architecture intégralement 1 bit sur l’ensemble de ses 8,2 milliards de paramètres, sans échappatoire en haute précision
  • Les modèles basse précision précédents subissaient de fortes pertes de performance en exécution d’instructions, en raisonnement multi-étapes et en fiabilité d’usage des outils, ce qui les rendait difficiles à utiliser comme base de produits réels
  • Bonsai démontre qu’un modèle 1 bit peut être un système complet de niveau production, et non un simple compromis étroit

Mesure de l’Intelligence Density

  • L’Intelligence Density est définie comme la valeur négative logarithmique du taux d’erreur moyen sur l’ensemble des benchmarks, divisée par la taille du modèle
  • Cet indicateur reflète un niveau d’intelligence plus réaliste qu’une simple moyenne de benchmarks : il accorde davantage de valeur aux améliorations supplémentaires lorsque la précision est déjà élevée
  • 1-bit Bonsai 8B : 1,06/GB, Qwen3 8B : 0,10/GB — il ne s’agit pas seulement d’un léger avantage, mais d’un résultat d’un tout autre ordre
  • Même sur la moyenne brute des benchmarks, 1-bit Bonsai 8B conserve des performances compétitives face aux principaux modèles de classe 8B, tout en affichant une empreinte mémoire de 1,15 Go, soit environ 12 à 14 fois moins que ses équivalents

Taille et vitesse

  • Avec une taille de 1,15 Go, le modèle peut fonctionner sur iPhone 17 Pro — alors qu’un modèle 8B 16 bits classique ne peut être embarqué sur aucun iPhone
  • Vitesse d’inférence selon l’appareil :
    • Mac M4 Pro : 131 tok/s
    • RTX 4090 : 368 tok/s
    • iPhone 17 Pro Max : environ 44 tok/s
  • Dans une simulation de synthèse et d’attribution de 50 tickets, 1-bit Bonsai 8B a traité les 50, tandis qu’un modèle 8B 16 bits dans les mêmes conditions n’en a traité que 6
  • Sur des charges de travail d’agents de longue durée, un débit plus élevé et une mémoire plus faible augmentent la quantité réelle de tâches qu’un agent peut prendre en charge

Efficacité énergétique

  • 1-bit Bonsai 8B atteint une efficacité énergétique environ 4 à 5 fois supérieure à celle des modèles full precision 16 bits
    • M4 Pro : 0,074 mWh/tok
    • iPhone 17 Pro Max : 0,068 mWh/tok
  • Pour que l’IA devienne une infrastructure fondamentale, une amélioration radicale de l’efficacité énergétique est indispensable

Le potentiel d’un matériel dédié au 1 bit

  • Les gains de performance actuels proviennent principalement de la réduction de l’empreinte mémoire des modèles 1 bit ; l’exploitation complète de leur structure de poids 1 bit pendant l’inférence n’est pas encore atteinte
  • Dans des couches linéaires comme les MLP, des poids 1 bit permettent de remplacer les multiplications par des additions
  • Si un matériel dédié à l’inférence 1 bit est conçu, les performances et l’efficacité énergétique pourraient encore être améliorées d’un facteur supplémentaire à un chiffre

Les modèles Bonsai 4B et 1.7B

  • Deux modèles plus petits, 1-bit Bonsai 4B et 1-bit Bonsai 1.7B, ont également été lancés
  • Dans un nuage de points comparant intelligence et taille sur 20 grands modèles instruct (de 1,2 Go à 16,4 Go), toute la famille Bonsai déplace nettement vers la gauche la frontière de Pareto existante
  • La frontière de Pareto précédente était constituée de Qwen3 0.6B, 1.7B, 4B, 8B et de Ministral3 3B, mais la famille Bonsai définit désormais une nouvelle frontière

Ce que rend possible une intelligence condensée

  • Lorsqu’un modèle devient assez petit, rapide et efficace pour fonctionner on-device, l’espace de conception des produits IA change immédiatement :
    • Meilleure réactivité : inférence on-device sans latence réseau
    • Confidentialité renforcée : les données sensibles ne quittent pas l’appareil
    • Fiabilité accrue : moindre dépendance à une connexion cloud continue
    • Viabilité économique : usage de l’IA possible même dans des environnements où un déploiement côté serveur était trop coûteux
  • Nouvelles catégories ouvertes : agents persistants on-device, robotique temps réel, copilotes de sécurité enterprise, intelligence hors ligne, produits AI-native pour les environnements contraints par la bande passante, l’énergie ou la réglementation

Support plateforme et modalités de publication

  • 1-bit Bonsai 8B prend en charge une exécution native sur les appareils Apple (Mac, iPhone, iPad) via MLX et sur GPU NVIDIA via llama.cpp CUDA
  • Les poids du modèle sont actuellement publiés sous licence Apache 2.0
  • Tous les détails techniques du processus d’entraînement, d’évaluation et de benchmarking sont fournis dans le whitepaper officiel

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.