Exécuter un LLM de 400B sur un iPhone 17 Pro

(twitter.com/anemll)

6 points par GN⁺ 2026-03-24 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Exécution d’un LLM de 400 milliards de paramètres sur iPhone 17 Pro, avec une vitesse d’environ 0,6 token par seconde
Le modèle utilise une architecture Mixture of Experts (MoE), avec seulement 5 milliards de paramètres réellement activés
Reconstitué en version quantifiée en 4 bits, mais reste très lent
Utilise une approche combinant RAM GPU et CPU ainsi que le chargement en streaming depuis le SSD
Un fork de Flash-Moe a été réalisé et publié ici : Anemll/flash-moe (branche iOS-App)

À lire aussi