Exécuter un LLM de 400B sur un iPhone 17 Pro
(twitter.com/anemll)- Exécution d’un LLM de 400 milliards de paramètres sur iPhone 17 Pro, avec une vitesse d’environ 0,6 token par seconde
- Le modèle utilise une architecture Mixture of Experts (MoE), avec seulement 5 milliards de paramètres réellement activés
- Reconstitué en version quantifiée en 4 bits, mais reste très lent
- Utilise une approche combinant RAM GPU et CPU ainsi que le chargement en streaming depuis le SSD
- Un fork de Flash-Moe a été réalisé et publié ici : Anemll/flash-moe (branche iOS-App)
Aucun commentaire pour le moment.