Exécuter un LLM de 400B sur un iPhone 17 Pro
(twitter.com/anemll)- Exécution d’un LLM de 400 milliards de paramètres sur iPhone 17 Pro, avec une vitesse d’environ 0,6 token par seconde
- Le modèle utilise une architecture Mixture of Experts (MoE), avec seulement 5 milliards de paramètres réellement activés
- Reconstitué en version quantifiée en 4 bits, mais reste très lent
- Utilise une approche combinant RAM GPU et CPU ainsi que le chargement en streaming depuis le SSD
- Un fork de Flash-Moe a été réalisé et publié ici : Anemll/flash-moe (branche iOS-App)
1 commentaires
Avis Hacker News
Je me demande si cette méthode de streaming direct du SSD vers le GPU s’appuie sur l’article d’Apple de 2023 LLM in a Flash
J’ai rêvé que tout le monde se promenait avec une IA superintelligente dans sa poche, et qu’au final on ne faisait que du doomscrolling et du catfishing jusqu’à la fin du monde
Mon iPad Air (M2) fait tourner des LLM locaux plutôt correctement, mais il surchauffe en quelques secondes et se met tout de suite à throttler
Qwen3.5-397B-A17B se comporte en réalité comme un modèle 17B. Omettre la partie MoE dans le titre, c’est juste du marketing trompeur.
La quantization est aussi une sorte de cheat code, donc un jour quelqu’un finira peut-être par qualifier de « grand modèle » un modèle quantifié en 1 bit
Je me demande : « c’est un modèle 400B, mais avec une architecture MoE, combien de paramètres sont réellement actifs ? »
Cette actu me rappelle l’époque où llama.c venait de sortir et où tout le monde s’enthousiasmait parce que l’exécution locale devenait possible
J’ai installé Termux sur un vieux téléphone Android (LineageOS), puis j’y ai fait tourner Ollama avec un petit modèle. Les performances étaient atroces, mais ça tourne
Avec les modèles MoE de Qwen, quand la partie active tombe autour de 2B, les performances chutent brutalement. En inférence réelle, on n’utilise que des dizaines de fois moins de paramètres, donc appeler ça un modèle 400B n’a pas de sens
Quelqu’un demande : « combien de temps faudra-t-il avant qu’un modèle de ce niveau tourne à 100 tokens par seconde ? »
Si vous ne suivez pas anemll, sachez qu’il a aussi publié une version d’OpenClaw capable de fonctionner sur iPhone.
Avec l’évolution du matériel et des modèles, l’avenir de l’IA mobile semble assez prometteur