6 points par GN⁺ 2026-03-24 | 1 commentaires | Partager sur WhatsApp
  • Exécution d’un LLM de 400 milliards de paramètres sur iPhone 17 Pro, avec une vitesse d’environ 0,6 token par seconde
  • Le modèle utilise une architecture Mixture of Experts (MoE), avec seulement 5 milliards de paramètres réellement activés
  • Reconstitué en version quantifiée en 4 bits, mais reste très lent
  • Utilise une approche combinant RAM GPU et CPU ainsi que le chargement en streaming depuis le SSD
  • Un fork de Flash-Moe a été réalisé et publié ici : Anemll/flash-moe (branche iOS-App)

1 commentaires

 
GN⁺ 2026-03-24
Avis Hacker News
  • Je me demande si cette méthode de streaming direct du SSD vers le GPU s’appuie sur l’article d’Apple de 2023 LLM in a Flash

    • Oui. J’ai rassemblé les détails pertinents dans ce billet de blog
    • Une approche similaire a aussi été présentée récemment dans ce fil HN. Cela dit, l’iPhone Pro est limité à 12 Go de RAM, ce qui ne suffit pas pour contenir la partie active du modèle. On pourrait aussi utiliser un stockage endurant comme Intel Optane, mais la consommation électrique est trop élevée pour le mobile
    • Cette méthode ne diffère pas beaucoup de l’architecture de Cerebus, qui streame les weights
  • J’ai rêvé que tout le monde se promenait avec une IA superintelligente dans sa poche, et qu’au final on ne faisait que du doomscrolling et du catfishing jusqu’à la fin du monde

    • Ça fait penser à un Nostradamus des temps modernes
  • Mon iPad Air (M2) fait tourner des LLM locaux plutôt correctement, mais il surchauffe en quelques secondes et se met tout de suite à throttler

    • Je me demande si quelqu’un a déjà fabriqué un système de refroidissement liquide pour iPad ou smartphone, une sorte de dispositif fermé plaqué au dos de l’appareil pour faire circuler un liquide de refroidissement
  • Qwen3.5-397B-A17B se comporte en réalité comme un modèle 17B. Omettre la partie MoE dans le titre, c’est juste du marketing trompeur.
    La quantization est aussi une sorte de cheat code, donc un jour quelqu’un finira peut-être par qualifier de « grand modèle » un modèle quantifié en 1 bit

    • En pratique, il se comporte plutôt comme un modèle d’environ 80B, et son niveau de connaissance du monde est plus proche d’un 400B. L’architecture du modèle, la quantization et même le temps jusqu’au premier token sont tous publiés, donc il n’y a pas vraiment matière à confusion. Ce genre d’essai ressemble davantage à une expérience technique façon code golf qu’à quelque chose destiné au grand public
  • Je me demande : « c’est un modèle 400B, mais avec une architecture MoE, combien de paramètres sont réellement actifs ? »

    • Sur Qwen3.5-397B-A17B, 17B paramètres sont actifs. Le code correspondant est visible dans le dépôt de l’app flash-moe iOS
    • De nos jours, la plupart des entreprises adoptent une architecture MoE
  • Cette actu me rappelle l’époque où llama.c venait de sortir et où tout le monde s’enthousiasmait parce que l’exécution locale devenait possible

  • J’ai installé Termux sur un vieux téléphone Android (LineageOS), puis j’y ai fait tourner Ollama avec un petit modèle. Les performances étaient atroces, mais ça tourne

    • Je me souviens aussi avoir installé Linux Deploy sur un Galaxy Note pour y compiler et exécuter moi-même un mineur de bitcoins. Les performances étaient nulles, mais j’avais l’impression d’avoir un vrai ordinateur complet dans la poche. À l’époque de Nokia, on ne pouvait rien exécuter en dehors du JS du navigateur, alors qu’Android était une vraie plateforme hackable
    • Pour info, mon Pixel 8 fait tourner le modèle Qwen3.5 4B à 2 tokens par seconde. Ça marche bien dans l’app PocketPal, mais l’app Cactus n’a pas fonctionné
  • Avec les modèles MoE de Qwen, quand la partie active tombe autour de 2B, les performances chutent brutalement. En inférence réelle, on n’utilise que des dizaines de fois moins de paramètres, donc appeler ça un modèle 400B n’a pas de sens

  • Quelqu’un demande : « combien de temps faudra-t-il avant qu’un modèle de ce niveau tourne à 100 tokens par seconde ? »

    • La seule solution serait d’intégrer directement le modèle dans le matériel. Un tel type de puce est bien présenté dans ce billet de blog, mais c’est trop volumineux pour tenir dans un smartphone
    • Sur smartphone, cela n’a pas vraiment d’intérêt de faire tourner de tels grands modèles. Il est plus rapide et plus précis de fine-tuner un petit modèle pour un usage spécifique
    • Le modèle Apollo (LFM2) de Liquid AI fonctionne déjà assez vite sur téléphone et s’avère utile pour des tâches comme le résumé de résultats de recherche ou la résolution de problèmes de maths
    • À mon avis, c’est irréaliste. Il n’y a pas de solution d’ingénierie aujourd’hui
    • Je dirais probablement 15 à 20 ans. Dire qu’un tel modèle « tourne » sur un téléphone aujourd’hui n’est vrai que d’un point de vue technique. En pratique, la capacité RAM et la bande passante mémoire sont très insuffisantes. On peut faire une démo avec un SSD, mais ce n’est pas pratique. Au final, il faudra de nouveaux algorithmes et une conception de puces sur mesure. Avec l’architecture Transformer actuelle, les limites sont évidentes
  • Si vous ne suivez pas anemll, sachez qu’il a aussi publié une version d’OpenClaw capable de fonctionner sur iPhone.
    Avec l’évolution du matériel et des modèles, l’avenir de l’IA mobile semble assez prometteur