6 points par GN⁺ 2026-03-24 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Exécution d’un LLM de 400 milliards de paramètres sur iPhone 17 Pro, avec une vitesse d’environ 0,6 token par seconde
  • Le modèle utilise une architecture Mixture of Experts (MoE), avec seulement 5 milliards de paramètres réellement activés
  • Reconstitué en version quantifiée en 4 bits, mais reste très lent
  • Utilise une approche combinant RAM GPU et CPU ainsi que le chargement en streaming depuis le SSD
  • Un fork de Flash-Moe a été réalisé et publié ici : Anemll/flash-moe (branche iOS-App)

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.