- Fournit un pipeline d’inférence LLM pouvant s’exécuter sur l’Apple Neural Engine (ANE)
- Permet une inférence on-device dans des applications Swift/C++ ou des apps iOS/macOS à partir de modèles Hugging Face
- La toute dernière version 0.3.0 Alpha inclut des outils pour convertir des modèles Hugging Face au format CoreML, une implémentation CLI d’inférence en Swift, des exemples d’apps iOS/macOS, du code de test Python et des outils de benchmark
- Prend en charge les modèles LLaMA 3.2 (1B / 8B) ainsi que Distilled DeepSeek R1 8B et DeepHermes 3B / 8B, avec une extension prévue à davantage d’architectures de modèles à l’avenir
- L’objectif est de fournir un framework flexible et simple permettant de convertir des modèles Hugging Face pour l’ANE
1 commentaires
Avis sur Hacker News
Quelqu’un se demande s’il y a eu un suivi concernant l’affirmation d’Apple selon laquelle les modèles optimisés pour l’ANE seraient « jusqu’à 10 fois plus rapides avec une consommation mémoire 14 fois plus faible »
Lors du lancement des laptops Snapdragon X, il avait été affirmé que le NPU serait utilisé pour les LLM
Quelqu’un a eu l’impression que le Neural Engine était du silicium gaspillé
Le principal avantage serait une consommation électrique nettement plus faible
Le README ne contient pas l’information la plus importante
Quelqu’un essaie de comprendre quel est le secret de cette technologie
La mémoire unifiée d’Apple fournit suffisamment de RAM pour exécuter de gros modèles qui nécessiteraient autrement plusieurs GPU
Quelqu’un se demande si
coremlutilise l’ANEQuelqu’un se demande s’il y a un gain de performances pour la vitesse d’inférence sur les MacBook de la série M
Le contrôle strict d’Apple sur l’ANE surprend