Google LiteRT-LM - Framework d’inférence LLM haute performance pour appareils edge
(github.com/google-ai-edge)- Moteur d’inférence LLM on-device de niveau production créé par Google, permettant d’exécuter de grands modèles de langage dans l’ensemble des environnements edge comme Android, iOS, le web, le desktop et l’IoT (Raspberry Pi)
- Ajout de la prise en charge du dernier modèle Gemma 4, avec des accélérations matérielles GPU·NPU pour offrir des performances d’inférence optimales même sur des appareils edge
- Prise en charge multimodale permettant de traiter des entrées visuelles (images) et audio, avec aussi la prise en charge de l’inférence avec image jointe via l’option
--attachmentdans le CLI - Function Calling (Tool Use) intégré pour les workflows agentiques
- Compatible avec divers modèles LLM comme Gemma, Llama, Phi-4 et Qwen, avec possibilité de télécharger un modèle depuis Hugging Face puis de lancer immédiatement l’inférence via une commande CLI en une ligne
- Démarrage immédiat avec
uv tool install litert-lm→litert-lm run
- Démarrage immédiat avec
- Déployé concrètement dans des produits Google comme Chrome, Chromebook Plus et Pixel Watch, où il fait tourner la GenAI on-device
- Exécution immédiate de modèles sur mobile via l’application Google AI Edge Gallery (disponible sur Google Play et l’App Store)
- API de langage : prise en charge stable de Kotlin (Android/JVM), Python (prototypage), C++ (natif haute performance), Swift (iOS/macOS) en cours de développement
- État des releases : v0.10.2 est la plus récente ; v0.10.1 a introduit Gemma 4 et le CLI ; v0.8.0 a apporté le GPU desktop et le multimodal ; v0.7.0 a ajouté l’accélération NPU
- Licence Apache-2.0
Aucun commentaire pour le moment.