Google LiteRT-LM - Framework d’inférence LLM haute performance pour appareils edge

(github.com/google-ai-edge)

14 points par xguru 8 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Moteur d’inférence LLM on-device de niveau production créé par Google, permettant d’exécuter de grands modèles de langage dans l’ensemble des environnements edge comme Android, iOS, le web, le desktop et l’IoT (Raspberry Pi)
Ajout de la prise en charge du dernier modèle Gemma 4, avec des accélérations matérielles GPU·NPU pour offrir des performances d’inférence optimales même sur des appareils edge
Prise en charge multimodale permettant de traiter des entrées visuelles (images) et audio, avec aussi la prise en charge de l’inférence avec image jointe via l’option --attachment dans le CLI
Function Calling (Tool Use) intégré pour les workflows agentiques
Compatible avec divers modèles LLM comme Gemma, Llama, Phi-4 et Qwen, avec possibilité de télécharger un modèle depuis Hugging Face puis de lancer immédiatement l’inférence via une commande CLI en une ligne
- Démarrage immédiat avec uv tool install litert-lm → litert-lm run
Déployé concrètement dans des produits Google comme Chrome, Chromebook Plus et Pixel Watch, où il fait tourner la GenAI on-device
Exécution immédiate de modèles sur mobile via l’application Google AI Edge Gallery (disponible sur Google Play et l’App Store)
API de langage : prise en charge stable de Kotlin (Android/JVM), Python (prototypage), C++ (natif haute performance), Swift (iOS/macOS) en cours de développement
État des releases : v0.10.2 est la plus récente ; v0.10.1 a introduit Gemma 4 et le CLI ; v0.8.0 a apporté le GPU desktop et le multimodal ; v0.7.0 a ajouté l’accélération NPU
Licence Apache-2.0

Google LiteRT-LM - Framework d’inférence LLM haute performance pour appareils edge

À lire aussi

Aucun commentaire pour le moment.