- Un framework cross-platform qui permet d’exécuter directement des modèles GGUF sur divers appareils (smartphones, ordinateurs portables, TV, caméras, etc.)
- Compatible avec n’importe quel modèle GGUF proposé sur Hugging Face, comme Qwen, Gemma, Llama, DeepSeek, etc.
- Déploiement et exécution directs de modèles LLM/VLM/TTS dans l’application
- Prend en charge Flutter, React Native, Kotlin Multiplatform et permet d’exécuter sur l’appareil des modèles de différents types, comme texte, vision, embeddings et TTS
- Prend en charge les modèles du FP32 jusqu’aux modèles quantifiés en 2 bits, pour une grande efficacité et une faible consommation énergétique en environnement mobile
- Prise en charge des chat templates (Jinja2), du streaming de tokens, du fallback automatique cloud-local, du Speech-To-Text, etc.
- Le backend de Cactus est écrit en C/C++, ce qui lui permet de fonctionner directement dans presque tous les environnements : mobile, PC, embarqué, IoT, etc.
- Sur les smartphones récents, Gemma3 1B Q4 fonctionne à 20 à 50 tokens/s et Qwen3 4B Q4 à 7 à 18 tokens/s
- Les modèles recommandés peuvent être téléchargés depuis HuggingFace Cactus-Compute
Points d’usage et avantages
- Contrairement aux frameworks LLM on-device existants, offre une prise en charge unifiée de plusieurs plateformes, ce qui facilite la mise en place d’une architecture hybride local-cloud
- Permet d’utiliser sur mobile des LLM/VLM/TTS récents avec hautes performances et faible consommation
- Adapté à de nombreux scénarios B2C/B2B, comme le traitement de données privées dans l’application ou le service, l’IA hors ligne et la réduction des coûts
Aucun commentaire pour le moment.