Cactus - Ollama pour smartphone

(github.com/cactus-compute)

22 points par xguru 2025-08-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Un framework cross-platform qui permet d’exécuter directement des modèles GGUF sur divers appareils (smartphones, ordinateurs portables, TV, caméras, etc.)
- Compatible avec n’importe quel modèle GGUF proposé sur Hugging Face, comme Qwen, Gemma, Llama, DeepSeek, etc.
- Déploiement et exécution directs de modèles LLM/VLM/TTS dans l’application
Prend en charge Flutter, React Native, Kotlin Multiplatform et permet d’exécuter sur l’appareil des modèles de différents types, comme texte, vision, embeddings et TTS
Prend en charge les modèles du FP32 jusqu’aux modèles quantifiés en 2 bits, pour une grande efficacité et une faible consommation énergétique en environnement mobile
Prise en charge des chat templates (Jinja2), du streaming de tokens, du fallback automatique cloud-local, du Speech-To-Text, etc.
Le backend de Cactus est écrit en C/C++, ce qui lui permet de fonctionner directement dans presque tous les environnements : mobile, PC, embarqué, IoT, etc.
Sur les smartphones récents, Gemma3 1B Q4 fonctionne à 20 à 50 tokens/s et Qwen3 4B Q4 à 7 à 18 tokens/s
Les modèles recommandés peuvent être téléchargés depuis HuggingFace Cactus-Compute

Points d’usage et avantages

Contrairement aux frameworks LLM on-device existants, offre une prise en charge unifiée de plusieurs plateformes, ce qui facilite la mise en place d’une architecture hybride local-cloud
Permet d’utiliser sur mobile des LLM/VLM/TTS récents avec hautes performances et faible consommation
Adapté à de nombreux scénarios B2C/B2B, comme le traitement de données privées dans l’application ou le service, l’IA hors ligne et la réduction des coûts