22 points par xguru 2025-08-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Un framework cross-platform qui permet d’exécuter directement des modèles GGUF sur divers appareils (smartphones, ordinateurs portables, TV, caméras, etc.)
    • Compatible avec n’importe quel modèle GGUF proposé sur Hugging Face, comme Qwen, Gemma, Llama, DeepSeek, etc.
    • Déploiement et exécution directs de modèles LLM/VLM/TTS dans l’application
  • Prend en charge Flutter, React Native, Kotlin Multiplatform et permet d’exécuter sur l’appareil des modèles de différents types, comme texte, vision, embeddings et TTS
  • Prend en charge les modèles du FP32 jusqu’aux modèles quantifiés en 2 bits, pour une grande efficacité et une faible consommation énergétique en environnement mobile
  • Prise en charge des chat templates (Jinja2), du streaming de tokens, du fallback automatique cloud-local, du Speech-To-Text, etc.
  • Le backend de Cactus est écrit en C/C++, ce qui lui permet de fonctionner directement dans presque tous les environnements : mobile, PC, embarqué, IoT, etc.
  • Sur les smartphones récents, Gemma3 1B Q4 fonctionne à 20 à 50 tokens/s et Qwen3 4B Q4 à 7 à 18 tokens/s
  • Les modèles recommandés peuvent être téléchargés depuis HuggingFace Cactus-Compute

Points d’usage et avantages

  • Contrairement aux frameworks LLM on-device existants, offre une prise en charge unifiée de plusieurs plateformes, ce qui facilite la mise en place d’une architecture hybride local-cloud
  • Permet d’utiliser sur mobile des LLM/VLM/TTS récents avec hautes performances et faible consommation
  • Adapté à de nombreux scénarios B2C/B2B, comme le traitement de données privées dans l’application ou le service, l’IA hors ligne et la réduction des coûts

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.