quantifié de Google Gemma 4 26B

(huggingface.co)

40 points par xguru 14 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Modèle texte uniquement basé sur Gemma 4 26B IT, optimisé pour MLX sur Apple Silicon et quantifié en 4 bits, pour une taille d’environ 13 Go
Plus intelligent que l’original, plus rapide sur la même machine, et modèle non censuré stable pour le code, l’usage d’outils et le coréen
Un flagship texte uniquement, axé sur le traitement rapide du texte plutôt que sur le multimodal
Amélioration à 95,8 points au quickbench (contre 91,4 pour l’original) et vitesse de génération 8,7 % plus rapide (46,2 tok/s), avec une latence de réponse nettement réduite à l’usage
Conserve le caractère non censuré (uncensored) comme propriété centrale, tout en produisant des sorties stables pour le code, l’usage d’outils et les prompts en coréen
- Score de génération de code à 98,6 (+6,3), avec des résultats bien plus précis que l’original pour écrire et refactoriser des fonctions Python en local
- Score de prompts en coréen de 95,0 (+4,3), utilisable directement en posant des questions en coréen sans dégradation
- Meilleures performances que l’original pour le coréen et les prompts de style agent
- En tant que modèle non censuré, zéro réponse bloquée par les filtres de contenu, sans sorties instables ni corrompues
Peut être intégré immédiatement dans des workloads / pipelines d’agents locaux pour l’automatisation de navigateur, les appels d’outils ou la planification
Exécution :
- mlx_lm.server --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 --port 8080
- Compatibilité de serving OpenAI prise en charge automatiquement, sans configuration de template supplémentaire (au contraire, fournir un chemin à --chat-template dégrade les réponses)
MLX 4-bit, tenseurs BF16·U32, format Safetensors

SuperGemma4 - modèle non censuré / plus rapide / quantifié de Google Gemma 4 26B

À lire aussi

Aucun commentaire pour le moment.