Modèles Gemma 3 QAT : l’IA de pointe arrive sur les GPU grand public
(developers.googleblog.com)- Gemma 3, annoncé le mois dernier, est un modèle d’IA open source offrant des performances de pointe, capable de fonctionner même sur un seul GPU haut de gamme comme le NVIDIA H100
- Une version allégée utilisant la technique QAT (Quantization-Aware Training) a été lancée, ce qui permet désormais son exécution sur des GPU grand public
- Grâce à la quantification int4, l’utilisation mémoire diminue fortement, tout en minimisant la perte de performances
- Les modèles QAT peuvent fonctionner sur des GPU courants comme les RTX 3090 et RTX 4060, et sont directement utilisables via Hugging Face, Ollama, LM Studio, etc.
- Divers modèles PTQ de la communauté sont également proposés, offrant un choix plus flexible
Présentation de Gemma 3 et aperçu des performances
- Gemma 3, le dernier modèle open source annoncé par Google, est un grand modèle de langage aux performances remarquables
- En précision BF16 (virgule flottante 16 bits), il peut s’exécuter sur un GPU NVIDIA H100 et a obtenu un excellent score Elo sur Chatbot Arena
- L’usage du BF16 vise à permettre une comparaison équitable entre modèles, en évaluant leurs performances intrinsèques sans diverses optimisations
Une quantification basée sur le QAT pour améliorer l’accessibilité
- Alors que les grands modèles nécessitaient jusque-là des environnements cloud haut de gamme, la technique QAT a été appliquée pour permettre leur exécution sur du matériel grand public
- La quantification (Quantization) réduit la précision numérique interne du modèle afin de diminuer l’utilisation mémoire et d’accélérer l’exécution
- Exemple : en utilisant le format int4 au lieu de BF16, on obtient un effet de compression supérieur à 4x
Préserver la qualité grâce au QAT
- Plutôt qu’une simple quantification en post-traitement, Google a utilisé une approche QAT (Quantization-Aware Training) qui intègre la quantification pendant l’entraînement
- Pendant l’entraînement, les probabilités de prédiction d’un checkpoint non quantifié ont été utilisées comme valeurs cibles pendant environ 5 000 étapes
- Avec cette méthode, la quantification Q4_0 a permis de réduire de 54 % la baisse de perplexité
Une réduction spectaculaire de l’usage de VRAM
-
Les économies de VRAM dues à la quantification int4 sont importantes, avec les réductions suivantes selon les modèles :
- Gemma 3 27B : 54GB → 14.1GB
- Gemma 3 12B : 24GB → 6.6GB
- Gemma 3 4B : 8GB → 2.6GB
- Gemma 3 1B : 2GB → 0.5GB
-
Ces chiffres ne couvrent que la VRAM nécessaire au chargement des poids du modèle ; le cache KV requis pendant l’exécution demande de la VRAM supplémentaire
Exécutable sur une large gamme d’appareils
- Gemma 3 27B (int4) : exécution locale possible sur une RTX 3090 (24GB de VRAM)
- Gemma 3 12B (int4) : fonctionne sans problème même sur un RTX 4060 Laptop (8GB de VRAM)
- Gemma 3 4B et 1B : peuvent aussi tourner sur des smartphones et des appareils peu puissants
Intégration et utilisation simplifiées
-
Les modèles QAT sont directement utilisables sur de nombreuses plateformes et avec divers outils :
- Ollama : exécution avec une simple ligne de commande
- LM Studio : téléchargement et exécution via une interface GUI
- MLX : inférence hautement efficace sur Apple Silicon
- Gemma.cpp : exécution performante sur CPU
- llama.cpp : intégration facile au format GGUF
Les modèles communautaires du Gemmaverse
- En plus des modèles QAT officiels, divers modèles PTQ de la communauté sont également disponibles
- Principaux contributeurs : Bartowski, Unsloth, GGML
- Ces différents modèles permettent de choisir l’équilibre souhaité entre vitesse, taille et qualité
Disponible dès maintenant
- Il s’agit d’une étape importante vers la démocratisation de l’IA : la version QAT de Gemma 3 peut être exécutée localement par tout le monde
- Pour commencer :
- PC : Ollama
- Téléchargement du modèle : Hugging Face, Kaggle
- Exécution sur mobile : utiliser Google AI Edge
1 commentaires
Avis Hacker News
le modèle gemma-3-27b-it-qat-4bit est devenu un nouveau modèle favori, avec Mistral Small 3.1 24B
pour des questions personnelles de type « prise de température », le modèle 4bit QAT 27B fournit des réponses précises
le premier graphique compare le « Elo Score » en précision BF16, et le second compare l'utilisation de la VRAM
utilisation de gemma3:27b-it-qat au lieu de qwen2.5 pour les tâches quotidiennes sur un Mac avec 32G de mémoire
fonctionne sur un CPU AMD 3950x à 16 cœurs, avec des résultats très impressionnants en traduction et en description d'images
après téléchargement du dernier QAT gemma3:27b, les performances ont été améliorées d'un facteur de 1,47
les LLM locaux doivent être traités comme des citoyens de première classe par les entreprises
Microsoft et Apple ont fait la promotion des AI PC et d'Apple Intelligence, mais en pratique les modèles utilisables sur des GPU grand public ne sont possibles qu'avec des GPU haut de gamme
Gemma 3 est bien supérieur à Llama 4
disponible dans Ollama