Modèles Gemma 3 QAT : l’IA de pointe arrive sur les GPU grand public

Gemma 3, annoncé le mois dernier, est un modèle d’IA open source offrant des performances de pointe, capable de fonctionner même sur un seul GPU haut de gamme comme le NVIDIA H100
Une version allégée utilisant la technique QAT (Quantization-Aware Training) a été lancée, ce qui permet désormais son exécution sur des GPU grand public
Grâce à la quantification int4, l’utilisation mémoire diminue fortement, tout en minimisant la perte de performances
Les modèles QAT peuvent fonctionner sur des GPU courants comme les RTX 3090 et RTX 4060, et sont directement utilisables via Hugging Face, Ollama, LM Studio, etc.
Divers modèles PTQ de la communauté sont également proposés, offrant un choix plus flexible

Présentation de Gemma 3 et aperçu des performances

Gemma 3, le dernier modèle open source annoncé par Google, est un grand modèle de langage aux performances remarquables
En précision BF16 (virgule flottante 16 bits), il peut s’exécuter sur un GPU NVIDIA H100 et a obtenu un excellent score Elo sur Chatbot Arena
L’usage du BF16 vise à permettre une comparaison équitable entre modèles, en évaluant leurs performances intrinsèques sans diverses optimisations

Alors que les grands modèles nécessitaient jusque-là des environnements cloud haut de gamme, la technique QAT a été appliquée pour permettre leur exécution sur du matériel grand public
La quantification (Quantization) réduit la précision numérique interne du modèle afin de diminuer l’utilisation mémoire et d’accélérer l’exécution
Exemple : en utilisant le format int4 au lieu de BF16, on obtient un effet de compression supérieur à 4x

Plutôt qu’une simple quantification en post-traitement, Google a utilisé une approche QAT (Quantization-Aware Training) qui intègre la quantification pendant l’entraînement
Pendant l’entraînement, les probabilités de prédiction d’un checkpoint non quantifié ont été utilisées comme valeurs cibles pendant environ 5 000 étapes
Avec cette méthode, la quantification Q4_0 a permis de réduire de 54 % la baisse de perplexité

Les économies de VRAM dues à la quantification int4 sont importantes, avec les réductions suivantes selon les modèles :
- Gemma 3 27B : 54GB → 14.1GB
- Gemma 3 12B : 24GB → 6.6GB
- Gemma 3 4B : 8GB → 2.6GB
- Gemma 3 1B : 2GB → 0.5GB
Ces chiffres ne couvrent que la VRAM nécessaire au chargement des poids du modèle ; le cache KV requis pendant l’exécution demande de la VRAM supplémentaire

Gemma 3 27B (int4) : exécution locale possible sur une RTX 3090 (24GB de VRAM)
Gemma 3 12B (int4) : fonctionne sans problème même sur un RTX 4060 Laptop (8GB de VRAM)
Gemma 3 4B et 1B : peuvent aussi tourner sur des smartphones et des appareils peu puissants

En plus des modèles QAT officiels, divers modèles PTQ de la communauté sont également disponibles
Principaux contributeurs : Bartowski, Unsloth, GGML
Ces différents modèles permettent de choisir l’équilibre souhaité entre vitesse, taille et qualité

Il s’agit d’une étape importante vers la démocratisation de l’IA : la version QAT de Gemma 3 peut être exécutée localement par tout le monde
Pour commencer :
- PC : Ollama
- Téléchargement du modèle : Hugging Face, Kaggle
- Exécution sur mobile : utiliser Google AI Edge