12 points par GN⁺ 2025-04-21 | 1 commentaires | Partager sur WhatsApp
  • Gemma 3, annoncé le mois dernier, est un modèle d’IA open source offrant des performances de pointe, capable de fonctionner même sur un seul GPU haut de gamme comme le NVIDIA H100
  • Une version allégée utilisant la technique QAT (Quantization-Aware Training) a été lancée, ce qui permet désormais son exécution sur des GPU grand public
  • Grâce à la quantification int4, l’utilisation mémoire diminue fortement, tout en minimisant la perte de performances
  • Les modèles QAT peuvent fonctionner sur des GPU courants comme les RTX 3090 et RTX 4060, et sont directement utilisables via Hugging Face, Ollama, LM Studio, etc.
  • Divers modèles PTQ de la communauté sont également proposés, offrant un choix plus flexible

Présentation de Gemma 3 et aperçu des performances

  • Gemma 3, le dernier modèle open source annoncé par Google, est un grand modèle de langage aux performances remarquables
  • En précision BF16 (virgule flottante 16 bits), il peut s’exécuter sur un GPU NVIDIA H100 et a obtenu un excellent score Elo sur Chatbot Arena
  • L’usage du BF16 vise à permettre une comparaison équitable entre modèles, en évaluant leurs performances intrinsèques sans diverses optimisations

Une quantification basée sur le QAT pour améliorer l’accessibilité

  • Alors que les grands modèles nécessitaient jusque-là des environnements cloud haut de gamme, la technique QAT a été appliquée pour permettre leur exécution sur du matériel grand public
  • La quantification (Quantization) réduit la précision numérique interne du modèle afin de diminuer l’utilisation mémoire et d’accélérer l’exécution
  • Exemple : en utilisant le format int4 au lieu de BF16, on obtient un effet de compression supérieur à 4x

Préserver la qualité grâce au QAT

  • Plutôt qu’une simple quantification en post-traitement, Google a utilisé une approche QAT (Quantization-Aware Training) qui intègre la quantification pendant l’entraînement
  • Pendant l’entraînement, les probabilités de prédiction d’un checkpoint non quantifié ont été utilisées comme valeurs cibles pendant environ 5 000 étapes
  • Avec cette méthode, la quantification Q4_0 a permis de réduire de 54 % la baisse de perplexité

Une réduction spectaculaire de l’usage de VRAM

  • Les économies de VRAM dues à la quantification int4 sont importantes, avec les réductions suivantes selon les modèles :

    • Gemma 3 27B : 54GB → 14.1GB
    • Gemma 3 12B : 24GB → 6.6GB
    • Gemma 3 4B : 8GB → 2.6GB
    • Gemma 3 1B : 2GB → 0.5GB
  • Ces chiffres ne couvrent que la VRAM nécessaire au chargement des poids du modèle ; le cache KV requis pendant l’exécution demande de la VRAM supplémentaire

Exécutable sur une large gamme d’appareils

  • Gemma 3 27B (int4) : exécution locale possible sur une RTX 3090 (24GB de VRAM)
  • Gemma 3 12B (int4) : fonctionne sans problème même sur un RTX 4060 Laptop (8GB de VRAM)
  • Gemma 3 4B et 1B : peuvent aussi tourner sur des smartphones et des appareils peu puissants

Intégration et utilisation simplifiées

  • Les modèles QAT sont directement utilisables sur de nombreuses plateformes et avec divers outils :

    • Ollama : exécution avec une simple ligne de commande
    • LM Studio : téléchargement et exécution via une interface GUI
    • MLX : inférence hautement efficace sur Apple Silicon
    • Gemma.cpp : exécution performante sur CPU
    • llama.cpp : intégration facile au format GGUF

Les modèles communautaires du Gemmaverse

  • En plus des modèles QAT officiels, divers modèles PTQ de la communauté sont également disponibles
  • Principaux contributeurs : Bartowski, Unsloth, GGML
  • Ces différents modèles permettent de choisir l’équilibre souhaité entre vitesse, taille et qualité

Disponible dès maintenant

  • Il s’agit d’une étape importante vers la démocratisation de l’IA : la version QAT de Gemma 3 peut être exécutée localement par tout le monde
  • Pour commencer :

1 commentaires

 
GN⁺ 2025-04-21
Avis Hacker News
  • le modèle gemma-3-27b-it-qat-4bit est devenu un nouveau modèle favori, avec Mistral Small 3.1 24B

    • utilisé sur un M2 64GB via Ollama et MLX, avec une faible utilisation mémoire laissant largement de la marge pour lancer d'autres applications
    • de bons résultats ont été obtenus pour écrire un plugin pour des outils LLM
  • pour des questions personnelles de type « prise de température », le modèle 4bit QAT 27B fournit des réponses précises

    • étonnement face à la densité d'information contenue dans 13GB de poids
    • le modèle Gemma 3 27B de Deepmind est le modèle open source le plus impressionnant
  • le premier graphique compare le « Elo Score » en précision BF16, et le second compare l'utilisation de la VRAM

    • c'est regrettable qu'il n'y ait pas de graphique comparant la qualité entre BF16 et QAT
  • utilisation de gemma3:27b-it-qat au lieu de qwen2.5 pour les tâches quotidiennes sur un Mac avec 32G de mémoire

    • très utile pour le développement en Python, Haskell et Common Lisp
    • exécuter des modèles open source en local est satisfaisant
  • fonctionne sur un CPU AMD 3950x à 16 cœurs, avec des résultats très impressionnants en traduction et en description d'images

    • pour la traduction, la commande est ajustée afin d'éviter l'analyse de la langue d'entrée
  • après téléchargement du dernier QAT gemma3:27b, les performances ont été améliorées d'un facteur de 1,47

  • les LLM locaux doivent être traités comme des citoyens de première classe par les entreprises

    • le premier graphique peut prêter à confusion concernant le nombre de H100 nécessaires pour exécuter DeepSeek r1 en FP16
  • Microsoft et Apple ont fait la promotion des AI PC et d'Apple Intelligence, mais en pratique les modèles utilisables sur des GPU grand public ne sont possibles qu'avec des GPU haut de gamme

  • Gemma 3 est bien supérieur à Llama 4

    • Meta pourrait perdre sa position sur le marché des LLM
    • la taille des modèles Llama 4 est trop importante, ce qui limite les utilisateurs
    • Gemma 3 est largement utilisable sur toutes les tailles de matériel
  • disponible dans Ollama