- Gemma 3 est la nouvelle famille de modèles open source légers de Google DeepMind, avec des tailles de paramètres allant de 1B à 27B
- Principales améliorations :
- Ajout de capacités multimodales → intégration de la compréhension visuelle
- Traitement de contexte long → jusqu’à 128K tokens
- Renforcement de la prise en charge multilingue → meilleures performances dans diverses langues
- Optimisation de l’utilisation mémoire → réduction de l’usage mémoire du KV-cache via l’ajustement du ratio entre couches d’attention locale et globale (5:1)
- Entraînement par distillation de connaissances (Knowledge Distillation) → performances en hausse par rapport à la version précédente
# Architecture du modèle
- Conservation d’une architecture Transformer de type decoder-only
- Adoption de Grouped-Query Attention (GQA) → mécanisme d’attention plus efficace
- Configuration du ratio attention locale/globale à 5:1 → taille de fenêtre locale maintenue à 1024 tokens
- Extension de la fréquence de base de RoPE (Rotary Position Embedding) de 10K à 1M → meilleur support des contextes longs
- Encodeur visuel : utilisation d’un encodeur basé sur SigLIP (400M paramètres)
# Modalité vision
- Encodeur visuel : fonctionne en résolution 896 x 896
- Application de la technique Pan & Scan (P&S) → prise en charge d’images aux ratios atypiques
- L’encodeur visuel est partagé entre les modèles 4B, 12B et 27B → il reste gelé pendant l’entraînement
# Pré-entraînement (Pre-training)
- Entraînement réalisé par distillation de connaissances
- Nombre de tokens utilisés pour l’entraînement :
- 1B → 2T tokens
- 4B → 4T tokens
- 12B → 12T tokens
- 27B → 14T tokens
- Amélioration des performances multilingues → intégration de données monolingues et parallèles
- Processus de nettoyage → suppression des informations personnelles et des données sensibles
# Entraînement conscient de la quantification (Quantization Aware Training)
- Quantification effectuée après l’entraînement → disponible dans divers formats, dont int4 et fp8
- Gain de mémoire :
- Pour le modèle 27B :
- Original : 54GB → après quantification : minimum 14.1GB
# Ajustement aux instructions (Instruction Tuning)
- Application conjointe d’apprentissage par renforcement et de distillation de connaissances
- Renforcement de l’utilité, des mathématiques, du code, du raisonnement et des capacités multilingues
- Principales techniques utilisées pour l’apprentissage par renforcement :
- BOND, WARM, WARP → application de méthodes de RL basées sur la récompense
- Nettoyage des données → suppression des données inutiles et des informations sensibles
# Évaluation des performances
Résultats de l’évaluation LMSYS Chatbot Arena
- Modèle Gemma 3 27B IT : score Elo de 1338 → performances dans le top 10
- Performances proches de GPT-4.5 et de Grok-3-Preview
- +118 points par rapport à la version précédente, Gemma 2 27B
Performances sur benchmarks standard
- MMLU-Pro : 67.5 (environ +10 points vs Gemma 2)
- MATH : 89.0 (environ +34 points vs Gemma 2)
- LiveCodeBench : 29.7 (environ +9 points vs Gemma 2)
# Analyse des performances selon les changements structurels
- Ratio attention locale:globale → 5:1 est optimal pour les performances et l’usage mémoire
- Taille de la fenêtre glissante → 1024 tokens maintiennent l’efficacité mémoire sans dégradation des performances
- Réduction de la mémoire du KV-cache → baisse de 15 % par rapport à une attention uniquement globale
# Renforcement du support des contextes longs
- Départ de l’entraînement à 32K tokens → puis montée en échelle jusqu’à 128K tokens
- Ajustement de la fréquence RoPE → extension du contexte sans perte de performances
# Évaluation des performances de l’encodeur visuel
- Amélioration des performances avec l’augmentation de la résolution d’entrée :
- 256 → 896 de résolution : jusqu’à 20 % de gain
- Gain de performances avec la technique Pan & Scan :
- DocVQA → +4.8%
- InfoVQA → +17.0%
# Mémoire et protection de la vie privée
- Baisse du taux de mémorisation (Memorization Rate) :
- Gemma 3 réduit l’utilisation mémoire par rapport à Gemma 2
- Faible risque de fuite d’informations personnelles
# Responsabilité, sûreté et sécurité
- Prévention des contenus nuisibles conformément aux politiques de sécurité de Google :
- prévention des abus sur mineurs, des discours haineux, des fuites d’informations personnelles, etc.
- Application renforcée de l’apprentissage par renforcement et du RLHF → minimisation de la génération de contenus nuisibles
# Conclusion
- Gemma 3 progresse fortement par rapport à Gemma 2 sur les performances multimodales, multilingues et en contexte long
- Renforcement de la compréhension visuelle, des mathématiques et du code
- Optimisation de l’utilisation mémoire pour améliorer à la fois les performances et l’efficacité
Aucun commentaire pour le moment.