Rapport technique de Gemma 3 de Google DeepMind [pdf]

(storage.googleapis.com)

2 points par GN⁺ 2025-03-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Gemma 3 est la nouvelle famille de modèles open source légers de Google DeepMind, avec des tailles de paramètres allant de 1B à 27B
Principales améliorations :
- Ajout de capacités multimodales → intégration de la compréhension visuelle
- Traitement de contexte long → jusqu’à 128K tokens
- Renforcement de la prise en charge multilingue → meilleures performances dans diverses langues
- Optimisation de l’utilisation mémoire → réduction de l’usage mémoire du KV-cache via l’ajustement du ratio entre couches d’attention locale et globale (5:1)
Entraînement par distillation de connaissances (Knowledge Distillation) → performances en hausse par rapport à la version précédente

Conservation d’une architecture Transformer de type decoder-only
Adoption de Grouped-Query Attention (GQA) → mécanisme d’attention plus efficace
Configuration du ratio attention locale/globale à 5:1 → taille de fenêtre locale maintenue à 1024 tokens
Extension de la fréquence de base de RoPE (Rotary Position Embedding) de 10K à 1M → meilleur support des contextes longs
Encodeur visuel : utilisation d’un encodeur basé sur SigLIP (400M paramètres)

Encodeur visuel : fonctionne en résolution 896 x 896
Application de la technique Pan & Scan (P&S) → prise en charge d’images aux ratios atypiques
L’encodeur visuel est partagé entre les modèles 4B, 12B et 27B → il reste gelé pendant l’entraînement

Entraînement réalisé par distillation de connaissances
Nombre de tokens utilisés pour l’entraînement :
- 1B → 2T tokens
- 4B → 4T tokens
- 12B → 12T tokens
- 27B → 14T tokens
Amélioration des performances multilingues → intégration de données monolingues et parallèles
Processus de nettoyage → suppression des informations personnelles et des données sensibles

Quantification effectuée après l’entraînement → disponible dans divers formats, dont int4 et fp8
Gain de mémoire :
- Pour le modèle 27B :
  - Original : 54GB → après quantification : minimum 14.1GB

Application conjointe d’apprentissage par renforcement et de distillation de connaissances
Renforcement de l’utilité, des mathématiques, du code, du raisonnement et des capacités multilingues
Principales techniques utilisées pour l’apprentissage par renforcement :
- BOND, WARM, WARP → application de méthodes de RL basées sur la récompense
Nettoyage des données → suppression des données inutiles et des informations sensibles

Ratio attention locale:globale → 5:1 est optimal pour les performances et l’usage mémoire
Taille de la fenêtre glissante → 1024 tokens maintiennent l’efficacité mémoire sans dégradation des performances
Réduction de la mémoire du KV-cache → baisse de 15 % par rapport à une attention uniquement globale

Départ de l’entraînement à 32K tokens → puis montée en échelle jusqu’à 128K tokens
Ajustement de la fréquence RoPE → extension du contexte sans perte de performances

Amélioration des performances avec l’augmentation de la résolution d’entrée :
- 256 → 896 de résolution : jusqu’à 20 % de gain
Gain de performances avec la technique Pan & Scan :
- DocVQA → +4.8%
- InfoVQA → +17.0%

Baisse du taux de mémorisation (Memorization Rate) :
- Gemma 3 réduit l’utilisation mémoire par rapport à Gemma 2
- Faible risque de fuite d’informations personnelles

Prévention des contenus nuisibles conformément aux politiques de sécurité de Google :
- prévention des abus sur mineurs, des discours haineux, des fuites d’informations personnelles, etc.
Application renforcée de l’apprentissage par renforcement et du RLHF → minimisation de la génération de contenus nuisibles

Gemma 3 progresse fortement par rapport à Gemma 2 sur les performances multimodales, multilingues et en contexte long
Renforcement de la compréhension visuelle, des mathématiques et du code
Optimisation de l’utilisation mémoire pour améliorer à la fois les performances et l’efficacité

À lire aussi