2 points par GN⁺ 2025-03-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Gemma 3 est la nouvelle famille de modèles open source légers de Google DeepMind, avec des tailles de paramètres allant de 1B à 27B
  • Principales améliorations :
    • Ajout de capacités multimodales → intégration de la compréhension visuelle
    • Traitement de contexte long → jusqu’à 128K tokens
    • Renforcement de la prise en charge multilingue → meilleures performances dans diverses langues
    • Optimisation de l’utilisation mémoire → réduction de l’usage mémoire du KV-cache via l’ajustement du ratio entre couches d’attention locale et globale (5:1)
  • Entraînement par distillation de connaissances (Knowledge Distillation) → performances en hausse par rapport à la version précédente

# Architecture du modèle

  • Conservation d’une architecture Transformer de type decoder-only
  • Adoption de Grouped-Query Attention (GQA) → mécanisme d’attention plus efficace
  • Configuration du ratio attention locale/globale à 5:1 → taille de fenêtre locale maintenue à 1024 tokens
  • Extension de la fréquence de base de RoPE (Rotary Position Embedding) de 10K à 1M → meilleur support des contextes longs
  • Encodeur visuel : utilisation d’un encodeur basé sur SigLIP (400M paramètres)

# Modalité vision

  • Encodeur visuel : fonctionne en résolution 896 x 896
  • Application de la technique Pan & Scan (P&S) → prise en charge d’images aux ratios atypiques
  • L’encodeur visuel est partagé entre les modèles 4B, 12B et 27B → il reste gelé pendant l’entraînement

# Pré-entraînement (Pre-training)

  • Entraînement réalisé par distillation de connaissances
  • Nombre de tokens utilisés pour l’entraînement :
    • 1B → 2T tokens
    • 4B → 4T tokens
    • 12B → 12T tokens
    • 27B → 14T tokens
  • Amélioration des performances multilingues → intégration de données monolingues et parallèles
  • Processus de nettoyage → suppression des informations personnelles et des données sensibles

# Entraînement conscient de la quantification (Quantization Aware Training)

  • Quantification effectuée après l’entraînement → disponible dans divers formats, dont int4 et fp8
  • Gain de mémoire :
    • Pour le modèle 27B :
      • Original : 54GB → après quantification : minimum 14.1GB

# Ajustement aux instructions (Instruction Tuning)

  • Application conjointe d’apprentissage par renforcement et de distillation de connaissances
  • Renforcement de l’utilité, des mathématiques, du code, du raisonnement et des capacités multilingues
  • Principales techniques utilisées pour l’apprentissage par renforcement :
    • BOND, WARM, WARP → application de méthodes de RL basées sur la récompense
  • Nettoyage des données → suppression des données inutiles et des informations sensibles

# Évaluation des performances

Résultats de l’évaluation LMSYS Chatbot Arena

  • Modèle Gemma 3 27B IT : score Elo de 1338 → performances dans le top 10
  • Performances proches de GPT-4.5 et de Grok-3-Preview
  • +118 points par rapport à la version précédente, Gemma 2 27B

Performances sur benchmarks standard

  • MMLU-Pro : 67.5 (environ +10 points vs Gemma 2)
  • MATH : 89.0 (environ +34 points vs Gemma 2)
  • LiveCodeBench : 29.7 (environ +9 points vs Gemma 2)

# Analyse des performances selon les changements structurels

  • Ratio attention locale:globale → 5:1 est optimal pour les performances et l’usage mémoire
  • Taille de la fenêtre glissante → 1024 tokens maintiennent l’efficacité mémoire sans dégradation des performances
  • Réduction de la mémoire du KV-cache → baisse de 15 % par rapport à une attention uniquement globale

# Renforcement du support des contextes longs

  • Départ de l’entraînement à 32K tokens → puis montée en échelle jusqu’à 128K tokens
  • Ajustement de la fréquence RoPE → extension du contexte sans perte de performances

# Évaluation des performances de l’encodeur visuel

  • Amélioration des performances avec l’augmentation de la résolution d’entrée :
    • 256 → 896 de résolution : jusqu’à 20 % de gain
  • Gain de performances avec la technique Pan & Scan :
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# Mémoire et protection de la vie privée

  • Baisse du taux de mémorisation (Memorization Rate) :
    • Gemma 3 réduit l’utilisation mémoire par rapport à Gemma 2
    • Faible risque de fuite d’informations personnelles

# Responsabilité, sûreté et sécurité

  • Prévention des contenus nuisibles conformément aux politiques de sécurité de Google :
    • prévention des abus sur mineurs, des discours haineux, des fuites d’informations personnelles, etc.
  • Application renforcée de l’apprentissage par renforcement et du RLHF → minimisation de la génération de contenus nuisibles

# Conclusion

  • Gemma 3 progresse fortement par rapport à Gemma 2 sur les performances multimodales, multilingues et en contexte long
  • Renforcement de la compréhension visuelle, des mathématiques et du code
  • Optimisation de l’utilisation mémoire pour améliorer à la fois les performances et l’efficacité

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.