10 points par haebom 2024-06-28 | 6 commentaires | Partager sur WhatsApp

Points clés :

Gemma 2 est une nouvelle famille de modèles de langage ouverts, légers et de pointe, allant de 200 millions à 27 milliards de paramètres.
Les modèles de 9 milliards et 27 milliards de paramètres sont disponibles dès maintenant, et le modèle de 2 milliards arrivera prochainement.

Principales améliorations techniques :

  • utilisation croisée de l’attention locale et globale
  • group-query attention
  • apprentissage par distillation de connaissances pour les petits modèles
    Les modèles affichent les meilleures performances de leur catégorie en fonction de leur taille et sont compétitifs face à des modèles 2 à 3 fois plus grands.

Architecture des modèles :

  • architecture Transformer de type décodeur uniquement
  • longueur de contexte de 8192 tokens
  • alternance entre une fenêtre glissante locale (4096 tokens) et des couches d’attention globale
  • group-query attention (GQA)
  • RMSNorm pour la normalisation des couches

Entraînement :

  • le modèle 27B a été entraîné sur 13 billions de tokens
  • le modèle 9B a été entraîné sur 8 billions de tokens
  • le modèle 2,6B a été entraîné sur 2 billions de tokens
  • sources de données : documents web, code, articles scientifiques
  • utilisation de la distillation de connaissances pour les modèles 2,6B et 9B

Performances :

  • surpasse des modèles ouverts comparables sur les benchmarks
  • compétitif face à certains modèles plus grands
  • résultats solides sur les tâches de questions-réponses, raisonnement, mathématiques, sciences et code

Sécurité & responsabilité :

  • mise en œuvre de tests de sécurité étendus et de procédures de déploiement responsable
  • application de politiques de sécurité et de mesures d’atténuation pendant l’entraînement
  • mise à disposition d’une boîte à outils d’IA générative responsable pour les développeurs

6 commentaires

 
savvykang 2024-06-28

Le moment viendra-t-il où l’on pourra faire tourner un LLM uniquement sur CPU ?

 
haebom 2024-06-28

Avec environ 20B, on peut tout à fait le faire tourner uniquement sur CPU. À partir de 60B, ça devient difficile ou ça fonctionne mal. (L'entraînement, c'est encore un autre domaine.) Essayez ollama une fois.

 
savvykang 2024-06-28

Je n’avais absolument aucune idée des spécifications requises, donc merci pour vos conseils. Il semble que ce soit encore trop ambitieux pour un portable Intel de 11e génération, il va donc falloir l’installer sur un serveur de virtualisation ou quelque chose du genre.

 
hhkkkk 2024-06-29

Il suffit d’installer LM Studio.

 
savvykang 2024-06-29

La raison pour laquelle j’ai dit que cela me semblait trop exigeant sur un ordinateur portable, c’est que l’utilisation du CPU montait à 100 % sur tous les cœurs et que la chauffe était importante, donc je n’avais pas l’impression d’une utilisation confortable. LM Studio dispose d’une interface de prompt, ce qui est appréciable en termes d’ergonomie, mais je ne pense pas que cela suffise à offrir un vrai confort d’utilisation.

 
hhkkkk 2024-06-28

Euh...? C'est déjà le cas ;;