Points clés :
Gemma 2 est une nouvelle famille de modèles de langage ouverts, légers et de pointe, allant de 200 millions à 27 milliards de paramètres.
Les modèles de 9 milliards et 27 milliards de paramètres sont disponibles dès maintenant, et le modèle de 2 milliards arrivera prochainement.
Principales améliorations techniques :
- utilisation croisée de l’attention locale et globale
- group-query attention
- apprentissage par distillation de connaissances pour les petits modèles
Les modèles affichent les meilleures performances de leur catégorie en fonction de leur taille et sont compétitifs face à des modèles 2 à 3 fois plus grands.
Architecture des modèles :
- architecture Transformer de type décodeur uniquement
- longueur de contexte de 8192 tokens
- alternance entre une fenêtre glissante locale (4096 tokens) et des couches d’attention globale
- group-query attention (GQA)
- RMSNorm pour la normalisation des couches
Entraînement :
- le modèle 27B a été entraîné sur 13 billions de tokens
- le modèle 9B a été entraîné sur 8 billions de tokens
- le modèle 2,6B a été entraîné sur 2 billions de tokens
- sources de données : documents web, code, articles scientifiques
- utilisation de la distillation de connaissances pour les modèles 2,6B et 9B
Performances :
- surpasse des modèles ouverts comparables sur les benchmarks
- compétitif face à certains modèles plus grands
- résultats solides sur les tâches de questions-réponses, raisonnement, mathématiques, sciences et code
Sécurité & responsabilité :
- mise en œuvre de tests de sécurité étendus et de procédures de déploiement responsable
- application de politiques de sécurité et de mesures d’atténuation pendant l’entraînement
- mise à disposition d’une boîte à outils d’IA générative responsable pour les développeurs
6 commentaires
Le moment viendra-t-il où l’on pourra faire tourner un LLM uniquement sur CPU ?
Avec environ 20B, on peut tout à fait le faire tourner uniquement sur CPU. À partir de 60B, ça devient difficile ou ça fonctionne mal. (L'entraînement, c'est encore un autre domaine.) Essayez ollama une fois.
Je n’avais absolument aucune idée des spécifications requises, donc merci pour vos conseils. Il semble que ce soit encore trop ambitieux pour un portable Intel de 11e génération, il va donc falloir l’installer sur un serveur de virtualisation ou quelque chose du genre.
Il suffit d’installer LM Studio.
La raison pour laquelle j’ai dit que cela me semblait trop exigeant sur un ordinateur portable, c’est que l’utilisation du CPU montait à 100 % sur tous les cœurs et que la chauffe était importante, donc je n’avais pas l’impression d’une utilisation confortable. LM Studio dispose d’une interface de prompt, ce qui est appréciable en termes d’ergonomie, mais je ne pense pas que cela suffise à offrir un vrai confort d’utilisation.
Euh...? C'est déjà le cas ;;