AMD dévoile son premier petit modèle de langage, AMD-135M

(community.amd.com)

6 points par GN⁺ 2024-09-29 | 1 commentaires | Partager sur WhatsApp

AMD a dévoilé son premier petit modèle de langage, AMD-135M
Ce modèle a été entraîné sur 670 milliards de tokens à l’aide de l’accélérateur AMD Instinct™ MI250
Il se décline en deux versions : AMD-Llama-135M et AMD-Llama-135M-code
- Le modèle AMD-Llama-135M a été entraîné pendant 6 jours sur 670 milliards de tokens à partir de données générales
- Le modèle AMD-Llama-135M-code a ensuite été affiné pendant 4 jours supplémentaires sur 20 milliards de tokens de données de code
- Le code d’entraînement, les jeux de données et les poids du modèle sont fournis en open source
Optimisation des performances d’inférence avec le décodage spéculatif
- Les grands modèles de langage utilisent généralement une approche autorégressive pour l’inférence
- La principale limite de cette approche est qu’elle ne peut générer qu’un seul token à chaque passe avant
- L’introduction du décodage spéculatif permet de résoudre ce problème
- Un petit modèle de brouillon est utilisé pour générer un ensemble de tokens candidats, ensuite validés par un modèle cible plus grand
- Cette approche permet de générer plusieurs tokens à chaque passe avant, ce qui réduit fortement la consommation liée aux accès mémoire et améliore nettement la vitesse
Accélération des performances d’inférence
- Les performances d’inférence ont été testées en utilisant AMD-Llama-135M-code comme modèle de brouillon pour CodeLlama-7b
- Une comparaison a été effectuée sur l’accélérateur MI250 et les processeurs Ryzen™ AI (avec NPU), avec et sans décodage spéculatif
- Un gain de vitesse a été confirmé dans certaines configurations lors de l’utilisation du décodage spéculatif
Prochaines étapes
- AMD fournit une implémentation de référence open source afin de stimuler l’innovation au sein de la communauté IA
- Plus de détails sur AMD-135M sont disponibles sur le blog technique
- Le code est accessible dans le dépôt Github d’AMD
- Les fichiers du modèle peuvent être téléchargés depuis la Model Card sur Hugging Face
- Il est possible de demander l’accès aux cartes accélératrices Instinct via AMD Developer Cloud

Le résumé de GN⁺

Le premier petit modèle de langage d’AMD, AMD-135M, marque une avancée importante pour la communauté IA
Le décodage spéculatif améliore nettement les performances d’inférence
L’implémentation de référence open source aide les développeurs à reproduire le modèle et à entraîner d’autres SLM et LLM
L’objectif est de stimuler l’innovation dans le domaine de l’IA et de viser des avancées technologiques plus inclusives et plus éthiques

1 commentaires

comsect62 2024-09-30

Pour évoluer vers une intelligence artificielle générale, il faut un déclencheur permettant un saut de dimension, et ce déclencheur, c’est précisément l’éducation.

AMD dévoile son premier petit modèle de langage, AMD-135M

Le résumé de GN⁺

À lire aussi

1 commentaires