- AMD a dévoilé son premier petit modèle de langage, AMD-135M
- Ce modèle a été entraîné sur 670 milliards de tokens à l’aide de l’accélérateur AMD Instinct™ MI250
- Il se décline en deux versions : AMD-Llama-135M et AMD-Llama-135M-code
- Le modèle AMD-Llama-135M a été entraîné pendant 6 jours sur 670 milliards de tokens à partir de données générales
- Le modèle AMD-Llama-135M-code a ensuite été affiné pendant 4 jours supplémentaires sur 20 milliards de tokens de données de code
- Le code d’entraînement, les jeux de données et les poids du modèle sont fournis en open source
- Optimisation des performances d’inférence avec le décodage spéculatif
- Les grands modèles de langage utilisent généralement une approche autorégressive pour l’inférence
- La principale limite de cette approche est qu’elle ne peut générer qu’un seul token à chaque passe avant
- L’introduction du décodage spéculatif permet de résoudre ce problème
- Un petit modèle de brouillon est utilisé pour générer un ensemble de tokens candidats, ensuite validés par un modèle cible plus grand
- Cette approche permet de générer plusieurs tokens à chaque passe avant, ce qui réduit fortement la consommation liée aux accès mémoire et améliore nettement la vitesse
- Accélération des performances d’inférence
- Les performances d’inférence ont été testées en utilisant AMD-Llama-135M-code comme modèle de brouillon pour CodeLlama-7b
- Une comparaison a été effectuée sur l’accélérateur MI250 et les processeurs Ryzen™ AI (avec NPU), avec et sans décodage spéculatif
- Un gain de vitesse a été confirmé dans certaines configurations lors de l’utilisation du décodage spéculatif
- Prochaines étapes
- AMD fournit une implémentation de référence open source afin de stimuler l’innovation au sein de la communauté IA
- Plus de détails sur AMD-135M sont disponibles sur le blog technique
- Le code est accessible dans le dépôt Github d’AMD
- Les fichiers du modèle peuvent être téléchargés depuis la Model Card sur Hugging Face
- Il est possible de demander l’accès aux cartes accélératrices Instinct via AMD Developer Cloud
Le résumé de GN⁺
- Le premier petit modèle de langage d’AMD, AMD-135M, marque une avancée importante pour la communauté IA
- Le décodage spéculatif améliore nettement les performances d’inférence
- L’implémentation de référence open source aide les développeurs à reproduire le modèle et à entraîner d’autres SLM et LLM
- L’objectif est de stimuler l’innovation dans le domaine de l’IA et de viser des avancées technologiques plus inclusives et plus éthiques
1 commentaires
Pour évoluer vers une intelligence artificielle générale, il faut un déclencheur permettant un saut de dimension, et ce déclencheur, c’est précisément l’éducation.