6 points par GN⁺ 2024-09-29 | 1 commentaires | Partager sur WhatsApp
  • AMD a dévoilé son premier petit modèle de langage, AMD-135M
  • Ce modèle a été entraîné sur 670 milliards de tokens à l’aide de l’accélérateur AMD Instinct™ MI250
  • Il se décline en deux versions : AMD-Llama-135M et AMD-Llama-135M-code
    • Le modèle AMD-Llama-135M a été entraîné pendant 6 jours sur 670 milliards de tokens à partir de données générales
    • Le modèle AMD-Llama-135M-code a ensuite été affiné pendant 4 jours supplémentaires sur 20 milliards de tokens de données de code
    • Le code d’entraînement, les jeux de données et les poids du modèle sont fournis en open source
  • Optimisation des performances d’inférence avec le décodage spéculatif
    • Les grands modèles de langage utilisent généralement une approche autorégressive pour l’inférence
    • La principale limite de cette approche est qu’elle ne peut générer qu’un seul token à chaque passe avant
    • L’introduction du décodage spéculatif permet de résoudre ce problème
    • Un petit modèle de brouillon est utilisé pour générer un ensemble de tokens candidats, ensuite validés par un modèle cible plus grand
    • Cette approche permet de générer plusieurs tokens à chaque passe avant, ce qui réduit fortement la consommation liée aux accès mémoire et améliore nettement la vitesse
  • Accélération des performances d’inférence
    • Les performances d’inférence ont été testées en utilisant AMD-Llama-135M-code comme modèle de brouillon pour CodeLlama-7b
    • Une comparaison a été effectuée sur l’accélérateur MI250 et les processeurs Ryzen™ AI (avec NPU), avec et sans décodage spéculatif
    • Un gain de vitesse a été confirmé dans certaines configurations lors de l’utilisation du décodage spéculatif
  • Prochaines étapes
    • AMD fournit une implémentation de référence open source afin de stimuler l’innovation au sein de la communauté IA
    • Plus de détails sur AMD-135M sont disponibles sur le blog technique
    • Le code est accessible dans le dépôt Github d’AMD
    • Les fichiers du modèle peuvent être téléchargés depuis la Model Card sur Hugging Face
    • Il est possible de demander l’accès aux cartes accélératrices Instinct via AMD Developer Cloud

Le résumé de GN⁺

  • Le premier petit modèle de langage d’AMD, AMD-135M, marque une avancée importante pour la communauté IA
  • Le décodage spéculatif améliore nettement les performances d’inférence
  • L’implémentation de référence open source aide les développeurs à reproduire le modèle et à entraîner d’autres SLM et LLM
  • L’objectif est de stimuler l’innovation dans le domaine de l’IA et de viser des avancées technologiques plus inclusives et plus éthiques

1 commentaires

 
comsect62 2024-09-30

Pour évoluer vers une intelligence artificielle générale, il faut un déclencheur permettant un saut de dimension, et ce déclencheur, c’est précisément l’éducation.