- Pangu Pro MoE adopte une architecture Mixture of Grouped Experts (MoGE) optimisée pour l’environnement NPU Ascend de Huawei, ce qui permet de résoudre efficacement le problème de déséquilibre de charge entre experts en environnement distribué
- Ce modèle est conçu avec 72 milliards de paramètres au total et n’active que 16 milliards de paramètres par token, ce qui améliore fortement l’efficacité de calcul et la scalabilité
- L’architecture MoGE applique des règles de répartition et de sélection équilibrées entre les différents groupes d’experts afin d’atteindre un équilibrage de charge parfait sur tous les appareils, améliorant ainsi les vitesses d’inférence et d’entraînement
- D’après les résultats d’évaluation, Pangu Pro MoE dépasse des modèles open source majeurs comme GLM-Z1-32B et Qwen3-32B, et affiche sur les plateformes Ascend 300I Duo/800I A2 une efficacité d’inférence et un rapport performance/coût de tout premier plan
- Grâce au préentraînement, au fine-tuning et au reinforcement learning, il acquiert de fortes capacités de raisonnement et de généralisation sur divers domaines à partir de jeux de données de haute qualité
Vue d’ensemble
- Ces dernières années, les grands modèles de langage (LLM) adoptent de plus en plus l’approche Mixture of Experts (MoE), une tendance qui permet d’augmenter le nombre de paramètres et la capacité d’entraînement sans hausse du coût de calcul
- La structure MoE réduit les opérations en n’activant qu’une partie des experts pour chaque token d’entrée, mais en pratique on observe un déséquilibre de charge entre experts, certains étant sélectionnés de manière répétée
- Ce problème réduit l’efficacité globale du système lorsque le modèle est distribué sur plusieurs appareils
- Les heuristiques classiques d’équilibrage de charge n’apportent qu’une amélioration partielle et ne constituent pas une solution fondamentale complète
Présentation de l’architecture Mixture of Grouped Experts (MoGE)
- MoGE met en œuvre une stratégie de routage équilibrée par groupes en divisant les experts en groupes de taille identique et en imposant, pour chaque token, l’activation d’un nombre défini d’experts dans chaque groupe
- Cela permet de répartir uniformément le travail sur tous les appareils et d’atteindre, par conception, un équilibre de charge parfait avec un Imbalance Score (IS) de 0
- Pour chaque token, les scores initiaux de tous les experts sont calculés par un routeur Softmax global, puis seuls les experts Top-K′ de chaque groupe sont sélectionnés, les scores des experts non retenus étant ramenés à 0
- Cette structure maximise en particulier la vitesse d’inférence et d’entraînement ainsi que l’utilisation des ressources pour les grands modèles distribués (de plusieurs dizaines à plusieurs centaines de milliards de paramètres)
Modèle Pangu Pro MoE et optimisation pour la plateforme Ascend
- Huawei a développé Pangu Pro MoE optimisé pour les plateformes NPU Ascend 300I Duo et 800I A2 (71,9 milliards de paramètres au total, 16,5 milliards activés par token)
- Sur la base de simulations système approfondies, l’entreprise a ajusté l’architecture du modèle ainsi que divers paramètres matériels, dont la configuration de parallélisation matérielle (tensor/expert/pipeline/virtual pipeline parallelism), afin de maximiser les performances
- Les kernels de calcul personnalisés (
MulAttention, SwiftGMM, etc.) ont été optimisés pour les spécificités d’Ascend afin de réduire les accès mémoire, les surcoûts de communication et de calcul, d’éliminer les goulots d’étranglement par opérateur et d’améliorer l’utilisation de la bande passante
- Les résultats de simulation sur l’optimisation de la taille de batch et des performances montrent le meilleur throughput, la plus faible latence et une efficacité de communication optimale dans les contraintes données
Préentraînement et conception des données d’entraînement
Composition des données
- Construction d’un vaste jeu de données de haute qualité de 1,3 quadrillion (13 trillions) de tokens basé sur un tokenizer maison, collectés depuis des sources variées comme le web, les livres, le code, les STEM, l’industrie, le raisonnement et les données synthétiques
- Le tokenizer utilise une stratégie privilégiant l’équilibre entre domaines afin d’assurer une bonne représentativité, y compris pour les domaines spécialisés
Étapes et stratégie d’entraînement
- Le préentraînement (Pre-training) se déroule en trois phases (générale, raisonnement, annealing), avec ajustement des objectifs d’apprentissage et du curriculum de données à chaque étape
- Phase générale : acquisition de connaissances générales et de capacités linguistiques dans divers domaines
- Phase raisonnement : augmentation maximale de la part des données de raisonnement complexe, comme les STEM, le code et les problèmes logiques complexes
- Phase annealing : ajustement supplémentaire à l’aide de données difficiles et de données au format instruction
- À chaque étape, des paramètres tels que la longueur de séquence, la difficulté des données, la taille de batch et le taux d’apprentissage sont ajustés progressivement afin de renforcer à la fois la généralisation et les capacités spécialisées du modèle
Évaluation des données
- Exploitation d’un système d’évaluation multi-domaines basé sur des modèles de la série Pangu, qui attribue à chaque donnée des scores clés comme la propreté, la fluidité, la valeur pédagogique et la richesse, ensuite pris en compte dans la stratégie d’échantillonnage et de sélection
- Mise en place d’un étiquetage fin couvrant 188 catégories afin de gérer la distribution et les caractéristiques des données
Environnement de préentraînement et optimisations
- Pangu Pro MoE a été entraîné et évalué sur Huawei Ascend 800T A2 ; cette puce offre une efficacité de 256 TFlops en FP16 et 512 TOPS en INT8, avec une très faible consommation de 310 W, permettant d’obtenir de hautes performances IA et une bonne efficacité économique
- Entraînement sur une seule époque, optimiseur AdamW, planification du taux d’apprentissage cosinus en 3 étapes, grandes configurations de batch : l’ensemble vise une généralisation robuste et une spécialisation possible selon les tâches cibles
Post-training (fine-tuning ultérieur et reinforcement learning)
Supervised Fine-tuning (SFT)
- Les données SFT sont séparées en deux ensembles, « raisonnement » et « non-raisonnement », avec une proportion de raisonnement portée à 3:1 afin de se concentrer sur les tâches complexes comme les mathématiques, le code et le raisonnement logique
- Une stratégie d’optimisation progressive en 2 étapes (des instructions simples sur des périmètres variés vers un raisonnement complexe) permet de développer de façon équilibrée à la fois les capacités de raisonnement par étapes et les capacités générales de traitement du langage
- Le processus SFT intègre en outre une stratégie de fusion de checkpoints, qui combine efficacement les modèles issus de différents points intermédiaires pour renforcer robustesse et généralisation
Reinforcement learning (RL)
- L’étape de RL fondée sur la récompense applique conjointement l’algorithme Group Relative Policy Optimization (GRPO) et la technique Zero-Advantage-Mask, qui ignore les échantillons sans signal de récompense afin de favoriser l’exploration de politique et un apprentissage efficace
- Mise en place d’un système de récompense multi-couches comprenant exactitude, préférence et récompenses auxiliaires ; les tâches de mathématiques et de code sont évaluées par un système automatisé, tandis que les tâches open-domain le sont via un juge séparé basé sur un LLM (Preference Model)
- Le curriculum data mixing ajuste dynamiquement la distribution de complexité des données afin de fournir une stimulation continue à la progression du modèle
Optimisation du système et de l’infrastructure
Système d’entraînement sur Ascend NPU
- Adoption active de technologies avancées comme la stratégie de parallélisation hiérarchique et hybride (Hierarchical & Hybrid Parallelism), la communication EP All-to-All, l’Adaptive Pipeline Overlap et la fusion d’opérateurs
- Amélioration de 35 % de la Model FLOPs Utilization (MFU), avec une répartition complète des charges de calcul et de communication grâce au pipeline parallelism et au virtual pipeline parallelism, renforçant à la fois la scalabilité et le throughput
- Des optimisations comme les kernels personnalisés, l’exploitation maximale de la bande passante HBM, et la suppression des surcoûts inutiles de communication et de mémoire permettent d’atteindre les performances maximales à toutes les étapes de l’entraînement et de l’inférence
- Le système d’inférence obtient lui aussi d’excellents résultats en throughput et en latence sur chaque architecture matérielle grâce à une configuration flexible du parallélisme par module (attention, experts, etc., stratégie H2P) et à des optimisations d’opérateurs sur mesure
Performances et benchmarks
- Pangu Pro MoE atteint entre 1148 et 1528 tokens/s par carte en inférence sur environnement Ascend, démontrant des résultats écrasants face à des modèles de taille comparable en paramètres (open dense 32B, 72B)
- Sur le plan du rapport coût/performance, il atteint également une efficacité remarquable sur Ascend 300I Duo
- Sur divers benchmarks externes (prise de décision, logique, code, compréhension documentaire, etc.), il surpasse de grands modèles publics comme GLM-Z1-32B, Qwen3-32B et Gemma3-27B
- Les expériences montrent qu’il s’agit d’un LLM de tout premier niveau parmi les modèles de moins de 100 milliards de paramètres
Conclusion et implications
- Pangu Pro MoE résout fondamentalement le problème de déséquilibre de charge dans l’entraînement et l’inférence distribués des grands modèles grâce à une conception équilibrée par groupes d’experts
- Avec une optimisation dédiée à la plateforme Ascend et des efforts transverses tels que la maximisation de la qualité des données, il constitue un modèle de langage de nouvelle génération atteignant un équilibre avancé entre coût, vitesse et performances de généralisation
- Cette architecture et cette méthodologie devraient devenir à l’avenir une référence importante pour l’écosystème des LLM distribués à grande échelle ainsi que pour diverses applications industrielles
1 commentaires
Avis Hacker News
Ce qui rend cette annonce d’architecture vraiment enthousiasmante, c’est la possibilité que de petits développeurs puissent rivaliser avec les grands acteurs en n’utilisant que des GPU bon marché. Cela suggère qu’un développement d’IA open source en mode crowdsourcing pourrait, au final, être techniquement réalisable. La Chine étudie déjà cette piste, avec pour objectif d’atteindre un niveau capable de concurrencer les modèles monolithiques. J’étais au départ sceptique quant aux sanctions américaines, mais si cela devenait pleinement réalisable sur le plan logique, ce serait vraiment une réalisation remarquable
La licence interdit l’usage et l’installation dans l’UE, et je me demande s’il est possible de rédiger une licence avec une clause du type « cette restriction n’existe qu’à titre protecteur et ne sera pas réellement appliquée ». On pourrait appeler cela une « clause d’isolement », mais je ne suis pas certain qu’un juge l’accepterait comme échappatoire juridique. Cela semble s’inscrire dans un contexte similaire à celui de la publication des weights de Llama par Meta. J’ai l’impression que l’essence de l’AI Act européen est de contrôler des usages concrets de l’IA, et non simplement la distribution de weights et d’architectures. Interdire la distribution reviendrait pourtant, en pratique, à offrir davantage de choix et de concurrence aux Européens, donc je me demande si c’est réellement interdit par la loi. D’un autre côté, installer des open weights peut aussi poser un problème de sécurité, dans la mesure où cela peut introduire des backdoors, c’est-à-dire des vulnérabilités permettant de manipuler le système via certains prompts. Je me souviens avoir vu dans un article un exemple où une combinaison de symboles comme '0?,#2!' pouvait mettre un LLM dans un état où quelqu’un pouvait lire des informations cachées, via une forme de prompt injection. Je me demande si ce type d’attaque peut être bloqué ou atténué par du fine-tuning ou du LoRA, ou s’il existe des bibliothèques Python utiles en défense. La question est aussi de savoir si le fait de télécharger, installer, puis modifier via fine-tuning ou LoRA permettrait de bénéficier d’une protection
Les weights peuvent être récupérés sur gitcode
Si les LLM atteignent aujourd’hui un mur d’échelle et que l’efficacité devient la vraie variable décisive, je me demande si un marché de petits modèles centrés sur des cas d’usage précis va émerger. Par exemple, pour extraire des données structurées à partir d’images avec Gemini, le modèle flash est extrêmement efficace. Je me demande combien d’efforts il faudrait pour produire des modèles légers répondant seulement à un besoin spécifique, sur de petits appareils comme des NUC ou des APU AMD. Il est aussi intéressant d’imaginer l’apparition de mini GPU externes sous forme de sticks dédiés à certains usages. Commercialement, ce ne serait peut-être pas un marché énorme, mais ce serait assez génial
À mon avis, les sanctions ne sont qu’un expédient temporaire. Idéalement, elles servent à gagner du temps pour renforcer les capacités nationales, mais en pratique les États-Unis risquent plutôt d’épuiser leurs propres capacités à cause des coupes dans la recherche et de la réduction de l’arrivée d’étudiants et de chercheurs étrangers, tandis que la Chine poursuivra sa trajectoire de croissance
Cette information date déjà de quelques jours. Pour la nouvelle concernant l’open source du modèle IA hybride de Tencent, voir TechInAsia ; le lien GitHub est également partagé
Sic transit gloria nvidii (ainsi passe la gloire de Nvidia)
J’ai un ami chinois. Il a rejoint il y a six ans une startup hardware chinoise comme ingénieur fondateur. Ensuite, les sanctions sont arrivées. Lors d’une rencontre récente, il m’a dit que cela avait été le plus grand tournant de sa vie. Les entreprises chinoises ont cessé d’acheter des produits d’origine occidentale, ce qui a énormément fait croître sa société. Désormais, les sanctions sont considérées comme une évidence par tout le monde, et leur conséquence est uniquement un effort d’autonomie et de croissance
Je me demande quelle est la portée réelle de cette annonce après les sanctions. Les smartphones Huawei, durement touchés par celles-ci, ont-ils maintenant une occasion de contre-attaquer grâce à leur propre GPU ? Comment les performances de ce GPU se comparent-elles à celles des GPU occidentaux les plus récents ? Cela signifie-t-il que Huawei dispose désormais des capacités nécessaires pour commercialiser ce GPU ?
Il est nécessaire, au niveau mondial, qu’une concurrence entre Huawei et la Chine d’un côté, et TSMC et Nvidia de l’autre, se forme sur la question de la finesse de gravure