2 points par GN⁺ 2025-07-03 | 1 commentaires | Partager sur WhatsApp
  • Pangu Pro MoE adopte une architecture Mixture of Grouped Experts (MoGE) optimisée pour l’environnement NPU Ascend de Huawei, ce qui permet de résoudre efficacement le problème de déséquilibre de charge entre experts en environnement distribué
  • Ce modèle est conçu avec 72 milliards de paramètres au total et n’active que 16 milliards de paramètres par token, ce qui améliore fortement l’efficacité de calcul et la scalabilité
  • L’architecture MoGE applique des règles de répartition et de sélection équilibrées entre les différents groupes d’experts afin d’atteindre un équilibrage de charge parfait sur tous les appareils, améliorant ainsi les vitesses d’inférence et d’entraînement
  • D’après les résultats d’évaluation, Pangu Pro MoE dépasse des modèles open source majeurs comme GLM-Z1-32B et Qwen3-32B, et affiche sur les plateformes Ascend 300I Duo/800I A2 une efficacité d’inférence et un rapport performance/coût de tout premier plan
  • Grâce au préentraînement, au fine-tuning et au reinforcement learning, il acquiert de fortes capacités de raisonnement et de généralisation sur divers domaines à partir de jeux de données de haute qualité

Vue d’ensemble

  • Ces dernières années, les grands modèles de langage (LLM) adoptent de plus en plus l’approche Mixture of Experts (MoE), une tendance qui permet d’augmenter le nombre de paramètres et la capacité d’entraînement sans hausse du coût de calcul
  • La structure MoE réduit les opérations en n’activant qu’une partie des experts pour chaque token d’entrée, mais en pratique on observe un déséquilibre de charge entre experts, certains étant sélectionnés de manière répétée
  • Ce problème réduit l’efficacité globale du système lorsque le modèle est distribué sur plusieurs appareils
  • Les heuristiques classiques d’équilibrage de charge n’apportent qu’une amélioration partielle et ne constituent pas une solution fondamentale complète

Présentation de l’architecture Mixture of Grouped Experts (MoGE)

  • MoGE met en œuvre une stratégie de routage équilibrée par groupes en divisant les experts en groupes de taille identique et en imposant, pour chaque token, l’activation d’un nombre défini d’experts dans chaque groupe
  • Cela permet de répartir uniformément le travail sur tous les appareils et d’atteindre, par conception, un équilibre de charge parfait avec un Imbalance Score (IS) de 0
  • Pour chaque token, les scores initiaux de tous les experts sont calculés par un routeur Softmax global, puis seuls les experts Top-K′ de chaque groupe sont sélectionnés, les scores des experts non retenus étant ramenés à 0
  • Cette structure maximise en particulier la vitesse d’inférence et d’entraînement ainsi que l’utilisation des ressources pour les grands modèles distribués (de plusieurs dizaines à plusieurs centaines de milliards de paramètres)

Modèle Pangu Pro MoE et optimisation pour la plateforme Ascend

  • Huawei a développé Pangu Pro MoE optimisé pour les plateformes NPU Ascend 300I Duo et 800I A2 (71,9 milliards de paramètres au total, 16,5 milliards activés par token)
  • Sur la base de simulations système approfondies, l’entreprise a ajusté l’architecture du modèle ainsi que divers paramètres matériels, dont la configuration de parallélisation matérielle (tensor/expert/pipeline/virtual pipeline parallelism), afin de maximiser les performances
  • Les kernels de calcul personnalisés (MulAttention, SwiftGMM, etc.) ont été optimisés pour les spécificités d’Ascend afin de réduire les accès mémoire, les surcoûts de communication et de calcul, d’éliminer les goulots d’étranglement par opérateur et d’améliorer l’utilisation de la bande passante
  • Les résultats de simulation sur l’optimisation de la taille de batch et des performances montrent le meilleur throughput, la plus faible latence et une efficacité de communication optimale dans les contraintes données

Préentraînement et conception des données d’entraînement

Composition des données

  • Construction d’un vaste jeu de données de haute qualité de 1,3 quadrillion (13 trillions) de tokens basé sur un tokenizer maison, collectés depuis des sources variées comme le web, les livres, le code, les STEM, l’industrie, le raisonnement et les données synthétiques
  • Le tokenizer utilise une stratégie privilégiant l’équilibre entre domaines afin d’assurer une bonne représentativité, y compris pour les domaines spécialisés

Étapes et stratégie d’entraînement

  • Le préentraînement (Pre-training) se déroule en trois phases (générale, raisonnement, annealing), avec ajustement des objectifs d’apprentissage et du curriculum de données à chaque étape
    • Phase générale : acquisition de connaissances générales et de capacités linguistiques dans divers domaines
    • Phase raisonnement : augmentation maximale de la part des données de raisonnement complexe, comme les STEM, le code et les problèmes logiques complexes
    • Phase annealing : ajustement supplémentaire à l’aide de données difficiles et de données au format instruction
  • À chaque étape, des paramètres tels que la longueur de séquence, la difficulté des données, la taille de batch et le taux d’apprentissage sont ajustés progressivement afin de renforcer à la fois la généralisation et les capacités spécialisées du modèle

Évaluation des données

  • Exploitation d’un système d’évaluation multi-domaines basé sur des modèles de la série Pangu, qui attribue à chaque donnée des scores clés comme la propreté, la fluidité, la valeur pédagogique et la richesse, ensuite pris en compte dans la stratégie d’échantillonnage et de sélection
  • Mise en place d’un étiquetage fin couvrant 188 catégories afin de gérer la distribution et les caractéristiques des données

Environnement de préentraînement et optimisations

  • Pangu Pro MoE a été entraîné et évalué sur Huawei Ascend 800T A2 ; cette puce offre une efficacité de 256 TFlops en FP16 et 512 TOPS en INT8, avec une très faible consommation de 310 W, permettant d’obtenir de hautes performances IA et une bonne efficacité économique
  • Entraînement sur une seule époque, optimiseur AdamW, planification du taux d’apprentissage cosinus en 3 étapes, grandes configurations de batch : l’ensemble vise une généralisation robuste et une spécialisation possible selon les tâches cibles

Post-training (fine-tuning ultérieur et reinforcement learning)

Supervised Fine-tuning (SFT)

  • Les données SFT sont séparées en deux ensembles, « raisonnement » et « non-raisonnement », avec une proportion de raisonnement portée à 3:1 afin de se concentrer sur les tâches complexes comme les mathématiques, le code et le raisonnement logique
  • Une stratégie d’optimisation progressive en 2 étapes (des instructions simples sur des périmètres variés vers un raisonnement complexe) permet de développer de façon équilibrée à la fois les capacités de raisonnement par étapes et les capacités générales de traitement du langage
  • Le processus SFT intègre en outre une stratégie de fusion de checkpoints, qui combine efficacement les modèles issus de différents points intermédiaires pour renforcer robustesse et généralisation

Reinforcement learning (RL)

  • L’étape de RL fondée sur la récompense applique conjointement l’algorithme Group Relative Policy Optimization (GRPO) et la technique Zero-Advantage-Mask, qui ignore les échantillons sans signal de récompense afin de favoriser l’exploration de politique et un apprentissage efficace
  • Mise en place d’un système de récompense multi-couches comprenant exactitude, préférence et récompenses auxiliaires ; les tâches de mathématiques et de code sont évaluées par un système automatisé, tandis que les tâches open-domain le sont via un juge séparé basé sur un LLM (Preference Model)
  • Le curriculum data mixing ajuste dynamiquement la distribution de complexité des données afin de fournir une stimulation continue à la progression du modèle

Optimisation du système et de l’infrastructure

Système d’entraînement sur Ascend NPU

  • Adoption active de technologies avancées comme la stratégie de parallélisation hiérarchique et hybride (Hierarchical & Hybrid Parallelism), la communication EP All-to-All, l’Adaptive Pipeline Overlap et la fusion d’opérateurs
  • Amélioration de 35 % de la Model FLOPs Utilization (MFU), avec une répartition complète des charges de calcul et de communication grâce au pipeline parallelism et au virtual pipeline parallelism, renforçant à la fois la scalabilité et le throughput
  • Des optimisations comme les kernels personnalisés, l’exploitation maximale de la bande passante HBM, et la suppression des surcoûts inutiles de communication et de mémoire permettent d’atteindre les performances maximales à toutes les étapes de l’entraînement et de l’inférence
  • Le système d’inférence obtient lui aussi d’excellents résultats en throughput et en latence sur chaque architecture matérielle grâce à une configuration flexible du parallélisme par module (attention, experts, etc., stratégie H2P) et à des optimisations d’opérateurs sur mesure

Performances et benchmarks

  • Pangu Pro MoE atteint entre 1148 et 1528 tokens/s par carte en inférence sur environnement Ascend, démontrant des résultats écrasants face à des modèles de taille comparable en paramètres (open dense 32B, 72B)
  • Sur le plan du rapport coût/performance, il atteint également une efficacité remarquable sur Ascend 300I Duo
  • Sur divers benchmarks externes (prise de décision, logique, code, compréhension documentaire, etc.), il surpasse de grands modèles publics comme GLM-Z1-32B, Qwen3-32B et Gemma3-27B
  • Les expériences montrent qu’il s’agit d’un LLM de tout premier niveau parmi les modèles de moins de 100 milliards de paramètres

Conclusion et implications

  • Pangu Pro MoE résout fondamentalement le problème de déséquilibre de charge dans l’entraînement et l’inférence distribués des grands modèles grâce à une conception équilibrée par groupes d’experts
  • Avec une optimisation dédiée à la plateforme Ascend et des efforts transverses tels que la maximisation de la qualité des données, il constitue un modèle de langage de nouvelle génération atteignant un équilibre avancé entre coût, vitesse et performances de généralisation
  • Cette architecture et cette méthodologie devraient devenir à l’avenir une référence importante pour l’écosystème des LLM distribués à grande échelle ainsi que pour diverses applications industrielles

1 commentaires

 
GN⁺ 2025-07-03
Avis Hacker News
  • Ce qui rend cette annonce d’architecture vraiment enthousiasmante, c’est la possibilité que de petits développeurs puissent rivaliser avec les grands acteurs en n’utilisant que des GPU bon marché. Cela suggère qu’un développement d’IA open source en mode crowdsourcing pourrait, au final, être techniquement réalisable. La Chine étudie déjà cette piste, avec pour objectif d’atteindre un niveau capable de concurrencer les modèles monolithiques. J’étais au départ sceptique quant aux sanctions américaines, mais si cela devenait pleinement réalisable sur le plan logique, ce serait vraiment une réalisation remarquable

    • Je pense que les sanctions peuvent réellement, sans ironie, pousser le monde dans une meilleure direction à bien des égards, en favorisant par exemple la diversification du calcul et la décentralisation de la production
    • Deepseek-R1 est déjà à peu près au niveau de GPT 4.1. Il est proposé en open weights, en open source, et même le code d’inférence est publié en open source
    • Comme SETI@Home, je m’intéresse aussi à un réseau de training GPU open peer-to-peer
    • À la question de savoir si une IA ouverte en crowdsourcing est techniquement possible, un exemple montre que oui : Intellect-2 de PrimeIntellect.ai
    • Je trouve cela intéressant comme évolution. Mais savoir si c’est une bonne chose dépend de la question de savoir si la technologie IA représente une menace existentielle pour la survie humaine. Cela peut sembler exagéré, mais beaucoup de gens y réfléchissent très sérieusement
  • La licence interdit l’usage et l’installation dans l’UE, et je me demande s’il est possible de rédiger une licence avec une clause du type « cette restriction n’existe qu’à titre protecteur et ne sera pas réellement appliquée ». On pourrait appeler cela une « clause d’isolement », mais je ne suis pas certain qu’un juge l’accepterait comme échappatoire juridique. Cela semble s’inscrire dans un contexte similaire à celui de la publication des weights de Llama par Meta. J’ai l’impression que l’essence de l’AI Act européen est de contrôler des usages concrets de l’IA, et non simplement la distribution de weights et d’architectures. Interdire la distribution reviendrait pourtant, en pratique, à offrir davantage de choix et de concurrence aux Européens, donc je me demande si c’est réellement interdit par la loi. D’un autre côté, installer des open weights peut aussi poser un problème de sécurité, dans la mesure où cela peut introduire des backdoors, c’est-à-dire des vulnérabilités permettant de manipuler le système via certains prompts. Je me souviens avoir vu dans un article un exemple où une combinaison de symboles comme '0?,#2!' pouvait mettre un LLM dans un état où quelqu’un pouvait lire des informations cachées, via une forme de prompt injection. Je me demande si ce type d’attaque peut être bloqué ou atténué par du fine-tuning ou du LoRA, ou s’il existe des bibliothèques Python utiles en défense. La question est aussi de savoir si le fait de télécharger, installer, puis modifier via fine-tuning ou LoRA permettrait de bénéficier d’une protection

    • Huawei n’a aucun droit de contrôler le comportement des citoyens de l’UE, et à vrai dire il n’était probablement pas nécessaire d’ajouter cette restriction. En tant que citoyen européen, je pense qu’il vaut mieux connaître soi-même la loi et éviter les modèles risqués pour se protéger
    • Du point de vue de la sécurité, il ne faut jamais faire confiance à tout code produit par un LLM, et il faut toujours le relire
    • Pour illustrer un mécanisme proche d’une « clause d’isolement », quelqu’un cite la licence codec de l’Alliance for Open Media. Le codec est libre de redevance, mais le droit d’usage est retiré si l’on engage une action en justice liée à l’usage du format
  • Les weights peuvent être récupérés sur gitcode

    • Cependant, selon la licence, l’accès, le téléchargement, l’installation, l’exécution, la distribution, l’intégration, la modification et tout autre usage dans l’UE sont explicitement interdits. Le lien vers la licence est ici
    • J’apprécie l’usage du terme précis « open weights » plutôt que « open source ». Mais je me demande si les open weights sont réellement intéressants. Est-ce que cela permet de connaître les biais du modèle, ou leur absence éventuelle ? Est-ce que cela peut servir à entraîner des modèles concurrents ? J’aimerais mieux comprendre la différence entre open source et open weights, leurs avantages et inconvénients, et aussi savoir si, à l’ère des LLM, l’idée selon laquelle « les weights sont le code source » tient vraiment la route
  • Si les LLM atteignent aujourd’hui un mur d’échelle et que l’efficacité devient la vraie variable décisive, je me demande si un marché de petits modèles centrés sur des cas d’usage précis va émerger. Par exemple, pour extraire des données structurées à partir d’images avec Gemini, le modèle flash est extrêmement efficace. Je me demande combien d’efforts il faudrait pour produire des modèles légers répondant seulement à un besoin spécifique, sur de petits appareils comme des NUC ou des APU AMD. Il est aussi intéressant d’imaginer l’apparition de mini GPU externes sous forme de sticks dédiés à certains usages. Commercialement, ce ne serait peut-être pas un marché énorme, mais ce serait assez génial

    • Le sujet des « petits modèles centrés sur des cas d’usage précis » est déjà une discussion importante sur HN : "Small language models are the future of agentic AI"
    • En cherchant un modèle pour l’extraction d’entités nommées, quelqu’un est tombé sur dslim/bert-base-NER, qui compte 108 millions de paramètres
    • Cette direction existe déjà sous le nom de « model distillation » : un grand LLM génère les labels, puis un petit modèle spécialisé effectue l’inférence pour un coût 1000 fois inférieur
    • Cela rappelle l’époque où l’on branchait des ASIC sur des ports USB pour miner du bitcoin
  • À mon avis, les sanctions ne sont qu’un expédient temporaire. Idéalement, elles servent à gagner du temps pour renforcer les capacités nationales, mais en pratique les États-Unis risquent plutôt d’épuiser leurs propres capacités à cause des coupes dans la recherche et de la réduction de l’arrivée d’étudiants et de chercheurs étrangers, tandis que la Chine poursuivra sa trajectoire de croissance

  • Cette information date déjà de quelques jours. Pour la nouvelle concernant l’open source du modèle IA hybride de Tencent, voir TechInAsia ; le lien GitHub est également partagé

  • Sic transit gloria nvidii (ainsi passe la gloire de Nvidia)

    • Petit point de linguistique : 'invidia' signifie « jalousie » en latin
    • Voilà enfin un moment où cinq ans d’étude du latin servent à quelque chose
    • Petite correction tatillonne : le génitif singulier correct serait nvidiae. Le i correspond à une terminaison de déclinaison en o
    • La forme correcte serait Sic transit gloria nvidiae
    • Meilleur commentaire lu aujourd’hui, bravo
  • J’ai un ami chinois. Il a rejoint il y a six ans une startup hardware chinoise comme ingénieur fondateur. Ensuite, les sanctions sont arrivées. Lors d’une rencontre récente, il m’a dit que cela avait été le plus grand tournant de sa vie. Les entreprises chinoises ont cessé d’acheter des produits d’origine occidentale, ce qui a énormément fait croître sa société. Désormais, les sanctions sont considérées comme une évidence par tout le monde, et leur conséquence est uniquement un effort d’autonomie et de croissance

    • L’impact varie selon les secteurs. Avant les sanctions, de petits éditeurs de logiciels EDA survivaient péniblement face à l’énorme avance technologique d’acteurs comme Synopsys. Désormais, la demande motivée par l’évitement du risque leur apporte beaucoup de nouveaux clients. Quelqu’un appelle cela de l’« hormèse »
  • Je me demande quelle est la portée réelle de cette annonce après les sanctions. Les smartphones Huawei, durement touchés par celles-ci, ont-ils maintenant une occasion de contre-attaquer grâce à leur propre GPU ? Comment les performances de ce GPU se comparent-elles à celles des GPU occidentaux les plus récents ? Cela signifie-t-il que Huawei dispose désormais des capacités nécessaires pour commercialiser ce GPU ?

    • Huawei est une entreprise bien plus gigantesque qu’on ne l’imagine souvent. Elle est immense non seulement dans les stations de base 5G, mais aussi dans les téléphones, les véhicules électriques et bien d’autres domaines
    • À propos de l’expression « occasion de contre-attaquer », les ventes de smartphones Huawei ont déjà dépassé celles d’Apple en Chine. Lien vers des données détaillées de part de marché
    • Sur le plan matériel, Huawei peut fabriquer des téléphones tout à fait compétitifs. Le vrai problème, c’est qu’en l’absence du Google Play Store, il est difficile de justifier l’achat
    • Recommandation d’une vidéo YouTube qui explique bien la situation globale de Huawei
  • Il est nécessaire, au niveau mondial, qu’une concurrence entre Huawei et la Chine d’un côté, et TSMC et Nvidia de l’autre, se forme sur la question de la finesse de gravure

    • Si l’on met de côté les enjeux géopolitiques, ce serait un très bon scénario. Mais la technologie IA est une arme à double tranchant, et la concurrence dans le domaine grand public risque facilement de se transformer en course aux armements. Compte tenu de la puissance industrielle de la Chine et de ses coûts de main-d’œuvre, la Chine finirait probablement par l’emporter. Mais pour y parvenir, il faudrait d’abord une duplication de la capacité de production d’ASML, ce qui ne semble pas réaliste à court terme
    • Si les États-Unis levaient les restrictions sur les exportations de puces, on a l’impression que le gouvernement chinois pourrait au contraire imposer des restrictions à l’importation. Les bénéfices tirés du développement d’un véritable concurrent à Nvidia/TSMC/Apple/Google seraient largement supérieurs