2 points par GN⁺ 2025-07-07 | 1 commentaires | Partager sur WhatsApp
  • Huawei est visé par des révélations internes affirmant que l’entreprise aurait copié de grands modèles d’IA de Qwen et DeepSeek, puis les aurait présentés comme son propre produit sous le nom de « Pangu »
  • Selon le témoignage d’un employé interne de l’équipe Pangu, certains modèles clés n’auraient pas été réellement développés en interne, mais simplement renommés à partir de modèles open source externes
  • D’un point de vue technique, il apparaît que des modèles majeurs comme 135B V2 et Pro MoE 72B correspondent dans une large mesure à l’architecture de Qwen et DeepSeek
  • En interne, ces pratiques auraient entraîné une baisse du moral des chercheurs et des départs, aggravés aussi par l’inefficacité administrative et des politiques RH opaques
  • Il existerait bien de véritables modèles développés de manière autonome (comme Pangu V3), mais la pratique du clonage et une culture de recherche peu reconnue auraient profondément entamé la confiance dans l’organisation
  • Le lanceur d’alerte dit avoir décidé de révéler la vérité sous son vrai nom et appelle l’organisation à l’introspection et au changement

La tragédie de Pangu : les coulisses douloureuses du grand modèle Pangu chez Huawei Noah Ark Lab

Présentation du lanceur d’alerte et ambiance sur le terrain

  • L’auteur indique appartenir à l’équipe des grands modèles Pangu de Huawei Noah, et affirme avoir authentifié son identité en la recoupant avec des informations internes sur la structure organisationnelle, les projets et la composition du leadership
  • Le projet Pangu ressemblait en réalité davantage à une organisation de livraison qu’à une organisation de recherche, sous pression permanente de délais répétés, de surcharge de travail, d’évaluations et de reporting continus
  • L’intensité du travail et la bureaucratie y étaient extrêmes, avec des périodes prolongées loin de la famille, en logement de fonction, et du travail fréquent le week-end
  • En pratique, l’autonomie et la créativité de la recherche passaient après une culture d’entreprise centrée sur les délais et les résultats des différentes lignes produits (Cloud, ICT, etc.)

Des nuits sans sommeil, une conscience créative piétinée

  • Après la controverse sur le plagiat du modèle Qwen, certains chercheurs disent avoir ressenti simultanément honte, colère et impuissance
  • Le lanceur d’alerte affirme craindre les représailles d’un géant industriel et de ses réseaux internes, mais dit ne plus pouvoir tolérer la dissimulation des faits et la communication mensongère vers l’extérieur, d’où sa décision de parler par conscience

Des obstacles techniques, puis le début du plagiat

  • Les premiers modèles Pangu ont tenté un entraînement maison sur des NPU Ascend de Huawei, mais ont connu de graves tâtonnements, notamment en raison de l’inefficacité du tokenizer et de performances insuffisantes du modèle
  • L’équipe a pris du retard sur des concurrents (Alibaba, Zhipu) utilisant des modèles sur GPU, et l’entraînement de son propre modèle dense 230B s’est soldé par un échec
  • Par la suite, le laboratoire des petits modèles l’aurait présenté comme du « développement interne », alors qu’il aurait en réalité produit un 135B V2 cloné et légèrement modifié à partir du modèle Qwen-1.5 (110B), avec des similarités de code et d’architecture visibles même en interne
  • Les principaux dirigeants et membres du management auraient été au courant de cette réalité, mais l’auraient tolérée au nom de la pression exercée sur les résultats et les performances externes

Une véritable réussite technique : Pangu V3

  • Après de nombreux efforts, l’équipe a entraîné de manière indépendante sur Ascend un modèle Pangu V3 (135B Ultra) entièrement développé en interne dès le départ
  • En surmontant plusieurs difficultés techniques (unification du tokenizer, stabilisation de la courbe de perte, etc.), elle serait parvenue à des performances comparables à celles de concurrents
  • Cette réussite constituait, selon le texte, la preuve d’un développement autonome de grand modèle plutôt que d’un plagiat, et une source de fierté pour les chercheurs

Le travail ingrat derrière la division des tâches

  • Le laboratoire des petits modèles aurait continuellement récupéré données, code et résultats pour modifier et diffuser facilement des modèles, tandis que les résultats et les récompenses revenaient surtout à cette entité
  • De ce fait, des chercheurs très investis auraient quitté l’organisation ou décriraient cette période avec amertume comme une tache dans leur parcours technique

Cas secondaire de plagiat : clone 224B MoE / 718B

  • Lors du développement d’un nouveau modèle 718B MoE, DeepSeekv3 aurait été quasiment copié tel quel puis renommé Pangu Pro MoE 72B avant diffusion
  • En interne, ces pratiques auraient été connues, mais le climat aurait été dominé par la peur pour sa survie professionnelle et la peur de révéler la vérité

Une gestion administrative absurde

  • Les véritables chercheurs étaient soumis à des processus stricts, à une traçabilité des lignées de modèles et à des mécanismes d’audit, ce qui ralentissait le développement
  • Mais pour les modèles clonés, un double standard profondément enraciné persistait : « si cela vient d’en haut, tout passe »

Les raisons de la révélation et la décision de démissionner

  • Après l’affaire HonestAGI, l’entreprise aurait lancé une gestion de crise et des tentatives de dissimulation interne
  • Le lanceur d’alerte affirme ne plus pouvoir participer à de « faux rapports » ni à une entente interne, et dit avoir demandé le retrait de son nom des listes d’équipe et des rapports, tout en exprimant son intention de quitter volontairement l’entreprise

Dernier appel et attachement aux collègues

  • De nombreux collègues sont déjà partis chez ByteDance, DeepSeek, Tencent, Kuaishou et d’autres entreprises, illustrant selon lui une grave fuite des talents chez Huawei
  • Il souligne qu’avec de l’innovation, un environnement adapté et moins d’obstacles politiques, il aurait été possible de développer des grands modèles et des puces de niveau mondial
  • Il dit être prêt à assumer l’authenticité de ses propos, y compris le risque de menaces contre lui-même et sa famille en raison d’éventuelles révélations supplémentaires

Éléments contextuels supplémentaires

  • Dans le cas du clone 135B V2, le laboratoire des petits modèles aurait récolté les bénéfices, comme les récompenses et incitations, tandis que la charge du support downstream et de la maintenance était reportée sur l’équipe de développement d’origine (4th brigade)
  • Même dans la liste des auteurs du rapport technique de Pangu, des personnes ayant contribué de façon décisive au développement du modèle auraient été exclues, tandis que des membres non contributeurs du laboratoire des petits modèles y auraient été inclus, signe selon le texte de pratiques académiques injustes très répandues

1 commentaires

 
GN⁺ 2025-07-07
Avis Hacker News
  • Je trouve que l’auteur original adopte une vision un peu naïve. Au départ, l’équipe Ascend était en retard en performances par rapport à Nvidia (du moins avec le NPU 910A de 1re génération), ce qui était un résultat assez naturel. La direction a soutenu l’équipe qui suivait une alternative fondée sur des GPU, immédiatement commercialisable, et la politique interne a fini par figer cette orientation. L’équipe Ascend a finalement réussi à résoudre les problèmes techniques, mais beaucoup de ses membres ont fini en burn-out ou sont partis vers d’autres entreprises chinoises de l’IA en raison d’un traitement injuste, de biais bureaucratiques et d’un manque de reconnaissance. HW (probablement Huawei) a longtemps eu une stratégie et une culture consistant à surexploiter des talents de tout premier plan ; déjà dans les années 1990, les opérateurs télécoms de la RPC débauchaient des talents de Nortel, Siemens et Lucent, mais même des talents chinois habitués à une culture de travail occidentale avaient du mal à s’adapter à la culture réelle des entreprises chinoises et finissaient en burn-out. Malgré cela, HW a fini par dominer le secteur grâce à une culture du travail agressive. Aujourd’hui, après les sanctions, l’entreprise est devenue stratégique et sa valeur a fortement augmenté dans les semi-conducteurs, les puces nationales et l’IA. Dans l’environnement international actuel, HW est en position de faire n’importe quoi pour dominer le marché. Cette lettre de démission montre que HW a finalement réussi à amener Ascend à un niveau exploitable en y injectant suffisamment de talents, et il est possible qu’ils continuent à en investir assez pour rivaliser avec Nvidia à l’avenir. L’auteur, comme la plupart des salariés, a l’intuition qu’il faut une juste rémunération et de bonnes conditions de travail. Mais depuis 30 ans, HW gagne en versant des salaires énormes à quantité de gens brillants (patriotes compris), en les lançant sur les problèmes à résoudre et en les poussant jusqu’à la rupture
  • Les LLM sont structurellement incompatibles avec le copyright. Si l’on peut déjà entraîner sur les données des autres sans payer un centime, alors la logique devient que la copie est elle aussi libre. C’est vu comme un retour de boomerang de la copie
    • Naïvement, c’est incompatible, mais je pense que des avocats finiront bien par trouver un moyen de le rendre légal
  • Autrefois, les éditeurs de cartes ajoutaient de fausses ruelles afin de repérer facilement les atteintes au copyright. Je me demande si quelque chose de ce genre pourrait s’appliquer aux LLM
    • Quand je travaillais chez Malwarebytes, on soupçonnait IOBit de voler notre base de données. On avait des preuves évidentes, mais pour que le grand public puisse comprendre facilement, nous avons créé un programme inédit présent sur une seule machine, puis ajouté sa signature dans la base. Ce programme était non malveillant et ne pouvait en réalité pas se retrouver diffusé ; quand l’autre camp l’a ajouté à sa base, nous l’avons révélé sur le blog et cela a eu un gros retentissement. Cas connexe : l’affaire du vol par IOBit
    • Un exemple classique consiste à introduire volontairement dans des puces informatiques des défauts minimes et inoffensifs, ou des comportements anormaux. Beaucoup de produits fabriqués en Chine sont issus de rétro-ingénierie de produits d’autres entreprises comme TI, d’où la fréquence de ce genre de défauts. Même en Chine, ils se font cela entre eux. C’est perçu partout comme la même forme de triche
    • J’ai déjà vu l’exemple du projet OML 1.0: Fingerprinting, un outil qui insère une empreinte dans un modèle afin d’identifier la propriété d’un LLM et d’empêcher son utilisation non autorisée
    • Le youtubeur Jay Foreman a aussi réalisé une vidéo sur les fausses ruelles dans les cartes
    • Le billet de dénonciation original en chinois contenait aussi ceci : l’analyse d’Honestagi s’est dite surprise de voir une telle similarité alors qu’il s’agissait d’un modèle ayant subi un très long entraînement supplémentaire. Les ressources de calcul mobilisées pour « laver » les paramètres de ce modèle auraient suffi à créer un nouveau modèle de niveau comparable. Selon des collègues, il y aurait aussi eu plusieurs tentatives pour effacer le watermark de Qwen, y compris en l’entraînant délibérément sur des données contaminées. Cette méthode restera sans précédent dans l’étude de la lignée des modèles et pourra servir d’exemple lors de la validation de nouvelles méthodologies de recherche
  • Apple a présenté un LLM basé sur Qwen2.5-Coder-7B tout en y ajoutant ses propres idées. Le principal changement est un entraînement personnalisé sur des exemples de code propres à Apple, et si l’on augmente la température, il peut générer plusieurs blocs de code sans respecter leur ordre. Article connexe : actu sur le LLM d’Apple discussion HN
  • Une valorisation de l’efficacité à la chinoise. L’Occident serait entravé par d’anciennes lois sur le copyright
  • C’est un rapport très humain et très franc. Il montre le chaos interne des grandes entreprises et une structure où la direction met davantage la pression en faveur d’équipes malhonnêtes. L’auteur a quitté l’entreprise et est considéré comme quelqu’un de bien
    • En réalité, il faut replacer ce rapport dans le contexte d’autres lettres de démission apparues récemment en Chine. Un autre texte, écrit récemment par un vétéran d’Alibaba avec 15 ans d’ancienneté, critiquait lui aussi le déclin de la culture d’entreprise comme cause de l’affaiblissement de la compétitivité et de l’échec des nouveaux produits. Les points clés du rapport sont les suivants : 1. le mensonge à l’échelle nationale sur les capacités de Huawei 2. le mensonge envers les clients payants 3. une réalité où, sous un système de gestion obsédé par les KPI, la manipulation des indicateurs de performance est de fait tolérée, voire encouragée (c’est là le cœur du rapport, ainsi que la perte d’idéaux et de confiance de son auteur)
  • La phrase « Le samedi était fondamentalement un jour de travail, mais parfois il y avait un tea time l’après-midi, voire même des écrevisses » a quelque chose de poétique. Je me demande s’il existe une raison particulière à la présence d’écrevisses dans ce contexte
    • Supposition : « Même si le samedi était travaillé, il y avait parfois des encas, et les écrevisses étaient peut-être simplement populaires, ou alors c’est une erreur de traduction »
  • La description organisationnelle « Nous dépendons du projet “Quatrième armée de campagne”, le LLM de langue principale relève de la 4e brigade, et le groupe des petits modèles de Wang Yunhe de la 16e brigade » m’a laissé perplexe. Je me demande s’il s’agit d’une véritable organisation relevant de l’armée du Parti communiste
    • De fait, la véritable Quatrième armée de campagne n’existe plus depuis 1955, et il est probable que cela ne soit qu’un nom de code réutilisé pour le projet LLM
    • Mention de la culture d’entreprise militarisée de Huawei. Même l’orientation des nouvelles recrues fonctionnerait comme une cérémonie de fin de formation militaire. Référence : culture militarisée de Huawei
  • La question se pose de savoir qui a réellement créé le modèle primitif au départ
  • Il y a déjà eu par le passé le cas d’un membre d’un Huawei Lab licencié pour avoir effectivement saboté l’entraînement d’un modèle, et certains se demandent s’il pourrait s’agir de la même personne que dans cette dénonciation
    • Il s’agit probablement plutôt du cas mentionné d’un stagiaire chez ByteDance licencié après avoir introduit du code malveillant dans des modèles d’IA. Article connexe : bytedance-intern-fired