1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Le statut GitHub est Open, et le README du commit a778c1ec4e21180ee55c3ea016a348e549e75f09 indique que le modèle a été créé par fusion de Nex-N2-Pro et Qwen3.5-397B-A17B, qu’il a subi une distillation on-policy à partir d’un modèle plus puissant, et que la version fusionnée de base a été téléversée par erreur lors d’une version précédente au lieu du modèle final distillé
  • Le point central de la contestation est que prefeitura-rio/Rio-3.5-Open-397B a été présenté comme le modèle original 397B entraîné par IplanRIO, alors que ses poids seraient une fusion directe élément par élément d’environ 0.6/0.4 entre Nex et Qwen, sans preuve d’un entraînement propre
  • Après suppression du prompt système codé en dur « You are Rio » et envoi de 120 questions d’identité à rio-397b, les résultats mesurés auraient été : réponses Nex 79.2% (95/120), réponses Nex-AGI 73.3% (88/120), réponses Rio 0.0% (0/120)
  • Des exemples de réponses sans ce prompt incluaient « I am Nex, from Nex-AGI », « Nex-AGI is a large-model ecosystem alliance » et « Shanghai Innovation Institute », reproduisant presque mot pour mot la description organisationnelle des données d’identité de Nex
  • L’analyse des poids a mesuré, tenseur par tenseur, la relation (Rio − Qwen) = α × (Nex − Qwen) et comparé la collinearity selon un critère où cos_fit vaut ≈ 0 pour des modèles indépendants et ≈ 1 pour une fusion
  • Les mesures rapportées sont, pour les routed experts, α = 0.571 ± 0.0016, cos_fit = 0.993 ; pour lm_head, α = 0.574, cos_fit = 0.991 ; pour l’attention, α ≈ 0.585, cos_fit ≈ 0.986 ; et pour les projections de linear-attention, α ≈ 0.586, cos_fit ≈ 0.984
  • Après le partage de la modification du README, 00INDEX a demandé si ce crédit faisait référence à une mise à jour effectuée une heure plus tôt, et yhcc a réagi en disant qu’il fallait voir si le modèle serait de nouveau téléversé le lendemain
  • La question d’un éventuel financement public a donné lieu à une controverse distincte : un commentaire a partagé un lien X affirmant « No public funds were used », un autre a cité un lien X reprenant les propos du maire, puis une image citée a ensuite inclus la phrase « no public money was spent on this model training »

1 commentaires

 
GN⁺ 4 시간 전
Commentaires Hacker News
  • Je n’ai aucun lien avec l’affaire, mais voici ce à quoi cela ressemble : 1) le modèle officiel affirmait être basé sur Qwen 397B, et comme Nex repose probablement sur le même modèle de base, il est très possible qu’ils n’aient pas du tout publié Nex Pro 2) les améliorations ont sans doute été obtenues en ajoutant une distillation on-policy à la fusion des poids, mais le modèle mis en ligne ne contenait aucune distillation, d’où la confusion
    3) Ce modèle n’a pas été promu autrement que par un post Reddit il y a deux jours, et il s’est diffusé naturellement pendant le week-end en coïncidant avec le premier match du Brésil à la Coupe du monde. Le maire de Rio a bien profité de cette exposition gratuite, mais ce n’était pas fait en coordination avec les chercheurs
    4) S’ils avaient simplement fusionné deux modèles, il n’y aurait apparemment aucune raison de le publier comme basé sur Qwen 397B en mentionnant même l’article sur SwiReasoning tout en cachant uniquement Nex
    5) Quoi qu’il en soit, si le bon modèle est mis en ligne, cette affirmation sera facile à vérifier

    • À propos du point 2, il y a aussi https://news.ycombinator.com/item?id=48529544
    • Je n’aurais vraiment jamais pensé voir sur HN un titre comme « le LLM maison de Rio de Janeiro », donc le simple fait que cela soit arrivé est déjà surprenant
    • Si le modèle de base a été fusionné avec le modèle fine-tuné d’un autre labo, l’amélioration a pu venir d’une partie des poids fine-tunés de cet autre modèle
      S’ils avaient réellement « par erreur » omis d’uploader le modèle plus performant, ils auraient déjà pu mettre le bon fichier en ligne à l’heure qu’il est
    • Je ne comprends pas ce que signifie des débuts en Coupe du monde. Le Brésil ne l’a-t-il pas déjà gagnée cinq fois ?
    • Si j’ai bien compris, ils n’ont fait aucune distillation, et tous les poids sont une moyenne élément par élément de Qwen et Nex à 60/40
      Si le prestataire de Rio a réellement fait son propre post-entraînement comme il l’affirme, je me demande comment cela serait possible : https://x.com/tenobrus/status/2066243352211996728/photo/1
  • Le passage disant que « tous les tenseurs de poids de Rio correspondent à un mélange 0,6/0,4 de Nex et Qwen à des milliers d’écarts-types près, sur les 60 couches et tous les composants du réseau ; aucun autre fine-tuning ne peut s’expliquer par interpolation » est surprenant au regard de la robustesse des modèles de deep learning aujourd’hui
    Autrement dit, ils ont simplement fait une combinaison linéaire de tous les poids sans dégrader les performances, voire en les améliorant

    • Sur quelques benchmarks, on peut dire qu’il s’est amélioré
      Au final, c’est le jeu qui consiste à tourner les boutons dans tous les sens puis à publier dès qu’un benchmark s’améliore. HuggingFace regorge de modèles fine-tunés et de modèles chimères meilleurs sur certains tests précis, mais qui deviennent en général moins bons pour d’autres usages
      On voit souvent la même chose avec les modèles modifiés pour retirer la censure. Ils réussissent à produire des sorties qui étaient auparavant censurées, mais la qualité globale des réponses baisse
    • C’est possible parce que Nex lui-même est une version fine-tunée de Qwen3.5 : https://huggingface.co/nex-agi/Nex-N2-Pro
      Je doute que cette méthode fonctionne avec deux LLM préentraînés différemment. Même si c’était possible, il faudrait en pratique que la forme des activations internes, les dimensions, le nombre d’experts et le vocabulaire de tokens soient exactement identiques, donc cela a peu de chances d’arriver en dehors du fine-tuning ou d’expériences académiques
    • Cela s’appelle la connectivité en mode linéaire, et cela semble fonctionner sur presque tous les grands modèles
      Cela fonctionne si bien que, dans de nombreux cas, c’est devenu une partie explicite du processus d’entraînement. On crée plusieurs branches d’entraînement, on les fusionne, puis on poursuit l’entraînement
      On ne comprend toujours pas pourquoi cela marche aussi bien
    • C’est une idée bien connue : https://arxiv.org/abs/2203.05482
      Cela reste malgré tout surprenant qu’une approche aussi simple fonctionne
    • Il est intriguant de penser qu’il pourrait exister un ensemble « secret » de réglages qui permettrait, appliqué à ces poids ou à un plus petit modèle, de produire une simulation d’intelligence bien supérieure à quelque chose comme Fable
  • La municipalité de Rio de Janeiro a publié Rio-3.5-Open-397B via sa société IT IplanRIO, en le présentant comme un modèle Qwen3.5 fine-tuné en interne qui surpasserait sur les benchmarks des modèles ouverts comparables
    L’issue liée affirme qu’il s’agit en réalité d’une fusion pondérée d’environ 60 % de Nex-N2 Pro + 40 % de Qwen3.5-397B-A17B, y compris Nex-N2 qui avait été publié environ une semaine plus tôt

    • Je ne savais pas que ce type de fusion de modèles était possible. Du point de vue purement logiciel, c’est évidemment possible, mais le fait que ce soit efficace est surprenant
    • Le problème n’est donc pas l’absence d’attribution à Qwen, mais le fait de ne pas mentionner Nex-N2 Pro, c’est bien ça ?
    • Si Rio consacre du temps aux LLM, la ville devrait déjà disposer d’une infrastructure IT et logicielle de tout premier plan
      Ça ressemble à un gaspillage d’argent public
  • Quelqu’un profite du travail d’autrui sans attribuer correctement les sources ? Eh bien dis donc, quelle surprise !

    • C’est un modèle à poids ouverts fondé sur d’autres modèles à poids ouverts
      Le cœur de la controverse est qu’ils l’ont publié en affirmant avoir effectué un post-entraînement améliorant les résultats. En réalité, il a été établi que ce n’était pas le modèle post-entraîné qu’ils prétendaient
      La page HuggingFace mentionne maintenant qu’il s’agit d’une fusion de modèles, mais ce n’était pas le cas auparavant. Ils soutiennent qu’ils ont mis par erreur le mauvais modèle sur HuggingFace et qu’ils vont bientôt publier le vrai
      En résumé, ils pensaient pouvoir fusionner deux modèles à poids ouverts et prétendre que leur équipe avait obtenu des résultats remarquables en post-entraînement, sans imaginer que d’autres chercheurs seraient assez compétents pour voir qu’il n’y avait en fait aucun post-entraînement
    • Ce qui compte, ce n’est pas l’attribution, c’est le fait de mentir sur les capacités du laboratoire
    • Je me demande comment on considère le fait qu’un gouvernement ou un prestataire public dise avoir accompli énormément de travail alors qu’en réalité il n’a rien fait
    • C’est une fraude pure et simple financée par l’impôt. Qu’attendre d’autre ?
    • Dire que c’est « leur travail », c’est exagéré : les créateurs du contenu d’origine ont d’abord fait 99,99 % du travail, puis des entreprises américaines l’ont assemblé pour en faire des LLM de pointe, et « eux » ont ensuite fait le « travail » de construire leur modèle sur la base de ces modèles américains
      Si l’on entend par là qu’ils ont réalisé 0,00001 % du travail incorporé dans le produit final, alors oui
      Cela ressemble davantage au fait de forker une distribution Linux, d’y ajouter quelques thèmes et polices, puis de voir quelqu’un forker à nouveau cette distribution pour y ajouter encore un autre thème, avant de s’en plaindre
  • Le fait de rebrander un modèle fusionné sans le publier comme tel sous l’étiquette « développé en interne » est préoccupant.
    Cela nuit à la confiance envers le développement d’IA open source ; il faut donc de meilleures normes de traçabilité de provenance et de transparence pour la publication des modèles.

  • Ce serait bien d’avoir une explication ou des liens sur le fonctionnement de la fusion de modèles.
    Je me demande s’il s’agit réellement d’une fusion mathématique des poids, ou d’une méthode comme la distillation. Si, comme le dit l’article, il n’y a eu absolument aucun entraînement, alors ce n’est probablement pas de la distillation.

    • Pour commencer, ce document est bien : https://huggingface.co/docs/peft/developer_guides/model_merg...
      En général, la fusion désigne une technique qui consiste à mélanger directement, mathématiquement, les poids de différents modèles. C’était très populaire il y a environ deux ans, et les classements voyaient apparaître beaucoup de soi-disant Frankenmodels.
      Personnellement, je range la fusion dans la même catégorie que des choses comme « abliteration » : des techniques qui modifient chirurgicalement les poids d’un modèle sans boucle traditionnelle d’entraînement/ajustement. Si ce domaine vous intéresse, Maxime Labonne vaut le coup d’être suivi.
    • Il n’y a pas grand-chose à lire.
      Modèle A : A_1, …, A_n
      Modèle B : B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      Autrement dit, il s’agit simplement de combiner linéairement les poids de différents modèles position par position.
  • Le simple fait qu’ils aient essayé de créer un modèle est déjà surprenant.
    Malgré tout, le fait que le service informatique municipal ait eu l’audace de tenter cela est peut-être un signal positif.

    • La fusion et le fine-tuning sont à la portée de particuliers prêts à y mettre un peu d’argent ; un gouvernement local peut donc tout à fait le faire aussi.
    • Comme le suggère l’hypothèse d’un commentaire enterré, il semble plus plausible qu’ils aient proposé au gouvernement un énorme budget d’entraînement de LLM, empoché l’essentiel de l’argent, puis publié un modèle fusionné bon marché pour justifier le détournement.
  • « Eh bien, Steve(Jobs), je pense que c’est plutôt comme si nous avions tous les deux ce voisin riche nommé Xerox, et que j’étais entré chez lui pour voler la télévision en découvrant que vous l’aviez déjà prise. »
    — Bill Gates

    • Le début de la citation est encore plus drôle : « Bill Gates est apparu seul, pour une raison quelconque, entouré de 10 employés d’Apple. … Steve s’est mis à crier sur Bill pour lui demander pourquoi il avait rompu l’accord. »
      La fin est encore plus intéressante : « Apple a intenté un grand procès pour violation du droit d’auteur contre Microsoft en 1988, mais a finalement perdu pour des raisons techniques. Le juge a estimé qu’Apple avait accordé par négligence à Microsoft une licence perpétuelle sur l’interface utilisateur du Mac en novembre 1985. »
      Ce n’est pas Microsoft qui a volé l’interface graphique d’Apple ; c’est Apple qui la lui a en quelque sorte cédée.
    • J’aimerais que ce soit une vraie citation. Elle est vraiment percutante.