Le LLM « développé en interne » de Rio de Janeiro semble être une fusion de modèles existants
(github.com/nex-agi)- Le statut GitHub est Open, et le README du commit a778c1ec4e21180ee55c3ea016a348e549e75f09 indique que le modèle a été créé par fusion de
Nex-N2-ProetQwen3.5-397B-A17B, qu’il a subi une distillation on-policy à partir d’un modèle plus puissant, et que la version fusionnée de base a été téléversée par erreur lors d’une version précédente au lieu du modèle final distillé - Le point central de la contestation est que
prefeitura-rio/Rio-3.5-Open-397Ba été présenté comme le modèle original 397B entraîné par IplanRIO, alors que ses poids seraient une fusion directe élément par élément d’environ 0.6/0.4 entre Nex et Qwen, sans preuve d’un entraînement propre - Après suppression du prompt système codé en dur « You are Rio » et envoi de 120 questions d’identité à
rio-397b, les résultats mesurés auraient été : réponsesNex79.2%(95/120), réponsesNex-AGI73.3%(88/120), réponsesRio0.0%(0/120) - Des exemples de réponses sans ce prompt incluaient « I am Nex, from Nex-AGI », « Nex-AGI is a large-model ecosystem alliance » et « Shanghai Innovation Institute », reproduisant presque mot pour mot la description organisationnelle des données d’identité de Nex
- L’analyse des poids a mesuré, tenseur par tenseur, la relation
(Rio − Qwen) = α × (Nex − Qwen)et comparé la collinearity selon un critère oùcos_fitvaut≈ 0pour des modèles indépendants et≈ 1pour une fusion - Les mesures rapportées sont, pour les routed experts,
α = 0.571 ± 0.0016,cos_fit = 0.993; pourlm_head,α = 0.574,cos_fit = 0.991; pour l’attention,α ≈ 0.585,cos_fit ≈ 0.986; et pour les projections de linear-attention,α ≈ 0.586,cos_fit ≈ 0.984 - Après le partage de la modification du README, 00INDEX a demandé si ce crédit faisait référence à une mise à jour effectuée une heure plus tôt, et yhcc a réagi en disant qu’il fallait voir si le modèle serait de nouveau téléversé le lendemain
- La question d’un éventuel financement public a donné lieu à une controverse distincte : un commentaire a partagé un lien X affirmant « No public funds were used », un autre a cité un lien X reprenant les propos du maire, puis une image citée a ensuite inclus la phrase « no public money was spent on this model training »
1 commentaires
Commentaires Hacker News
Je n’ai aucun lien avec l’affaire, mais voici ce à quoi cela ressemble : 1) le modèle officiel affirmait être basé sur Qwen 397B, et comme Nex repose probablement sur le même modèle de base, il est très possible qu’ils n’aient pas du tout publié Nex Pro 2) les améliorations ont sans doute été obtenues en ajoutant une distillation on-policy à la fusion des poids, mais le modèle mis en ligne ne contenait aucune distillation, d’où la confusion
3) Ce modèle n’a pas été promu autrement que par un post Reddit il y a deux jours, et il s’est diffusé naturellement pendant le week-end en coïncidant avec le premier match du Brésil à la Coupe du monde. Le maire de Rio a bien profité de cette exposition gratuite, mais ce n’était pas fait en coordination avec les chercheurs
4) S’ils avaient simplement fusionné deux modèles, il n’y aurait apparemment aucune raison de le publier comme basé sur Qwen 397B en mentionnant même l’article sur SwiReasoning tout en cachant uniquement Nex
5) Quoi qu’il en soit, si le bon modèle est mis en ligne, cette affirmation sera facile à vérifier
S’ils avaient réellement « par erreur » omis d’uploader le modèle plus performant, ils auraient déjà pu mettre le bon fichier en ligne à l’heure qu’il est
Si le prestataire de Rio a réellement fait son propre post-entraînement comme il l’affirme, je me demande comment cela serait possible : https://x.com/tenobrus/status/2066243352211996728/photo/1
Le passage disant que « tous les tenseurs de poids de Rio correspondent à un mélange 0,6/0,4 de Nex et Qwen à des milliers d’écarts-types près, sur les 60 couches et tous les composants du réseau ; aucun autre fine-tuning ne peut s’expliquer par interpolation » est surprenant au regard de la robustesse des modèles de deep learning aujourd’hui
Autrement dit, ils ont simplement fait une combinaison linéaire de tous les poids sans dégrader les performances, voire en les améliorant
Au final, c’est le jeu qui consiste à tourner les boutons dans tous les sens puis à publier dès qu’un benchmark s’améliore. HuggingFace regorge de modèles fine-tunés et de modèles chimères meilleurs sur certains tests précis, mais qui deviennent en général moins bons pour d’autres usages
On voit souvent la même chose avec les modèles modifiés pour retirer la censure. Ils réussissent à produire des sorties qui étaient auparavant censurées, mais la qualité globale des réponses baisse
Je doute que cette méthode fonctionne avec deux LLM préentraînés différemment. Même si c’était possible, il faudrait en pratique que la forme des activations internes, les dimensions, le nombre d’experts et le vocabulaire de tokens soient exactement identiques, donc cela a peu de chances d’arriver en dehors du fine-tuning ou d’expériences académiques
Cela fonctionne si bien que, dans de nombreux cas, c’est devenu une partie explicite du processus d’entraînement. On crée plusieurs branches d’entraînement, on les fusionne, puis on poursuit l’entraînement
On ne comprend toujours pas pourquoi cela marche aussi bien
Cela reste malgré tout surprenant qu’une approche aussi simple fonctionne
La municipalité de Rio de Janeiro a publié Rio-3.5-Open-397B via sa société IT IplanRIO, en le présentant comme un modèle Qwen3.5 fine-tuné en interne qui surpasserait sur les benchmarks des modèles ouverts comparables
L’issue liée affirme qu’il s’agit en réalité d’une fusion pondérée d’environ 60 % de Nex-N2 Pro + 40 % de Qwen3.5-397B-A17B, y compris Nex-N2 qui avait été publié environ une semaine plus tôt
Ça ressemble à un gaspillage d’argent public
Quelqu’un profite du travail d’autrui sans attribuer correctement les sources ? Eh bien dis donc, quelle surprise !
Le cœur de la controverse est qu’ils l’ont publié en affirmant avoir effectué un post-entraînement améliorant les résultats. En réalité, il a été établi que ce n’était pas le modèle post-entraîné qu’ils prétendaient
La page HuggingFace mentionne maintenant qu’il s’agit d’une fusion de modèles, mais ce n’était pas le cas auparavant. Ils soutiennent qu’ils ont mis par erreur le mauvais modèle sur HuggingFace et qu’ils vont bientôt publier le vrai
En résumé, ils pensaient pouvoir fusionner deux modèles à poids ouverts et prétendre que leur équipe avait obtenu des résultats remarquables en post-entraînement, sans imaginer que d’autres chercheurs seraient assez compétents pour voir qu’il n’y avait en fait aucun post-entraînement
Si l’on entend par là qu’ils ont réalisé 0,00001 % du travail incorporé dans le produit final, alors oui
Cela ressemble davantage au fait de forker une distribution Linux, d’y ajouter quelques thèmes et polices, puis de voir quelqu’un forker à nouveau cette distribution pour y ajouter encore un autre thème, avant de s’en plaindre
Le fait de rebrander un modèle fusionné sans le publier comme tel sous l’étiquette « développé en interne » est préoccupant.
Cela nuit à la confiance envers le développement d’IA open source ; il faut donc de meilleures normes de traçabilité de provenance et de transparence pour la publication des modèles.
Ce serait bien d’avoir une explication ou des liens sur le fonctionnement de la fusion de modèles.
Je me demande s’il s’agit réellement d’une fusion mathématique des poids, ou d’une méthode comme la distillation. Si, comme le dit l’article, il n’y a eu absolument aucun entraînement, alors ce n’est probablement pas de la distillation.
En général, la fusion désigne une technique qui consiste à mélanger directement, mathématiquement, les poids de différents modèles. C’était très populaire il y a environ deux ans, et les classements voyaient apparaître beaucoup de soi-disant Frankenmodels.
Personnellement, je range la fusion dans la même catégorie que des choses comme « abliteration » : des techniques qui modifient chirurgicalement les poids d’un modèle sans boucle traditionnelle d’entraînement/ajustement. Si ce domaine vous intéresse, Maxime Labonne vaut le coup d’être suivi.
Modèle A : A_1, …, A_n
Modèle B : B_1, …, B_n
C_i = A_i * p + B_i * (1 - p)
Autrement dit, il s’agit simplement de combiner linéairement les poids de différents modèles position par position.
Le simple fait qu’ils aient essayé de créer un modèle est déjà surprenant.
Malgré tout, le fait que le service informatique municipal ait eu l’audace de tenter cela est peut-être un signal positif.
« Eh bien, Steve(Jobs), je pense que c’est plutôt comme si nous avions tous les deux ce voisin riche nommé Xerox, et que j’étais entré chez lui pour voler la télévision en découvrant que vous l’aviez déjà prise. »
— Bill Gates
La fin est encore plus intéressante : « Apple a intenté un grand procès pour violation du droit d’auteur contre Microsoft en 1988, mais a finalement perdu pour des raisons techniques. Le juge a estimé qu’Apple avait accordé par négligence à Microsoft une licence perpétuelle sur l’interface utilisateur du Mac en novembre 1985. »
Ce n’est pas Microsoft qui a volé l’interface graphique d’Apple ; c’est Apple qui la lui a en quelque sorte cédée.