1 points par GN⁺ 1 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Les modèles à poids ouverts permettent à chacun d’exécuter directement des LLM sur son propre matériel, ce qui offre la protection des données sensibles, de la flexibilité pour le fine-tuning et la quantification, ainsi que des coûts d’inférence plus faibles que les modèles de pointe
  • Les modèles de laboratoires chinois comme MiniMax, Z.ai, DeepSeek et Qwen sont considérés comme les principaux modèles à poids ouverts, tandis que Gemma de Google et gpt-oss d’OpenAI sont généralement jugés en retrait
  • Les modèles à poids ouverts exercent une pression à la baisse sur les prix des laboratoires de pointe comme OpenAI, Anthropic et Google, car la possibilité de basculer vers des alternatives moins chères freine les comportements de prix oligopolistiques
  • Récemment, Meta a cessé de publier ses modèles avec le dernier « Muse Spark », Alibaba a multiplié les publications en priorité via API ou uniquement via API, et Kimi K2.6 comme Mistral montrent une tendance à imposer des conditions de licence plus strictes
  • Si l’écosystème concurrentiel des modèles à poids ouverts s’affaiblit, quelques laboratoires de pointe et certains laboratoires chinois pourraient capter une part beaucoup plus importante du surplus du consommateur des utilisateurs d’IA, tandis que la distillation nécessite elle aussi l’accès à de puissants modèles de base et constitue donc difficilement une solution fondamentale

Le rôle des modèles à poids ouverts

  • Le marché des LLM a vu coexister des modèles fermés et des modèles à poids ouverts (open weights)
    • Les modèles fermés incluent, malgré son nom, presque tous les modèles d’OpenAI
    • Les modèles à poids ouverts ont été publiés par d’autres laboratoires, la série Llama en étant l’exemple le plus représentatif
    • Plus récemment, les modèles de laboratoires chinois comme MiniMax, Z.ai, DeepSeek et Qwen (Alibaba) sont considérés comme les principaux modèles à poids ouverts
    • Les séries Gemma de Google et les modèles gpt-oss d’OpenAI sont généralement jugés en retrait par rapport aux modèles chinois
  • Les modèles à poids ouverts permettent à n’importe qui de les exécuter directement sur son propre matériel
    • Les modèles suffisamment performants pour être vraiment utiles nécessitaient en général un matériel très puissant
    • Cette condition évolue rapidement à mesure que des modèles plus petits deviennent bien plus utiles
  • L’exécution locale présente trois avantages par rapport au recours à des API envoyant les requêtes à des fournisseurs comme OpenAI, Anthropic ou Google
    • Lorsqu’il est difficile ou impossible d’envoyer des données sensibles vers les datacenters des laboratoires de pointe, une exécution on-premises permet de garder les données hors du réseau
    • Il est possible d’utiliser le modèle avec du fine-tuning ou de le quantifier (une forme approximative de compression) selon des contraintes matérielles spécifiques, ce qui offre davantage de flexibilité
    • En utilisant son propre matériel, il suffit de prendre en compte les dépenses d’investissement matériel, l’électricité et les coûts d’exploitation ; même chez un hébergeur, le coût par token est généralement inférieur à 10 % de celui des modèles de pointe

Pression sur les prix et discipline du marché

  • Les modèles à poids ouverts exercent une forte pression à la baisse sur les prix des laboratoires de pointe
    • Cela ressemble de manière assez lâche à la théorie des contestable markets, selon laquelle même dans un marché monopolistique ou oligopolistique, l’existence d’alternatives bon marché et crédibles pousse les acteurs établis à se comporter de façon concurrentielle
    • Cette théorie suppose au sens strict des coûts irrécupérables proches de zéro, alors que l’entraînement de modèles de pointe est presque à l’opposé
    • Malgré cela, le mécanisme central reste valable : la possibilité potentielle, pour les clients, de changer d’option discipline les prix
  • Les modèles de pointe peuvent facturer plus cher en raison d’une meilleure qualité et d’avantages contractuels
    • Les utilisateurs peuvent être prêts à payer beaucoup plus pour un meilleur modèle
    • Un contrat d’inférence avec une entreprise valant environ 1 000 milliards de dollars n’a pas la même valeur que l’utilisation d’un fournisseur d’inférence bon marché via OpenRouter
    • OpenAI et d’autres proposent des engagements juridiquement contraignants sur des éléments comme les SLA et la confidentialité
  • Mais les modèles à poids ouverts constituent malgré tout une pression suffisante pour rendre plus difficile un comportement de prix oligopolistique
    • Si les laboratoires de pointe multipliaient soudainement leurs prix par cinq, de nombreux utilisateurs pourraient se tourner vers des modèles à poids ouverts, en particulier pour les cas d’usage moins exigeants
    • Les modèles à poids ouverts jouent un rôle comparable à celui des médicaments génériques dans le comportement de prix
    • Quand les génériques existent, les grands laboratoires pharmaceutiques baissent leurs prix vers un niveau bien plus proche de celui des génériques et se concentrent sur de nouveaux traitements ayant une longueur d’avance sur eux afin de préserver leurs prix
  • Sans modèles à poids ouverts, le pouvoir de fixation des prix des laboratoires de pointe pourrait être bien plus élevé qu’aujourd’hui

Évolution des licences et des modes de publication

  • La disponibilité des modèles à poids ouverts n’a rien d’acquis
    • L’entraînement des modèles coûte cher, et les entreprises qui les développent sont des sociétés commerciales
    • Même si elles bénéficient probablement de subventions importantes de l’État chinois, ce ne sont pas des organisations caritatives
  • Récemment, les conditions de licence des modèles à poids ouverts montrent une nette tendance au durcissement
    • Meta a complètement cessé l’open weight avec son dernier modèle « Muse Spark » et ne publie plus du tout le modèle
    • Alibaba publie de plus en plus souvent ses modèles d’abord via API, ou uniquement via API pour certaines variantes
    • La licence de K2.6 de Kimi ajoute une clause d’attribution imposant d’afficher de façon visible « Kimi K2.6 » dans l’interface pour les produits dépassant 100 millions d’utilisateurs actifs mensuels ou 20 millions de dollars de revenus mensuels
    • Le français Mistral impose lui aussi diverses conditions de licence pour un usage commercial
  • Il existe des exceptions
    • DeepSeek évolue au contraire vers plus de permissivité
    • Mais la tendance générale reste à des licences moins généreuses, et Meta comme Alibaba évoluent vers l’arrêt de la publication d’une partie ou de la totalité de leurs modèles

La structure de marché que pourrait créer le recul des poids ouverts

  • D’ici un an, il est possible que la plupart, voire la totalité, des meilleurs modèles qui auraient autrefois été publiés en open weights ne le soient plus
    • Cela reste pour l’instant une hypothèse
    • Des comparaisons de prix entre modèles pourraient continuer d’exister
    • Mais si les coûts et la complexité de l’entraînement continuent d’augmenter, il pourrait ne rester qu’un petit nombre d’acteurs
  • La configuration possible du marché pourrait se réduire aux trois grands laboratoires de pointe occidentaux et à quelques laboratoires chinois
    • Il est aussi possible que les laboratoires chinois soient regroupés en un ou deux « superlabs » chinois via des « fusions » pilotées par l’État
    • Ce type de consolidation a de nombreux précédents dans les industries stratégiques
    • La Chine a déjà employé cette méthode dans le ferroviaire (CRRC), le nucléaire, les compagnies aériennes et les télécommunications
    • L’Occident n’est pas une exception, avec des cas de consolidation des grands groupes de défense depuis la fin de la guerre froide
  • Ce changement permettrait à un petit nombre d’entreprises de capter le surplus du consommateur généré par l’IA
    • Les utilisateurs de l’IA obtiennent une valeur bien supérieure au coût des tokens
    • On peut considérer que cette valeur est telle qu’ils hésiteraient peu à payer 10 fois les prix actuels
    • Dans les tâches spécialisées à forte valeur ajoutée ou les travaux de type agentique, l’écart entre le montant réellement payé et la disposition à payer est encore plus grand
    • Un oligopole sans plancher de prix fourni par les modèles à poids ouverts serait en position de transformer cet écart en profit
  • En théorie économique, un tel monde pourrait conduire à une concentration historique du pouvoir et de la richesse économique entre un petit nombre d’entreprises
    • Les laboratoires pourraient commencer à extraire directement le surplus du consommateur sous forme de marges
    • La concurrence par les prix a de fortes chances de rester limitée en raison de l’oligopole de quelques entreprises et des barrières à l’entrée liées aux dépenses d’investissement massives nécessaires pour créer de nouveaux modèles

Contre-arguments possibles et risques persistants

  • Il est possible que cette vision pessimiste soit excessive
    • Si le matériel progresse plus vite, entraîner des modèles « suffisamment bons » pourrait au contraire devenir plus facile avec le temps
    • Les fabricants de matériel IA sont peu nombreux, mais la concurrence y est intense
  • La distillation est souvent présentée comme une porte de sortie, mais ce n’est pas une solution fondamentale
    • La distillation consiste à entraîner un plus petit modèle à partir des sorties d’un modèle de pointe
    • Mais encore faut-il avoir accès, au départ, à un puissant modèle de base
    • Or l’élément précisément menacé est cet accès à de puissants modèles de base
  • Un écosystème concurrentiel de modèles à poids ouverts constituait une hypothèse porteuse silencieusement placée sous l’ensemble de l’économie de l’IA
    • Le fait que cette hypothèse s’affaiblisse mérite qu’on y prête attention
    • Les implications pour l’économie au sens large sont considérables

Terminologie et précisions complémentaires

  • Les modèles à poids ouverts désignent la catégorie où seul le modèle final est publié
    • Techniquement, on peut distinguer trois catégories : modèles fermés, modèles à poids ouverts, et modèles entièrement ouverts ou reproductibles
    • Les modèles entièrement ouverts ou reproductibles incluent aussi les données d’entraînement et la documentation des procédures d’entraînement associées
    • C’est cette catégorie qui se rapproche le plus de ce que l’on appelle l’open source dans le logiciel
  • OpenRouter joue le rôle d’une « API des API »
    • Il route les requêtes pour un modèle donné vers le fournisseur d’inférence le moins cher ou le plus disponible
    • Si un fournisseur rencontre un problème, il peut immédiatement basculer vers un autre, ce qui améliore fortement la fiabilité
    • S’il existe un fournisseur moins cher, il bascule vers celui-ci

1 commentaires

 
GN⁺ 1 시간 전
Avis sur Lobste.rs
  • Cet article est inexact à propos de Kimi. Certaines entreprises ajoutent de grosses restrictions et appellent ça « modified MIT », mais Kimi K2.6 just has an advertising clause. Ce serait mieux sans, mais ça ne me semble pas mériter qu’on en fasse tout un problème.
    L’article affirme que Kimi a interdit l’usage du modèle à poids ouverts dans les produits dépassant 100 millions d’utilisateurs actifs mensuels ou 20 millions de dollars de chiffre d’affaires mensuel, mais la licence réelle de K2.6 impose simplement d’afficher clairement « Kimi K2.6 » dans l’interface de ces produits et services.
    Il est vrai que certaines entreprises réduisent la publication de poids ouverts, mais d’autres, comme Xiaomi, DeepSeek, Moonshot et Z.ai, publient aussi de grands modèles à poids ouverts compétitifs. Du côté des petits modèles, le passage de Gemma 4 vers Apache, une licence open standard, est également positif.
    Il est légitime de soulever cette inquiétude, mais pour l’instant cela ressemble encore davantage à un mouvement où les acteurs qui se retirent des poids ouverts sont remplacés par de nouveaux entrants ou par des entreprises qui reviennent vers des licences plus traditionnelles.

    • En tant qu’auteur, c’est une remarque valable, donc j’ai mis l’article à jour. J’ai sans doute confondu avec Cursor Kimi, et la correction est juste.
      La suite sera intéressante à voir. Je ne l’ai pas ajouté parce que l’article était déjà long, mais je pense que ces entreprises avaient besoin de modèles à poids ouverts pour attirer une vraie attention. Quand on voit des cas comme Grok, qui malgré de grosses ressources de calcul et des prix agressifs reste peu adopté, elles auraient au minimum eu beaucoup de mal à obtenir une notoriété mondiale.
      Cela dit, les modèles chinois n’ont pas non plus autant de capacité de calcul pour l’inférence que xAI. Maintenant que la qualité des modèles a monté, l’incitation à refermer augmente, mais il est aussi possible que cela reste un monde où de nouveaux entrants apparaissent sans cesse.
  • Je me demande quel est, au juste, l’intérêt économique de publier des grands modèles de langage à poids ouverts.
    Nvidia on Hugging Face publie certains modèles, et ils semblent parier que si les gens exécutent des grands modèles de langage en local au lieu d’utiliser des services par abonnement, cela permettra de vendre davantage de cartes graphiques.
    Si la publication de modèles à poids ouverts diminue, les grands fournisseurs d’inférence pourraient créer une fondation des poids ouverts semblable à la Linux Foundation pour coordonner l’obtention des données d’entraînement, l’entraînement lui-même et le fine-tuning. Sans modèles compétitifs à proposer, il leur serait aussi difficile de faire tourner leur activité.

    • J’ai lu quelque part une théorie selon laquelle, quand la loi de Moore s’arrête, on voit apparaître davantage d’appareils électroniques ouverts et réparables. L’idée est que, tant qu’il faut rester à la pointe, les entreprises ont intérêt à cacher leurs sources secrètes, mais si cette frontière cesse d’avancer, elles ne se battent plus sur la fonctionnalité et tous les produits du marché deviennent à peu près aussi bons, ce qui fait disparaître cette incitation.
      Je ne sais pas si les fournisseurs d’inférence actuels prendront l’initiative d’une fondation des poids ouverts. Mais si les grands modèles de langage atteignent un mur d’ici quelques années, les clients, eux, auront clairement une incitation. Dans un esprit du genre : « Pourquoi payons-nous 5 milliards de dollars par an à OpenAnthropic pour quelque chose que nous pourrions faire nous-mêmes ? »
  • Il y a des commentaires ici qui contestent une partie de tout ça, mais je voudrais ajouter quelques points.
    Alibaba a clairement adopté une approche un peu moins open first pour Qwen, et c’est regrettable, mais l’écart réel n’est pas si grand. Les modèles de la gamme Max et beaucoup de modèles spécialisés ont toujours été uniquement accessibles via API, et aujourd’hui le principal modèle uniquement en API semble être surtout le « Plus » d’environ 400B de paramètres. Historiquement, ce n’était pas non plus un modèle exceptionnel au regard de sa taille.
    Les petits modèles que les gens associent surtout à Qwen restent publiés. Le calendrier de publication paraît un peu plus dispersé, mais les sorties de Qwen ont toujours été assez désordonnées.
    Le Qwen 3.6 Plus mentionné comme modèle fermé est proposé available on Fireworks via un partenariat exclusif. Je ne sais pas si c’est une manière de le rendre aussi utilisable par des organisations qui veulent des serveurs qu’elles possèdent localement, mais il sera intéressant de voir si cette approche se généralise.
    Le « Muse Spark » de Meta est une famille de modèles pratiquement complètement différente, développée par une autre équipe que LLaMa ; il semble donc plus juste d’y voir un produit distinct plutôt que de dire que Meta a « arrêté » les poids ouverts.
    La clause d’affichage de Kimi K2.6 n’a pas été « ajoutée » récemment ; the clause has been there since the original K2. DeepSeek aussi utilise une licence MIT normale depuis R1 et V3 0324.
    Récemment encore, il y a eu plusieurs publications réellement marquantes de poids ouverts, comme la famille MiMo v2.5, GLM 5.1 et Gemma 4. Cela dit, si la branche principale de GLM est à poids ouverts, plusieurs versions fine-tunées comme la gamme « Code » restent propriétaires, et la mise à jour 2603 de Step 3.5 Flash semble elle aussi propriétaire. Mais ils ont quand même release their SFT training data, donc difficile de trop les accabler.
    Il arrive aussi que les publications soient retardées, comme pour MiMo v2.5/Pro et GLM 5.1. Cela a parfois l’avantage de permettre une prise en charge prête dès la sortie dans SGLang/vLLM. En revanche, MiniMax M2.7 est bien passé à une much more restrictive license, et c’est sans doute ce qui a été confondu avec Kimi.
    L’approche consistant à « gagner d’abord un peu d’argent via l’API, puis publier plus tard » reste plutôt généreuse si l’on considère le coût énorme du développement des modèles, et pour l’instant l’industrie semble globalement satisfaite de cet équilibre.

  • GLM 5.1 est un modèle à poids ouverts très compétitif, publié le mois dernier sous licence MIT. Plusieurs entreprises le proposent déjà comme service. Il a été créé par Z.ai, et comme d’autres entreprises chinoises ils pourraient ajouter des restrictions plus tard, mais pour l’instant il n’y en a pas.

    • Pour ceux que ça intéresse, il fait 1,51 To : https://huggingface.co/zai-org/GLM-5.1/tree/main
    • Je l’utilise avec OpenCode via un fournisseur européen, et il est clairement capable de rivaliser avec Claude. J’espère que dans un avenir proche nous pourrons nous affranchir complètement de la dépendance aux grands groupes.
      Certains partent du principe que tous les modèles chinois ont, d’une manière ou d’une autre, été « distillés » à partir de grands modèles comme GPT ou Anthropic. Je ne sais pas si c’est vrai et, au fond, cela m’importe peu. Quoi qu’il en soit, je pense que ces modèles devraient relever du domaine public, et je suis heureux de voir que nous avançons rapidement dans cette direction.
  • Je me dis qu’il pourrait y avoir bientôt un essor des entreprises de licence de modèles d’IA. On paie une certaine somme pour obtenir le droit d’utiliser un modèle, puis on l’exécute directement sur son propre matériel. C’est un peu comparable à la tarification de Photoshop.
    Cela permettrait au créateur du modèle d’être rémunéré tout en évitant les problèmes de fuite d’informations sensibles. Et l’avantage serait aussi une tarification forfaitaire plutôt qu’un coût potentiellement très élevé à l’usage, comme avec la facturation au token. Bien sûr, le coût du matériel resterait séparé.

    • À l’avenir, on pourrait publier des modèles à poids ouverts tout en y ajoutant une licence qui empêche de les graver dans le silicium. Ensuite, il suffirait de vendre ce type de puces : https://taalas.com/products/
  • Kimi K2.5 reste jusqu’ici celui qui me convient le mieux, et je peux très bien me passer d’une mise à niveau.