2 points par GN⁺ 3 시간 전 | 2 commentaires | Partager sur WhatsApp
  • L’IA constitue une infrastructure civilisationnelle pour le travail, l’éducation, la science, le logiciel, la création, les services publics et les capacités nationales, et son accès ne doit pas dépendre des conditions ni des prix imposés par une poignée d’entreprises
  • La capacité à rechercher, construire, réparer, distribuer, auditer, ajuster, entraîner, préserver et exécuter des systèmes intelligents sans autorisation est directement liée à la liberté d’exploitation
  • L’IA open source doit rester utilisable même si les laboratoires dominants d’aujourd’hui, les laboratoires étrangers, les fabricants de matériel, les plateformes cloud ou les fournisseurs de modèles à poids ouverts changent de cap ou disparaissent
  • Si un petit nombre de laboratoires de pointe fermés et d’entreprises de plateforme contrôlent les modèles, l’infrastructure de l’intelligence risque de devenir une économie de l’abonnement cognitif
  • Les États-Unis ne doivent pas prendre de retard sur la liberté d’exécuter, d’inspecter, de modifier, de benchmarker, d’entraîner et de préserver l’infrastructure de l’intelligence, et l’approche pragmatique doit combiner les capacités américaines et des standards ouverts mondiaux

L’IA open source doit absolument l’emporter

  • Si l’intelligence devient quelque chose que l’on ne peut qu’emprunter à une poignée d’institutions fermées, le public perd non seulement la liberté du logiciel, mais aussi la liberté d’exploitation
  • Il faut pouvoir rechercher, construire, réparer, distribuer, auditer, ajuster, entraîner, préserver et exécuter des systèmes intelligents sans autorisation, et cette capacité est d’une importance existentielle
  • L’IA est considérée comme une infrastructure civilisationnelle qui soutient le travail, l’éducation, la science, le logiciel, la création, les services publics et les capacités nationales
  • L’accès à l’IA ne doit pas dépendre d’API fermées, de plateformes distantes, de conditions d’utilisation changeantes, d’ajustements opaques, de la disponibilité des modèles ou de prix fixés par un petit nombre d’entreprises

Conditions que l’IA open source doit préserver

  • L’IA open source doit être utilisable, compréhensible et reproductible
  • L’IA open source doit pouvoir être déployée en local, être économiquement durable et permettre à la communauté d’en assurer la gouvernance
  • Même si les laboratoires dominants d’aujourd’hui, les laboratoires étrangers, les fabricants de matériel, les plateformes cloud ou les fournisseurs de modèles à poids ouverts changent de cap ou disparaissent, l’IA open source doit continuer à fonctionner
  • Si un petit nombre de laboratoires de pointe fermés et d’entreprises de plateforme contrôlent les modèles, l’infrastructure de l’intelligence risque de devenir une économie de l’abonnement cognitif
  • Les États-Unis ne doivent pas prendre de retard sur la liberté d’exécuter, d’inspecter, de modifier, de benchmarker, d’entraîner et de préserver l’infrastructure de l’intelligence
  • L’approche pragmatique doit consister à articuler les capacités américaines avec des standards ouverts mondiaux

2 commentaires

 
GN⁺ 3 시간 전
Avis sur Lobste.rs
  • L’« IA » open source n’existe pas. Les LLM exécutables en local ne sont que des blobs opaques gracieusement fournis par de grandes entreprises qui dépensent des millions de dollars pour chaque version entraînée et gardent un contrôle total sur les données d’entrée
    Une personne qui n’est pas indépendante financièrement ne peut pas examiner entièrement la manière dont le modèle a été fabriqué, modifier le jeu de données d’entraînement d’origine, ni le recréer depuis zéro quand elle le souhaite
    Faire tourner à tout prix un LLM gratuit précompilé sur son ordinateur personnel, c’est une dépendance cultivée à une infrastructure centralisée, et dans la réalité actuelle cela revient presque à soutenir une technologie qu’un individu ne peut structurellement pas contrôler. Autant écrire un manifeste disant que la fusion nucléaire froide doit gagner

    • C’est globalement vrai, mais il existe en pratique des modèles financés par des fonds publics dont les poids, les données d’entraînement et la méthodologie sont publiés
      Bien sûr, du seul point de vue des capacités techniques, ces modèles ne sont généralement pas au niveau des modèles de pointe, et ce n’est souvent pas leur objectif. Par exemple, l’UE a financé le développement de modèles représentant mieux les langues de l’UE pour des usages comme la traduction
      Et je ne pense pas qu’un modèle open source doive, par définition, forcément être exécutable en local. Si le modèle est réellement ouvert, alors même si l’entreprise derrière fait faillite, la base de son développement futur ne reste pas enfermée dans l’entreprise, ce qui réduit fortement le risque. Le logiciel open source ne veut pas forcément dire « je peux le faire tourner à bas coût sur ma machine locale »
    • Les LLM exécutés en local ont eux aussi un spectre d’ouverture. Certains sont des blobs opaques avec presque aucune information sur les données d’entraînement ni la méthode, tandis que d’autres publient le jeu de données d’entraînement et le code source
      Parmi les LLM relativement ouverts récents, on peut citer NVIDIA-Nemotron-3-Nano-30B-A3B (code open source, grande partie du jeu de données d’entraînement fournie) et Olmo-3.1-32B-Think (code open source, toutes les données d’entraînement publiées sur Hugging Face)
      En théorie, n’importe qui peut reproduire un modèle similaire, décider quelles données utiliser pour l’entraînement ou modifier la recette d’entraînement. Mais il est vrai que le préentraînement reste hors de portée d’un individu qui n’est pas riche
    • Il existe clairement des modèles totalement open source. Ce ne sont pas des modèles de pointe, mais ils existent réellement
      OLMo est explicitement présenté comme un modèle ayant passé l’étape de validation de l’OSI, et Pythia a également été vérifié par l’OSI comme satisfaisant aux exigences des systèmes d’IA open source. Lucie-7B est l’un des premiers LLM multilingues à suivre la définition IA de l’OSI, et ses créateurs précisent que le jeu de données d’entraînement, le code de préparation des données et les poids du modèle sont tous fournis sous licence ouverte
    • Dans l’affirmation « on ne peut pas examiner entièrement comment il a été fabriqué, modifier le jeu de données d’entraînement d’origine et le recréer librement depuis zéro », la partie juste est que tous les modèles présentés comme « ouverts » ne sont pas réellement transparents ni ouverts sur les données, la procédure d’entraînement, etc. Le mieux est d’aller jusqu’à la reproductibilité
      Il est aussi vrai qu’entraîner depuis zéro coûte très cher. Mais dans ce cas, je me demande s’il faudrait aussi qualifier l’usage du noyau Linux de « dépendance cultivée », puisque les mêmes réserves s’y appliquent
  • L’« IA n’est pas une infrastructure civilisationnelle pour le travail, l’éducation, la science, le logiciel, la création, les services publics et les capacités nationales ». Ce sont ceux qui la contrôlent qui veulent en faire cela et qui poussent désespérément dans cette direction, mais en réalité ce n’est pas le cas

  • Il suffit de ne pas sous-traiter sa pensée à des machines gourmandes en ressources, qui violent le droit d’auteur et hallucinent 😘
    Bien sûr, ne pas concentrer ce pouvoir entre les mains d’un petit nombre de très grandes entreprises résout l’un des grands problèmes de l’IA actuelle, mais ne résout absolument pas les autres

    • Dire que c’est « gourmand en ressources » est exact quand on entraîne des modèles de pointe ou qu’on fait utiliser des modèles de pointe à des centaines de millions de personnes. Mais le dire de l’IA locale, c’est soit mal faire les calculs, soit défendre une position écologiste assez extrême
      Le plus petit agent de code local réellement utile est Qwen3.6 27B, et il tourne sans problème de manière intermittente autour de 280 à 300W sur une carte NVIDIA bridée en puissance. L’électricité utilisée pour une journée de code sera inférieure à quelques heures de Subnautica 2 sur une machine de gaming de bureau. C’est aussi parce qu’on ne peut pas beaucoup sous-traiter la pensée à un petit modèle : l’IA se repose davantage et l’humain pense plus souvent
      Le coût de l’entraînement est plus élevé, mais si l’objectif est seulement d’entraîner quelques modèles de taille 27B par an, cela se noie à l’échelle de l’ensemble de la civilisation industrielle. J’avais fait le calcul auparavant et j’étais arrivé à quelque chose comme : ajouter une seule fonderie d’aluminium géothermique en Islande suffirait à entraîner plusieurs modèles de classe 27B. Ce n’est pas gratuit, mais c’est presque une erreur d’arrondi
      La consommation électrique en inférence est inférieure à celle de trois ampoules à incandescence, et encore, seulement quand le modèle génère réellement. La consommation électrique de l’entraînement est du niveau d’une grande installation industrielle, mais elle pourrait presque entièrement provenir d’énergies renouvelables. L’Islande est bien pour cela
      L’« atteinte au droit d’auteur » ne semble pas correspondre à l’état actuel de la jurisprudence américaine, et il faut être prudent quand il s’agit d’élargir encore les pouvoirs du droit d’auteur. Je m’oppose à son extension depuis les années 1990, donc même si la façon dont les LLM sont entraînés ne me plaît pas, cette question semble être sortie du champ du droit d’auteur pour entrer dans celui de la politique et de la législation. Le cas d’Anthropic, qui a simplement piraté des livres, est cependant une exception
      Mais le problème de la sous-traitance de la pensée dégénère rapidement. Beaucoup de gens essaient de se transformer en marionnettes de chair d’un dieu-machine, et c’est effrayant
    • L’atteinte au droit d’auteur revient souvent comme raison pour laquelle les LLM et les entreprises d’IA seraient mauvais, mais je pense que se rallier à cet enjeu est une fausse piste
      C’est un peu comme dire que le meurtre est mauvais « parce que c’est illégal ». Le meurtre est bien mauvais, mais sa gravité ne vient pas de son illégalité. La loi peut changer. Si on construit tout le récit autour de l’idée que l’IA est mauvaise à cause du droit d’auteur, puis que le Congrès la légalise, est-ce que tout le monde va soudain considérer l’IA comme acceptable ? Il existait d’autres motifs d’opposition plus proches du cœur des inquiétudes réelles, et il aurait peut-être été plus productif de se rassembler autour d’eux
      Alexandra Elbakyan est aussi une contrevenante au droit d’auteur. Mais c’est une adulte, et toutes les universités devraient avoir une statue d’elle
  • Il n’y a pas d’avenir pour un machine learning et des grands modèles de langage réellement ouverts et équitables si l’on ne prend pas en compte l’ensemble de la chaîne d’approvisionnement. Je recommande de lire https://time.com/6247678/openai-chatgpt-kenya-workers/

  • Nous atteindrons bientôt le pic des données, et les progrès ultérieurs viendront probablement surtout de l’assemblage agentique des LLM les plus récents
    Le dernier modèle open source rendu public pourrait servir, pendant des années, de base à des surcouches open source de type agentique ou autres, en évolution continue

  • Plus précisément, le public doit reconnaître les énormes financements publics reçus par les géants de la tech au cours des vingt dernières années, et en particulier récemment, puis revendiquer des droits sur des infrastructures payées par l’impôt
    Ces entreprises n’auraient jamais pu exister, et ne pourraient pas exister, sans d’énormes injections de fonds publics. De plus, une part importante des données d’entraînement a été directement prélevée dans les biens communs publics
    Ces modèles ne sont pas le produit d’efforts privés, mais le résultat final d’un immense effort collectif, et ils devraient être légalement reconnus comme des biens communs publics

  • Que ce soit important ou non, une bulle ou non, un simple prédicteur de tokens qui hallucine ou non, il est très important que chaque pays dispose d’un cadre juridique obligeant les « Frontier labs » à publier en open source tous leurs modèles sauf les plus récents
    Le périmètre de publication devrait inclure les poids, les données d’entraînement et la méthodologie, ou alors chaque modèle devrait être obligé de devenir open source après 10 à 15 ans. Pour le progrès de la connaissance humaine et pour empêcher la séparation entre ceux qui ont et ceux qui n’ont pas, tous les modèles devraient être rendus publics après un certain délai
    On peut penser que l’AGI n’est pas proche, mais l’intention de ces laboratoires de pointe est d’atteindre l’AGI en premier puis de la garder seuls derrière un péage. Que cette éventualité soit probable ou non, il faut empêcher cela pour le bien de l’humanité entière

 
GN⁺ 3 시간 전
Réactions sur Hacker News
  • Depuis un moment, on réfléchit à créer un système d'entraînement de modèles distribué avec des machines auxquelles nous contribuons presque bénévolement, mais en pratique la difficulté est astronomique
    La vitesse de communication ne suit pas, et la pollution des données provenant de nœuds non fiables pose aussi problème
    On pourrait probablement presque résoudre ce second point avec un système d'auto-réparation et de rollback sur checkpoint qui évite d'avoir à jeter tous les résultats en aval de données corrompues, mais ce n'est pas un petit projet qu'une seule personne peut mener à bien avec une simple idée
    Si l'on en arrivait à une situation où l'ensemble des labos de recherche de pointe se voyaient interdire tout progrès supplémentaire, cette direction pourrait devenir intéressante
    Le total de tous les GPU de la planète dépasserait leur capacité, mais il faut trouver un moyen de les exploiter efficacement de façon distribuée
    Même si cela ne permet pas d'entraîner Fable aussi vite qu'eux, le fait de pouvoir y accéder un jour vaut mieux que de n'y avoir jamais accès

    • Comme je l'ai déjà écrit dans une autre réponse plus haut, même si l'idée est bonne, elle a peu de chances de tenir dans le monde réel
      Le matériel spécialisé pour l'IA est non seulement bien plus rapide que les GPU grand public, mais aussi bien meilleur en efficacité énergétique et en connectivité, et chacun de ces trois axes suffit à faire s'effondrer l'idée
      L'écart d'efficacité énergétique est tel que, même en rassemblant tous les GPU publics ou appareils similaires de la planète, la facture d'électricité serait énorme, au point qu'il pourrait au final coûter moins cher de construire son propre datacenter avec cet argent
      Même si l'électricité était gratuite, relier des GPU dispersés dans le monde entier via la latence d'Internet les rendrait des milliers à des millions de fois plus lents, et rien ne dit même que ce soit faisable
      Quoi qu'il en soit, il sera difficile d'obtenir fable-oss dans cette décennie, et peut-être même dans ce siècle
      Il vaudrait mieux, et à mon avis il faudrait vraiment, que des gouvernements achètent et possèdent directement des datacenters, éventuellement sous forme de coalition, pour les exploiter dans l'intérêt public
    • Quand les gens pensent à l'entraînement distribué, ils n'imaginent pas d'abord de gigantesques datacenters appartenant à la même entreprise entraînant un modèle à longue distance
      Ils imaginent plutôt des milliers de petits datacenters ou des particuliers agrégeant du calcul disponible via Internet pour orchestrer un run d'entraînement plus important que ce qu'un acteur unique pourrait faire seul
      Des entreprises comme Pluralis Research, Prime Intellect et Nous Research poursuivent cette vision et ont déjà réussi un entraînement distribué à une certaine échelle, mais en pratique l'entraînement distribué sur Internet reste très loin derrière l'entraînement centralisé
      Même les plus grands modèles, comme le Protocol Model 8B de Pluralis, INTELLECT-1 de Prime Intellect et Consilience 40B de Nous, ont été entraînés avec 1 000 fois moins de calcul que les modèles de pointe actuels comme Grok 4 de xAI
      https://epoch.ai/gradient-updates/how-far-can-decentralized-...
    • Il n'est pas exact de dire que le total de tous les GPU de la planète dépasse leur capacité
      C'est sous-estimer la quantité de silicium qui est allée précisément vers ces entreprises, ainsi que la puissance de ce silicium par rapport au matériel grand public
    • Il y a quelques années, il y a eu un projet appelé Petals qui tentait d'atteindre une partie de cet objectif en P2P : https://github.com/bigscience-workshop/petals
      Le modèle BLOOM aussi était le fruit d'une création collaborative : https://huggingface.co/docs/transformers/en/model_doc/bloom
    • Avec les bonnes techniques, je pense que c'est possible, car on peut compresser les informations de gradient par 10 000
      Nous affirme l'avoir déjà fait : https://github.com/NousResearch/DisTrO
      Il existe aussi des articles plus anciens sur la compression de gradients qui rapportaient déjà de forts taux de compression
  • Il faut aussi cela et de l'inférence LLM distribuée
    On est désormais arrivé à un point où, pour un particulier, il est trop coûteux de se monter une machine capable de faire tourner les modèles les plus récents
    Il faut donc créer et adopter des frameworks permettant à des individus de mutualiser leurs ressources pour exécuter les modèles récents de manière distribuée
    Cela rendrait aussi la censure plus difficile pour les gouvernements
    La seule façon d'empêcher qu'un acteur unique ne transforme cela en arme, c'est d'en donner l'accès à tout le monde

    • Je me demande s'il existe un moyen pour que de petits LLM locaux se complètent mutuellement et forment ensemble un LLM bien plus performant
    • J'ai créé Teale.com et je l'ai publié en open source
      Il fait tourner une inférence entièrement distribuée sur Mac, Windows, Linux, Android, iOS, et même HarmonyOS
      Les modèles open source / open weights vont continuer à s'améliorer, et finiront par atteindre le niveau mythos sur du matériel de smartphone ou de lunettes
      Pour l'instant, le plus pénible est d'aligner l'offre et la demande
      Par exemple, un MacBook avec 16 Go de RAM ne signifie pas qu'on puisse réellement utiliser l'intégralité de ces 16 Go, et il y a aussi le problème d'adapter les modèles et les réglages (kvcache, context limit, temperature, etc.) à la demande
      Il nous faut une inférence IA par les humains et pour les humains, donc toute aide est la bienvenue
    • Si le modèle est distribué, alors au vu des transferts de données entre les couches du modèle, l'inférence LLM distribuée paraît très inefficace
      Un projet appelé Petals annonçait jusqu'à 4 tok/s sur un modèle 180B, mais le dépôt n'a pas été mis à jour depuis 2 ans
      https://petals.dev/
    • L'affirmation selon laquelle la seule façon d'empêcher qu'un acteur unique ne transforme cela en arme est d'en donner l'accès à tout le monde admet une position intermédiaire
      L'éventail des politiques possibles inclut aussi une régulation par l'État à la fois de l'accès et de la concentration
      Je suis opposé au monopole sur cette technologie, mais il faut voir clairement le risque qu'il y aurait à donner à tout le monde une AGI/ASI jailbreakée
      Pour prendre un exemple simplifié, on peut imaginer un État sous-traitant à plusieurs labos (n_quorum) et accordant à chacun un budget de tokens, sous la forme d'une IA universelle de base
      Mais l'exploitation via API devrait alors s'accompagner de contrôles de sécurité
      Si tout le monde pouvait lancer sa propre AGI jailbreakée, la seule norme sociale stable ressemblerait probablement à une surveillance de masse destinée à observer qui fabrique des menaces CBRNE
      Cela ne ressemble pas à une victoire évidente du point de vue des libertés civiles, mais je comprends qu'on puisse suivre cette logique
  • Chez moi comme dans mon activité, c’était gagné dès le départ
    Plus exactement, il s’agissait de poids ouverts, et cette nuance subtile me met mal à l’aise
    Je n’ai jamais compris l’attitude qui consiste à rendre totalement dépendants le fonctionnement ou le développement d’un produit du code source secret de l’une de deux grandes startups, dont la rentabilité reste floue et le fonctionnement opaque
    Cela va aussi à l’encontre de principes d’ingénierie sains
    Donc je n’avais pas l’intention de faire ainsi, et si j’explore l’IA aujourd’hui, c’est aussi parce que les poids ouverts me font penser que cela vaut la peine d’y consacrer du temps
    Les entreprises dépendent déjà souvent des politiques d’une plateforme de paiement unique et de deux fournisseurs américains de cartes de crédit, et c’est déjà bien assez mauvais comme ça
    C’est peut-être mon tempérament de freelance, mais on me demande toujours de consacrer trop d’énergie à étudier et apprendre le produit de quelqu’un d’autre, plutôt qu’une technologie de base, et cela m’a toujours rendu mal à l’aise
    Je me souviens aussi de l’époque où Microsoft séduisait les départements universitaires en promettant un accès au code source de NT
    Je me souviens aussi qu’un haut responsable de chez nous disait alors que Linux était un à-côté, et que l’accès à NT allait nous donner une vraie importance
    Je me rappelle à moi-même et à mon entourage qu’il faut toujours plus de contrôle sur son propre destin, et que le tranchant de l’innovation est en avance sur la technologie stable la plus récente
    Le progrès se produit à la pointe, mais avec un risque de casse
    L’ingénierie doit se concentrer sur la construction sur des technologies stables récentes, pas sur le fait de se reposer sur les progrès des autres

    • Dans ce contexte, le mot open source a une nuance gênante
      Des outils comme llama.cpp sont ouverts, mais sans les poids, ils ne servent à rien
      Les poids sont du capital extrêmement coûteux, offert par de grandes organisations en guerre les unes contre les autres
      Par exemple, je ne sais pas si archive.org pourrait produire de vrais poids ouverts, et en dehors d’archive.org, j’ai du mal à imaginer une autre organisation open source comme freebsd ou apache en position de produire de vrais poids ouverts
      Si c’était possible, ce serait peut-être du côté des gouvernements, des agences publiques ou des universités
      Mais aujourd’hui, ces institutions n’ont ni les financements, ni l’autorité, ni la volonté, ni l’intérêt suffisants pour investir massivement dans l’infrastructure nécessaire à la création de poids
    • J’ai choisi une autre approche, ce qui est intéressant
      L’IA complète notre façon de développer dans l’entreprise, et les ingénieurs préfèrent de loin utiliser Opus 4.8 plutôt que les meilleurs modèles open source
      Je crois que l’open source est important, mais dans mon entreprise, j’utiliserai simplement les meilleurs outils disponibles
  • Si open source en vient à signifier logiciel gratuit, cela revient en pratique à dire qu’on veut juste une copie gratuite
    Ce qu’il faudrait dire, c’est qu’un projet public, piloté par une communauté, doit prendre en charge ensemble le préentraînement et l’entraînement
    Cela signifie traiter publiquement les corpus d’entraînement et coordonner d’une manière ou d’une autre les travaux d’entraînement
    Cela change complètement le sens du terme, et c’est comparable à la manière dont les gens mélangent piratage et vol
    Ce sont des choses différentes, donc il faut des mots différents
    Des poids gratuits, du code d’inférence et des chat templates sont très différents d’un projet de LLM piloté par la communauté

    • EleutherAI pourrait s’en approcher
  • Qui va financer cela ?
    Le coût de l’entraînement est difficile à imaginer tant il est élevé
    Il n’y a guère que le modèle de financement VC, fondé sur l’espoir d’un retour sur investissement, ou le modèle de financement du PCC visant à consolider le modèle social autoritaire chinois
    Il y aura peut-être des modèles 4B à l’université, mais il semble peu probable qu’ils aillent très loin

    • Je comprends cette inquiétude, mais il existe déjà des choses aussi vastes et complexes qui restent open source
      Je suis chaque jour étonné que mon ordinateur Linux offre une expérience presque équivalente à celle de systèmes d’exploitation produits par deux entreprises valant des milliers de milliards de dollars
      Il fait même des choses que ces alternatives commerciales ne savent pas faire
      Si DeepSeek peut vraiment sortir un modèle avec un dixième du coût de ses concurrents occidentaux et seulement une fraction de leurs effectifs, cela pourrait signifier qu’il existe un marché pour quelqu’un capable de proposer une alternative dans ce domaine
      Je pense aux raisons pour lesquelles des entreprises comme IBM contribuent volontiers à Linux et rendent ces contributions gratuites
      C’est parce qu’elles font partie d’un groupe de sponsors industriels qui ont besoin d’une alternative à un acteur commercial plus dominant sur le marché
      La raison pour laquelle Meta rend React pratiquement gratuit est similaire
      Il est plus avantageux pour Meta qu’il devienne un standard et de pouvoir recruter des personnes qui le connaissent déjà
      Il est plus difficile d’imaginer le même type de bénéfice d’écosystème pour les modèles d’IA, mais cela peut exister quelque part
      On peut imaginer des fournisseurs de datacenters ou de VPS sponsoriser ce genre d’initiative afin de réduire le pouvoir de négociation des grandes entreprises de l’IA
      Bien sûr, cet optimisme n’est peut-être qu’un doux rêve
    • Il nous faut vraiment un précédent juridique établissant que la distillation de modèles est une activité légale
      Si les créateurs de modèles peuvent aspirer le travail des autres pour s’entraîner et blanchir l’information comme si elle leur appartenait sans rien rendre aux créateurs originels, je ne vois pas pourquoi distiller des modèles devrait être illégal
      C’est la même chose que ce que les créateurs de modèles de pointe font déjà avec l’ensemble de la propriété intellectuelle des autres
    • Avez-vous déjà recalculé, en tenant compte de l’inflation, le coût des ordinateurs dans les années 1960 ?
      L’entraînement est aujourd’hui incroyablement coûteux à imaginer
      Et si plusieurs universités mettaient leur argent en commun ?
      Et si plusieurs pays le faisaient ?
      À terme, il y aura des percées et des optimisations
      Les gens doutaient qu’un système d’exploitation open source puisse être viable, mais Linux est depuis des décennies une option réelle sur desktop, sans même parler de son usage massif comme système d’exploitation pour serveurs et téléphones
    • Ce n’est pas seulement cher, c’est aussi du gaspillage
      Il n’y a aucune valeur à utiliser des modèles dépassés
      Le manifeste de l’open source IA affirme qu’« une IA open source doit aussi être économiquement durable », mais cela relève davantage de la pensée magique
    • Une approche où les laboratoires qui publient des modèles fermés devraient aussi publier des modèles open source pourrait être possible
      gpt-oss est maintenant dépassé, mais il était correct à sa sortie
      Nemotron est aussi solide, et en particulier sa récente version ultra est bonne
      Nvidia a un discours bien meilleur, notamment face aux modèles chinois, parce qu’ils publient non seulement les modèles eux-mêmes, mais aussi les données de préentraînement et de post-entraînement
  • Plutôt que d’obtenir des modèles open source comme sous-produits d’entreprises, je serais tout à fait prêt à payer 50 dollars par mois pour soutenir un laboratoire de recherche en IA open source

    • Les laboratoires d’IA dépensent des centaines de milliards de dollars, donc il faudrait énormément d’abonnés pour être compétitif
    • Je pense qu’OpenAI a détruit la confiance
      Comment savoir si ce laboratoire d’IA open source ne finira pas, d’une manière ou d’une autre, par devenir une société commerciale ?
    • À ma connaissance, DeepSeek n’a pas de modèle fermé et publie davantage de code, de données et d’articles que la plupart des autres
      Je pourrais peut-être commencer à utiliser leur API
      Ce n’est pas non plus un sous-produit d’entreprise
  • L’IA à poids ouverts n’offre peut-être pas suffisamment d’incitations pour investir de gros capitaux dans l’entraînement et la recherche
    Il pourrait certes émerger des fonds de dons, mais ils n’atteindraient évidemment pas le niveau de financement dont bénéficient les laboratoires de pointe
    Donc il est peut-être impossible qu’une IA n’existe qu’avec des poids ouverts
    Les grands acteurs comme OpenAI, Anthropic et Google resteront probablement là, avec de bonnes chances de disposer de meilleurs modèles que les versions open source
    On peut voir cela comme la relation entre Photoshop et GIMP
    Photoshop serait le laboratoire de pointe, et GIMP le modèle à poids ouverts
    GIMP est tout à fait utilisable pour divers workflows d’édition d’images, mais Photoshop est simplement meilleur
    Ce serait évidemment formidable d’avoir des modèles à poids ouverts meilleurs que ceux des laboratoires de pointe, mais je n’y crois pas vraiment

    • Je pense à peu près pareil, mais même sans modèles open source, l’IA locale me paraît inévitable à terme
      OpenAI et d’autres peuvent aussi sortir des produits on-premise
      Que ce soit sous forme de rack appliance ou autre, les grandes entreprises voudront exécuter l’inférence en local pour la souveraineté des données et la maîtrise des coûts
      Ce sera encore plus vrai au moment d’intégrer l’IA dans l’industrie manufacturière ou dans d’autres réseaux isolés
    • La comparaison entre Photoshop et GIMP est plutôt bonne
      Nous sommes actuellement dans une phase d’expansion rapide, mais à moins que la technologie derrière l’IA n’évolue réellement, il deviendra de plus en plus difficile de produire des modèles toujours meilleurs, avec des rendements décroissants
      Si le GIMP des LLM atteint seulement 80 % des performances d’un modèle financé par du capital-risque, ce sera déjà largement suffisant pour beaucoup de gens
      Même s’il est vrai que ce n’est pas aussi bon qu’un modèle propriétaire, le simple fait d’avoir le choix d’utiliser un modèle open source est déjà une victoire
    • En prenant un peu de recul, ce n’est qu’une question de temps
      Quand il apparaîtra clairement qu’il est impossible de soutirer des milliers de milliards de dollars aux consommateurs, les valorisations en billions n’auront plus de sens
      Entre-temps, et de toute façon, si l’optimisation logicielle et la montée en puissance du matériel se poursuivent, il ne faudra pas longtemps avant que des poids ouverts plus capables que Fable tournent sur des appareils mobiles
    • Ce serait peut-être possible si les utilisateurs avaient un moyen de donner de la puissance de calcul pour l’entraînement, comme avec folding@home
      Cela dit, je ne vois pas bien comment ce serait praticable
    • Il existe une raison plus fondamentale pour laquelle il est difficile que l’IA existe uniquement avec des poids ouverts
      Certains modèles d’IA sont si grands qu’ils ne sont raisonnablement exécutables que dans des datacenters hyperscale de pointe
      Publier ces modèles en open source n’aurait en général guère de sens
      On parle d’une échelle bien supérieure à celle des plus grands modèles publics actuels, au point d’exclure même une inférence lente sur de petits clusters bon marché et temporaires
      Fable est peut-être déjà à ce niveau
  • Je partage le sentiment et la mission, mais cet objectif ne peut plus être séparé de la politique
    Le fait d’être Open Source(tm) n’empêche ni les gouvernements ni d’autres acteurs d’exercer un contrôle sur le silicium ou sur ce que ce silicium peut faire, et c’est déjà en train de se produire partout dans le monde
    Même si un modèle est open source, cela ne résout ni la régulation ni les incitations économiques
    Ce n’est pas un problème qu’on peut condenser en quelques paragraphes
    L’IA est une infrastructure civilisationnelle, et il faut une réponse civilisationnelle, pas seulement du code source

    • Le capitalisme monopolistique et le capitalisme financier dominent les marchés depuis plus d’un siècle, et l’État sert ces énormes intérêts
      Tout le monde sait que les entreprises d’IA ont pris sans autorisation ce dont elles avaient besoin pour l’entraînement, mais il ne se passera rien
      C’est un exemple flagrant d’application de classe de la loi
      La raison invoquée quand ils appliquent leurs propres règles à leur guise sera toujours la sécurité nationale
      Puisqu’ils possèdent l’infrastructure, leurs intérêts deviennent la sécurité nationale
      Chaque fois qu’une technologie fait un grand bond, cela peut rebattre les cartes, mais le capitalisme financier s’adapte vite et absorbe la vague
  • S’il n’en a pas été question dans le texte, la distinction entre open source et poids ouverts est importante
    Les modèles à poids ouverts ressemblent presque à une drogue d’initiation dont la première dose est gratuite
    Au minimum, sans les données d’entraînement d’origine, leur capacité à être améliorés de manière significative est trop limitée, si bien qu’ils se retrouvent vite distancés par les modèles les plus récents en développement continu
    On en vient alors à attendre la prochaine publication ou à revenir à l’API du fournisseur
    Le simple fait de repousser la date limite des connaissances améliore déjà sensiblement l’expérience utilisateur, sans même parler de l’inférence, de l’entraînement tenant compte de la quantification, ni des nombreuses autres améliorations à venir
    On peut certes faire de la recherche pour améliorer les modèles à poids ouverts, mais la conclusion reste la même
    Si ce n’est pas open source, le bénéfice pour le grand public devient bien plus faible

  • Par définition, l'IA open source ne peut jamais gagner
    Aujourd'hui, l'IA se rapproche au fond d'une optimisation par ascension de colline, et les laboratoires fermés peuvent absorber tout ce que fait le monde ouvert et empiler davantage par-dessus
    Dans la plupart des cas d'usage, ce n'est pas un gros problème, parce que l'IA fonctionne selon une logique de saturation des capacités
    https://www.delanceyukschoolschesschallenge.com/the-rising-t...
    Les exceptions se limitent aux domaines intrinsèquement adversariaux, comme ceux en confrontation avec la nature ou avec d'autres personnes, où l'avantage compétitif compte

    • Une fois la saturation des capacités atteinte pour les tâches courantes, c'est l'open source qui gagne, et c'est déjà en train d'arriver
      La deuxième grande victoire viendra probablement quand les gens ordinaires pourront l'exécuter sur leur propre matériel
    • On aurait pu dire la même chose de Linux
      Microsoft pouvait apprendre tout ce qu'il voulait de Linux, mais Linux a non seulement conservé sa pertinence malgré ses concurrents commerciaux, il est aussi devenu de loin le système d'exploitation le plus répandu, contrairement par exemple au cas de la part de marché actuelle de Firefox
      La capacité à absorber toutes les bonnes idées ou toutes les données d'un système public ne semble pas être le seul facteur décisif
    • Les laboratoires fermés doivent eux aussi continuer à justifier les investissements, et plus les capacités des modèles se rapprochent d'un plateau, plus cela devient difficile
      Aujourd'hui, Fable et Mythos sont à la pointe, mais bientôt ce seront des commodités
      Pour chaque entreprise qui cherche à garder une longueur d'avance avec un modèle de pointe comme OpenAI/Anthropic, il y en aura une centaine qui chercheront à transformer ses compléments en commodités
    • AllegroLisp est très loin derrière SBCL
    • Pour gagner, les modèles open source n'ont pas besoin d'être aussi bons que Claude Mythos ou Claude Sonnet
      Il suffit qu'au moins une des alternatives aux modèles fermés soit à peu près aussi bonne que GPT-4
      En fait, avec les modèles Google Gemma, on est déjà presque à ce point
      En tant qu'ingénieur logiciel, je n'ai pas senti de différence de productivité depuis Sonnet
      Bien sûr, Opus est meilleur et Fable le sera aussi, mais du point de vue de la valeur économique, on se heurte déjà à des rendements décroissants
      Quand je suis passé de l'un des premiers modèles GPT dans Cursor à Claude Code et Sonnet, j'ai constaté un gain de productivité d'environ x5
      Avant Claude Code, je n'utilisais l'IA que pour de petits morceaux de code, mais avec Claude Code + Sonnet, je pouvais lui confier des sous-tâches entières
      Malgré cela, je ne lui fais toujours pas assez confiance pour lui confier une fonctionnalité complète de bout en bout à Opus
      Je ne suis même pas certain que cela arrivera un jour, ni que ce soit nécessaire
      Les entreprises exigent un certain niveau élevé de talent chez les ingénieurs logiciels, mais au-delà de ce seuil, elles s'en moquent complètement
      Même si l'écart est grand, elles ne le remarquent pas