14 points par hongminhee 2026-01-17 | Aucun commentaire pour le moment. | Partager sur WhatsApp
Il ne faut pas empêcher l’entraînement des F/OSS sur les LLM, mais libérer les modèles qui en résultent
  • Le récent article 〈Sur le FLOSS et l’entraînement des LLM〉 (On FLOSS and training LLMs) exprime bien la frustration de la communauté F/OSS — impolitesse des entreprises d’IA, limites du droit, etc.
  • Mais les stratégies de retrait proposées par l’auteur, comme bloquer les crawlers, quitter GitHub, exclure les utilisateurs d’outils d’IA, passent à côté d’une occasion importante
Le problème n’est pas l’entraînement, mais l’enclosure
  • Le vrai problème n’est pas le fait même d’entraîner des LLM sur notre code, mais la privatisation des résultats sous forme de modèles propriétaires
  • Ce n’est pas un problème nouveau — c’est précisément celui contre lequel le F/OSS se bat depuis toujours
    • privatisation des communs
    • monopolisation du savoir collectif
    • flux de valeur à sens unique du grand nombre vers une minorité
Le schéma historique du GPL : nouvelle technologie → nouvelle exploitation → nouvelle licence

Les licences F/OSS ont continuellement évolué avec les changements technologiques :

  1. GPLv2 (1991) — empêche de ne distribuer que des binaires → obligation de publier le code source
  2. GPLv3 (2007) — empêche la tivoïsation (verrouillage matériel) → exige aussi les informations d’installation
  3. AGPL (2007) — comble la faille du SaaS → considère la mise à disposition sur le réseau comme une forme de distribution

Et aujourd’hui ? Une faille de l’entraînement apparaît :

  • des entreprises utilisent du code F/OSS comme données d’entraînement pour des modèles propriétaires
  • mais elles n’ont aucune obligation de publier les modèles ni d’indiquer les sources d’entraînement
  • c’est une exploitation typique — extraction de valeur sans réciprocité
La solution : un copyleft d’entraînement, comme une GPLv4 ou une TGPL (Training GPL)

Conditions proposées :

  • l’entraînement est explicitement autorisé (conforme au principe de liberté du F/OSS)
  • mais le modèle résultant doit être libéré — publication des poids sous une licence copyleft compatible
  • obligation de documenter les données d’entraînement
  • obligation transmise aussi aux modèles fine-tunés
  • l’usage en réseau (fourniture via API) est lui aussi considéré comme une distribution

→ De la même manière que la GPLv3 exige le code source pour les binaires, un copyleft d’entraînement exigerait les poids du modèle pour les systèmes entraînés

Pourquoi c’est plus important que le retrait

Les problèmes des stratégies de retrait :

  1. Elles abandonnent le terrain — OpenAI/Anthropic ont déjà aspiré tout ce dont ils avaient besoin. Le retrait ne bloque en pratique que les LLM open source comme Llama ou Mistral
  2. Elles se trompent de cible — le problème n’est pas la technologie elle-même, mais qui l’utilise et comment
  3. Elles divisent la communauté — exclure les utilisateurs d’« outils non éthiques » ? Où commence l’usage ? Les tests de pureté ne servent qu’à fracturer le mouvement
  4. Elles renoncent à la stratégie centrale du F/OSS — le génie de la GPL a été de ne pas interdire l’usage, mais d’exiger la transmission de la liberté. Le retrait repose sur la philosophie inverse
Différences de lecture du réel
  • antirez (créateur de Redis) : les LLM sont irréversibles → il faut s’adapter et faire confiance à la concurrence du marché
  • L’auteur du texte d’origine : la résistance a un sens → il faut se retirer et bloquer l’accès
  • Cet article : les LLM sont irréversibles → mais la question centrale est celle de la propriété

La question n’est pas de savoir si l’on utilisera les LLM, mais :

  • qui possède les modèles ?
  • qui profite des communs ayant servi à entraîner ces modèles ?
  • le fruit des contributions de millions de développeurs F/OSS doit-il devenir une exclusivité propriétaire ?

→ La vraie question est de savoir si le fruit du travail collectif reste au collectif ou devient une propriété privée

Le moment est historiquement décisif
  • La conversation est en cours sur les normes qui gouverneront l’entraînement de l’IA et la publication des modèles
  • Les débats communautaires sont intenses
  • Alors que les modèles d’IA open source se multiplient, rien n’est encore tranché sur les licences qui s’appliqueront

Si les développeurs F/OSS se retirent : dans cinq ans, les entreprises et les tribunaux favorables aux entreprises auront fixé toutes les normes → la faille de l’entraînement sera entérinée → l’IA open source restera durablement désavantagée

Si nous participons : pousser le copyleft d’entraînement → publier le code sous des licences qui exigent la libération des modèles → construire nous-mêmes l’avenir

La conclusion en une phrase

> Il ne faut pas bloquer les crawlers, il faut changer les règles du crawling. Il ne faut pas rejeter les LLM, il faut les reprendre.

→ Perspective matérialiste historique : une nouvelle force productive (les LLM) exige de nouveaux rapports de production (le copyleft d’entraînement)
→ Comme lorsque Linus a publié Linux sous GPL non pas en disant « les entreprises ne peuvent pas l’utiliser », mais « tout le monde peut l’utiliser, à condition de partager les améliorations »
→ Pour un avenir où, de même que le code appartient à tous, les modèles d’IA entraînés à partir de ce code appartiendront eux aussi à tous

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.