8 points par GN⁺ 2026-03-10 | 1 commentaires | Partager sur WhatsApp
  • La bibliothèque Python de détection d’encodage de caractères chardet a été réimplémentée à l’aide de l’IA, et son passage de la LGPL à la MIT a déclenché un débat sur l’éthique de l’open source
  • Certains ont reconnu la légalité de la réimplémentation par IA, mais l’article souligne que ce qui est permis par le droit n’est pas forcément légitime socialement
  • Les réimplémentations historiques de GNU et Linux allaient de l’appropriation vers la liberté, alors que ce cas-ci agit dans le sens d’un affaiblissement de la protection des biens communs
  • Les clauses de partage de la GPL ne sont pas une restriction, mais un mécanisme garantissant un partage réciproque, tandis que la liberté façon MIT crée une structure asymétrique où les bénéfices vont surtout aux acteurs les mieux dotés en capital
  • À une époque où l’IA facilite le contournement du copyleft, le principe selon lequel ceux qui tirent des bénéfices des biens communs doivent les leur restituer devient encore plus important

Réimplémentation par IA et changement de licence de chardet 7.0

  • La bibliothèque Python chardet a été entièrement réécrite avec Claude d’Anthropic
    • La nouvelle version est 48 fois plus rapide et ajoute la prise en charge du multicœur
    • La similarité du code a été mesurée à moins de 1,3 %, ce qui la fait considérer comme une œuvre indépendante
  • La licence est passée de la LGPL à la licence MIT, supprimant l’obligation de publier le code source
  • L’auteur d’origine, Mark Pilgrim, a soulevé sur GitHub la possibilité d’une violation de la LGPL
    • Selon lui, une réimplémentation réalisée alors que l’IA a été exposée au code existant est difficile à considérer comme une approche en clean room

Réactions opposées dans l’open source

  • Armin Ronacher (créateur de Flask) s’est félicité du relicenciement et affirme que la GPL va à l’encontre de l’esprit du partage
  • Salvatore Sanfilippo (antirez, créateur de Redis) défend la légalité de la réimplémentation par IA, en s’appuyant sur l’histoire de GNU et le droit d’auteur
  • Tous deux assimilent ce qui est légal à ce qui est légitime, mais l’article insiste sur l’écart entre le droit et l’éthique

L’histoire de GNU et la différence de direction

  • Les réimplémentations de GNU étaient un processus visant à transformer des logiciels propriétaires en logiciels libres
    • L’essentiel n’était pas la simple permission juridique, mais une orientation éthique d’extension des communs
  • À l’inverse, le cas de chardet fonctionne dans le sens d’une suppression de la protection copyleft et d’un démantèlement des garde-fous des communs
    • Les dérivés fondés sur chardet 7.0 ne seront plus soumis à l’obligation de publier leur code source
  • antirez néglige cette opposition de direction et invoque à tort le précédent de GNU

La GPL et le sens du partage

  • Ronacher affirme que la GPL limite le partage, mais l’article y voit un contresens fondamental
    • La GPL n’exige la publication du code source qu’en cas de distribution et n’impose aucune contrainte pour l’usage privé
    • C’est un mécanisme qui garantit la réciprocité du partage, et non un frein au partage
  • La licence MIT laisse le destinataire du code libre, mais n’impose aucune obligation de retour de contribution
    • Au final, cela produit une structure où les bénéfices se concentrent du côté des acteurs disposant du plus de capital et de main-d’œuvre
  • Les cas d’absorption de code sous GPL par les entreprises dans les années 1990 montrent la nécessité de renforcer le copyleft

Cas d’école contradictoire : Vercel et Cloudflare

  • Après que Vercel a réimplémenté GNU Bash avec l’IA, l’entreprise a mal réagi quand Cloudflare a réimplémenté Next.js
  • Next.js étant sous licence MIT, il n’y avait pas de problème juridique
  • Cela révèle la contradiction consistant à dire que faire passer la GPL à MIT serait une victoire du partage, tout en s’insurgeant quand son propre code est réimplémenté
  • Ronacher reconnaît cette contradiction sans pour autant changer de conclusion, ce que l’article présente comme une conclusion dictée par une position préalable plutôt que par la logique

Distinguer légalité et légitimité

  • Le droit ne fait que définir ce qui n’est pas interdit ; il ne garantit pas que ce soit juste
    • Il existe des actes légaux mais antisociaux, comme l’optimisation fiscale ou la hausse du prix des médicaments
  • La LGPL de chardet n’était pas un simple dispositif juridique, mais une promesse sociale de 12 ans
    • Une relation de confiance fondée sur l’idée suivante : si l’on utilise ce code, on le repartage dans les mêmes conditions
  • Même si la réimplémentation par IA constitue juridiquement une nouvelle œuvre, elle rompt la confiance avec les contributeurs
  • Zoë Kooyman de la FSF l’énonce clairement : ne pas accorder aux autres les droits que l’on a soi-même reçus est un comportement antisocial

L’asymétrie des points de vue

  • antirez et Ronacher sont des figures centrales de l’open source, et un monde où la réimplémentation par IA se généralise leur est favorable
  • Pour les contributeurs de chardet, en revanche, cela signifie la perte de la protection attachée à leurs contributions
  • Ignorer cette asymétrie pour dire seulement « il n’y a pas de problème juridique » relève, selon l’article, non de l’analyse mais de la rationalisation

L’avenir du copyleft et le jugement social

  • Bruce Perens a averti que « l’économie du développement logiciel est terminée »
    • antirez a répondu qu’il fallait s’adapter, Ronacher que c’était intéressant
  • Mais la question centrale est la suivante : à mesure que le copyleft devient plus facile à contourner, devient-il aussi plus nécessaire ?
    • L’article répond clairement : oui
  • La GPL ne protège pas la rareté du code, mais la liberté des utilisateurs
    • Plus l’IA facilite la réimplémentation, plus les frictions liées à la suppression du copyleft diminuent
  • Le principe selon lequel ceux qui reçoivent des communs doivent y restituer en retour est une norme sociale indépendante du temps et de l’évolution technologique
  • Le droit évolue lentement, mais les jugements de valeur de la communauté ont toujours avancé avant lui
    • L’évolution GPLv2 → v3 → AGPL montre elle aussi que le jugement communautaire précède le droit
  • À l’ère de l’IA, il faut étendre la protection du copyleft jusqu’aux suites de tests et aux spécifications d’API
  • En conclusion, l’article insiste sur le fait que le jugement social doit précéder le verdict juridique, et que la légalité ne peut pas se substituer à la légitimité

1 commentaires

 
GN⁺ 2026-03-10
Avis sur Hacker News
  • Si l’on peut désormais générer du code source à partir de la seule spécification (specification), alors l’essentiel du capital intellectuel d’un projet GPL réside dans cette spécification.
    Autrefois, on s’est battu pour que l’imitation des logiciels d’entreprise soit légalement permise ; aujourd’hui, on semble prêt à abandonner nous-mêmes ce droit et à donner davantage de contrôle aux détenteurs de propriété intellectuelle.
    Cette évolution ne conduira pas à un résultat anti-grandes entreprises ni favorable au partage. Au final, ce seront les grandes entreprises qui exerceront ce pouvoir.

    • Cela ressemble beaucoup à l’ancien procès Oracle vs Google sur les API.
    • Mais les développeurs d’autrefois n’étaient pas en concurrence avec une IA générative entraînée sur leurs propres travaux.
      Le contexte a complètement changé. L’argument cité ne fait que répéter un point déjà critiqué.
      Si vous êtes d’accord avec cette position, je vous recommande vivement de lire l’article original.
  • Ce qui m’intéresse, c’est de savoir si ce phénomène pourrait dépasser le simple cadre du droit d’auteur et faire s’effondrer la notion même de propriété intellectuelle (IP).
    La PI repose sur l’idée que « la créativité est difficile », mais les LLM automatisent désormais presque toute forme de production de connaissances, des démonstrations mathématiques à la conception de nouveaux médicaments.
    Si c’est le cas, pourquoi continuer à accorder un monopole sur des créations qui ne sont plus « difficiles » ? Au final, l’IA traitera même les brevets comme de simples contraintes à contourner.

    • Je pense malgré tout qu’il faut encore protéger les résultats produits par des humains.
      Actuellement, juridiquement, les productions de l’IA ne sont pas protégées par le droit d’auteur ; il faut une intervention humaine substantielle pour qu’il y ait protection.
      Il faut protéger les résultats issus d’un effort humain pour éviter que les grandes entreprises ne les récupèrent gratuitement.
    • Le droit d’auteur ne porte pas sur la quantité d’effort, mais sur l’originalité et l’expression. Le droit américain ne reconnaît pas le principe du « Sweat of the Brow ».
    • Désormais, la PI est devenue un concept dévoyé, monopolisé par les élites. Depuis Mickey Mouse de Disney, tout est en déclin.
    • Nous sommes sans doute simplement dans une période de transition. Des problèmes autrefois difficiles deviennent faciles, et nous nous tournerons vers des problèmes plus difficiles.
      Cela dit, il est possible que ce ne soit pas l’humain qui les résolve.
    • En réalité, la PI a toujours été une idée contradictoire : la propriété des nombres.
      Elle avait déjà perdu son sens avec l’arrivée de l’informatique, mais elle a survécu grâce au lobbying.
      L’IA pourrait maintenant enfoncer le dernier clou dans son cercueil.
      Au final, ce qui compte, ce sont les poids (weights) des modèles, et ils devraient être publiés ou rendus accessibles à tous, même par la contrainte.
  • Quelqu’un devrait tester ça pour de vrai.
    Prendre le code source de Minecraft qui a fuité, le donner à Copilot pour en faire une copie totalement identique dans un autre langage, puis le publier en open source.
    Je serais curieux de voir si Microsoft considérerait cela comme une violation du droit d’auteur.

    • Mais ce serait juste un portage, donc probablement une contrefaçon.
      Il faudrait plutôt demander : « implémente Minecraft from scratch ».
      En revanche, on ne pourrait pas réutiliser les textures ou les modèles ; l’IA devrait en générer de nouveaux.
    • Ce sera vraiment intéressant quand l’IA sera capable de faire aussi de la décompilation de binaires.
    • À mon avis, c’est exactement la manière de retourner leurs armes contre eux-mêmes.
    • Le point central est de savoir si, lorsque les données d’entraînement contiennent des contenus protégés par le droit d’auteur, la sortie constitue elle aussi une contrefaçon.
      Ton exemple est un cas qui présente un risque de contrefaçon bien plus évident.
    • C’est probablement la question la plus importante du moment.
      Si l’on utilisait un LLM pour retirer la licence du code source de Windows qui a fuité et produire du code pour WINE ?
      On discute aussi beaucoup en ce moment des tentatives de décompilation de binaires avec des LLM.
  • Deux figures du camp open source ont participé au débat, mais aucune n’est avocat spécialisé en PI.
    Un véritable avocat, Richard Fontana, est intervenu, mais son issue a été fermée.
    Dans cette issue GitHub, il a souligné que « les productions générées par l’IA ne sont généralement pas protégées par le droit d’auteur ».
    Autrement dit, si quelqu’un n’a fait qu’écrire un prompt sans modifier lui-même le code, le simple fait d’apposer une licence MIT sur ce code a d’importantes implications juridiques.

    • Cela dit, je trouve le raisonnement de Fontana faible.
      Cela ressemble plutôt à la photographie : l’appareil photo n’a pas le droit d’auteur, mais l’humain peut l’avoir.
      De la même façon qu’une création peut être reconnue comme humaine sans intervention au niveau du pixel.
  • Si l’on regarde l’histoire de la GPL, c’était une tentative de combattre le droit d’auteur avec le droit d’auteur.
    Le terme même de « Copyleft » le dit bien.
    Mais l’IA est en train d’éroder le droit d’auteur lui-même.
    Désormais, non seulement les programmes sous GPL, mais aussi les logiciels propriétaires peuvent être réimplémentés avec l’IA.
    Dans ce cas, GNU devrait abandonner la GPL et faire du LLM sa nouvelle arme.

    • Mais les LLM performants sont une technologie qui exige une puissance de capital énorme.
      Cela risque au contraire d’affaiblir la liberté de l’open source et de déplacer le pouvoir vers les grandes entreprises.
      De plus, les LLM sont entraînés sur le code de nombreux contributeurs bénévoles, mais ce sont les grandes entreprises qui en tirent les bénéfices.
      Au final, l’attrait de l’open source pourrait diminuer, tout comme le respect des licences.
    • Le Copyleft n’est pas l’opposé du droit d’auteur ; c’est une structure qui accorde des droits aux utilisateurs.
      En particulier, elle garantit à l’utilisateur le droit de modifier le logiciel exécuté sur son propre appareil.
      Mais si certains outils, clés ou spécifications sont restreints, la réimplémentation devient impossible.
    • Je me demande si les LLM sont vraiment des outils librement utilisables.
      Au final, cela pourrait revenir à emprunter l’arme d’une “entreprise malveillante” pour se battre.
    • En fait, les LLM actuels sont eux-mêmes l’incarnation d’une “entreprise de logiciels malveillante”.
    • Tant qu’il n’existera pas de LLM open source qu’un particulier peut héberger facilement, la véritable liberté logicielle restera hors d’atteinte.
  • À mon avis, il y a déjà eu violation de licence.
    La plupart des grands modèles ont enfreint les conditions d’utilisation pendant la collecte des données.
    On peut donc considérer que les modèles entraînés sur du code GPL ont été infectés (infect) par l’obligation d’une licence ouverte.

    • Mais l’entraînement en lui-même n’est pas une violation du droit d’auteur. C’est considéré comme du fair use.
      Juridiquement, ce qui compte, c’est ① la légalité de l’acquisition des données, ② le caractère d’expression originale de la sortie.
      Dans ce cas précis, 98,7 % du code a été identifié comme nouveau.
    • Au final, il faudra une décision de justice. Mais le point litigieux ne sera pas le principe du fair use, plutôt le caractère transformateur de la sortie.
    • Plusieurs précédents ont déjà reconnu que l’acte d’entraînement lui-même relevait du fair use.
      Le vrai sujet est de savoir dans quelle mesure la sortie est transformative.
      C’est aussi l’enjeu central du procès NYT vs OpenAI.
  • Blanchard a dit : « j’ai donné seulement l’API et les tests à Claude pour qu’il réimplémente »,
    mais cela revient un peu à dire : « j’ai jeté de la peinture sur une toile les yeux bandés, et c’est tombé en forme de Mickey Mouse ».
    Comme il était le mainteneur du code d’origine, il est difficile de le considérer comme totalement indépendant.

    • Mais savoir s’il a réellement vu le code n’est pas si important.
      S’il a donné le code original pour obtenir une copie, cela reste une violation du droit d’auteur.
      Si l’IA n’est qu’un simple outil, c’est la responsabilité de l’utilisateur ; si c’est un agent indépendant, alors elle devient elle aussi l’auteur de l’infraction.
    • Pour ma part, je considère que la réimplémentation de code est légale et éthiquement acceptable,
      tant qu’on ne copie pas tels quels les éléments d’expression.
    • Comme dans Oracle vs Google, la réimplémentation d’une API est possible.
      Si Blanchard publie tous les prompts, n’importe qui devrait pouvoir reproduire le même résultat.
    • Est-ce qu’on peut trouver une citation montrant que Blanchard a réellement dit cela ?
      D’après ce que j’ai compris, il disait seulement que Claude n’avait pas vu le code.
    • Cela dit, Mickey Mouse relève du droit des marques, donc l’analogie n’est pas juste juridiquement.
  • Selon l’article, Claude a réimplémenté la bibliothèque en ne recevant que l’API et les tests.
    Or, la GPL2 considère aussi la suite de tests comme une partie du code source.
    Si Claude a utilisé les tests, alors le résultat pourrait être, au regard de la LGPL 2.1, une œuvre dérivée fondée sur l’original.

    • Mais juridiquement, cela relèverait d’un usage transformateur (transformative use).
      En revanche, il pourrait être impossible de redistribuer les tests sous licence MIT.
      Une solution réaliste serait donc de distribuer seulement le code sous MIT, et les tests séparément sous LGPL.
    • Selon l’arrêt Google vs Oracle, l’usage d’une API relève du fair use.
      Les cas de test peuvent eux aussi être considérés comme une partie de l’usage de l’API.
  • Dans notre entreprise, on commence à utiliser la réimplémentation par IA pour se servir d’outils non approuvés par l’équipe sécurité.
    L’équipe sécurité applique une politique de « refus par défaut », tandis que l’équipe d’ingénierie suit une logique de « recours actif à l’IA ».
    On se retrouve donc avec une structure d’incitations étrange où l’on recrée avec l’IA des outils réservés à un usage interne.
    Si l’on veut un autre résultat, il faut commencer par repenser les incitations.

    • La culture du « Not Invented Here » se renforce de plus en plus, comme une forme de résistance aux antibiotiques.
      Si une IA peut écrire de manière répétée du bon code lié à la sécurité,
      pourquoi croire que cette même IA serait incapable de vérifier la sécurité d’un logiciel tiers ?
      J’aimerais qu’on m’explique pourquoi il existerait une asymétrie entre production et analyse.
  • Les conditions de la GPL ne s’activent qu’au moment de la distribution.
    Il faut publier le code source lorsqu’on distribue du code modifié ou qu’on le fournit comme service réseau.
    Cela dit, fournir un service réseau n’est pas une distribution, et c’est pour combler cette lacune qu’a été créée l’AGPL.