3 points par GN⁺ 2026-03-07 | 1 commentaires | Partager sur WhatsApp
  • Le projet open source chardet v7.0.0 a entièrement réécrit son code à l’aide d’un outil d’IA et a changé de licence de la LGPL vers la MIT
  • L’auteur original affirme que le processus pourrait constituer une violation de la GPL, en soulignant que le résultat généré par une IA entraînée sur le code d’origine n’est pas une « implémentation en clean room »
  • Dans l’approche clean room traditionnelle, deux équipes doivent être séparées, mais l’IA contourne cette barrière, ce qui place au centre du débat la question de savoir s’il s’agit d’une œuvre dérivée
  • En parallèle, la Cour suprême des États-Unis ne reconnaît pas le droit d’auteur sur les créations générées par l’IA, ce qui rend flous la propriété du nouveau code et la validité de sa licence
  • Si ce type de cas est reconnu, cela soulève le risque d’affaiblir tout le système du Copyleft

Réécriture du projet chardet par l’IA et changement de licence

  • La bibliothèque Python de détection d’encodage de caractères chardet était à l’origine un portage du code C++ de Mozilla et était donc liée à la LGPL
    • Cela créait une incertitude juridique pour les entreprises utilisatrices
  • Les mainteneurs ont utilisé Claude Code pour réécrire l’ensemble du code et ont distribué v7.0.0 sous licence MIT
  • L’auteur original a2mark affirme que cette décision constitue une violation de la LGPL
    • Selon lui, le code modifié doit toujours rester sous LGPL, et l’argument d’une « réécriture complète » est invalide puisqu’il s’agit d’un résultat généré après exposition au code source original
    • Il précise que la génération de code par IA n’accorde aucun droit supplémentaire

Implémentation en clean room et contournement par l’IA

  • Une réécriture clean room (clean room rewrite) traditionnelle repose sur deux équipes
    • L’équipe A analyse le code d’origine et rédige une spécification fonctionnelle
    • L’équipe B écrit un nouveau code à partir de la seule spécification, sans voir l’original
  • Mais lorsqu’une IA génère du code après avoir reçu le code LGPL d’origine en entrée, cette séparation procédurale disparaît
  • Si l’IA a appris à partir du code d’origine pour produire son résultat, celui-ci peut être considéré comme une œuvre dérivée soumise à la LGPL

Décision de la Cour suprême américaine et paradoxe juridique

  • Le 2 mars 2026, la Cour suprême des États-Unis a rejeté le recours portant sur la reconnaissance du droit d’auteur des créations générées par l’IA
    • La décision de la juridiction inférieure sur l’exigence d’un auteur humain (Human Authorship) est donc maintenue
  • En conséquence, les mainteneurs de chardet se retrouvent face à trois contradictions juridiques
    • Vide en matière de droit d’auteur : si les créations générées par l’IA ne bénéficient pas de la protection du droit d’auteur, il n’existe pas de base légale pour les relicencier en MIT
    • Piège des œuvres dérivées : si la sortie de l’IA est une œuvre dérivée du code LGPL d’origine, il y a violation de licence
    • Vide de propriété : si l’IA a généré un code entièrement nouveau, celui-ci entrerait immédiatement dans le domaine public, rendant la licence MIT elle-même dénuée de sens

Impact potentiel sur le système du Copyleft

  • Si la modification de licence via une réécriture par IA est admise, les fondements mêmes du Copyleft pourraient s’effondrer
  • N’importe qui pourrait donner un projet GPL à un LLM en lui demandant de « le réécrire dans un autre style », puis le distribuer sous licence MIT
  • Le cas de chardet v7.0.0 est considéré comme le premier exemple concret mettant réellement à l’épreuve ces frontières juridiques et éthiques

1 commentaires

 
GN⁺ 2026-03-07
Commentaires sur Hacker News
  • D’après la réponse du mainteneur, il a explicitement demandé à Claude de ne pas se référer au code sous LGPL/GPL, mais il est fort probable que le modèle ait déjà été entraîné sur ce code
    Il est actuellement considéré comme impossible pour un LLM d’« oublier » complètement l’influence de ses données d’entraînement
    Il existe ce projet comme recherche connexe
    Je suis développeur et avocat en propriété intellectuelle, et ce type de question continue d’évoluer devant les tribunaux américains
    À noter que les offres enterprise payantes d’Anthropic indemnisent l’utilisateur en cas d’atteinte au droit d’auteur, tandis que les offres gratuite/Pro/Max imposent au contraire à l’utilisateur d’indemniser Anthropic (section 11 des conditions)

    • Le mainteneur affirme avoir « réécrit depuis zéro », mais a en réalité réutilisé les données de test de chardet telles quelles, et c’est quelqu’un qui maintient le code original depuis plus de 10 ans
      Pour qu’il s’agisse d’une véritable implémentation en clean room, il faudrait séparer la personne qui connaît l’original de celle qui réécrit, ce qui n’est pas le cas ici
    • Une discussion sur un sujet proche a aussi eu lieu dans ce fil
    • Il y a eu des recherches sur une méthode consistant à masquer aléatoirement certains tokens pendant l’entraînement afin d’éviter la mémorisation littérale du texte source
      L’idée était de conserver le sens tout en supprimant une partie des mots pour éviter la citation directe
    • J’ai trouvé utile d’apprendre pour la première fois que les clauses d’indemnisation diffèrent selon les offres payantes
  • Cet article mal comprend ce que signifie une « implémentation en clean room »
    Il ne s’agit pas simplement de « ne pas regarder le code source », mais d’implémenter indépendamment à partir de la spécification de l’API
    Le code généré par un LLM a une forte probabilité de ressembler à l’original, avec un risque important d’être juridiquement considéré comme une copie
    Le comportement du mainteneur de chardet ressemble juridiquement à une relicence irresponsable, avec un risque de futurs problèmes de supply chain

    • Une réponse cite une explication juridique selon laquelle si deux personnes créent indépendamment le même code, chacune peut détenir son propre droit d’auteur
    • En droit d’auteur, la copie n’existe que s’il y a eu transfert d’information
      Si seul le même résultat a été obtenu, il s’agit d’un résultat fonctionnel, pas d’une contrefaçon
    • Comme dans l’affaire Google vs Oracle, une implémentation basée sur une API comporte aussi un risque juridique
      Voir l’article Wikipédia
    • Il existe aussi le précédent légal de la clean room de Phoenix sur le BIOS de l’IBM PC : si l’on réécrit sans consulter l’original, cela peut être légal
    • Si l’on suit une procédure complète de CRRE (clean-room reverse engineering), même un code identique ligne pour ligne ne constitue pas juridiquement une copie
      En pratique, toutefois, une forte similarité reste difficile à défendre en justice
      Le cas chardet pourrait, comme la controverse japonaise sur le droit d’auteur des polices, conduire à un arrêt de la distribution même sans violation substantielle
  • Le code LGPL reste LGPL
    Tant que tous les auteurs originaux n’ont pas explicitement donné leur accord, changer la licence est impossible
    Le fait qu’une IA ait transformé le code ne fait pas disparaître le droit d’auteur
    Sinon, toute l’industrie américaine du copyright s’effondrerait

    • Juridiquement, il n’existe pas une propriété distincte appelée « code LGPL » ; la vraie question est de savoir si l’acte de copie est autorisé
      Si quelqu’un crée une œuvre dérivée sans autorisation, la question de savoir s’il peut lui-même accorder une autorisation devient complexe
    • Une décision de la SCOTUS va plutôt dans le sens d’un renforcement des droits de l’auteur original, en considérant que les résultats produits par l’IA manquent d’originalité créative
    • Une réécriture en clean room entièrement basée sur l’IA pourrait en théorie être vue comme relevant du domaine public, mais les cas réels de ce type sont rares
  • Avec l’IA générative, le système du droit d’auteur accuse son âge
    Les lois passées supposaient des modèles à objectif unique, alors qu’aujourd’hui apparaissent des modèles capables de rivaliser avec toutes les sources
    La stratégie de licence de GNU reposait elle aussi sur la rareté du code, mais la génération de code est désormais si facile que cela en réduit la portée

    • Si une IA reçoit le code source original et qu’on lui demande de « le réécrire », c’est une œuvre dérivée ; si on ne lui donne qu’une description fonctionnelle, c’est une nouvelle création
      En cas de procès, les logs de Claude pourraient servir de preuve
    • Certains critiquent cela comme le fait d’avoir changé les règles du jeu en enfreignant la loi
    • Le principe traditionnel selon lequel les idées ne sont pas protégées mais leur expression l’est vacille à l’ère de l’IA
      Nous vivons désormais dans un monde où générer l’expression est plus facile que formuler l’idée
    • D’autres y voient au contraire un signal positif, car cela pourrait faire tomber la structure monopolistique du copyright
    • L’objectif de GNU n’a jamais été la licence en elle-même, mais la liberté de l’utilisateur
      Un monde où tout le monde peut produire du code grâce à l’IA se rapprocherait plutôt de l’idéal imaginé par GNU
  • Certains mettent en doute l’idée que si le code produit par l’IA est une véritable nouvelle création, il pourrait devenir domaine public dès sa génération
    Comme on ne sait pas sur quelles données le modèle a été entraîné, cela pourrait relever de l’ingénierie inverse
    Ils soutiennent donc qu’il faudrait appliquer la licence la plus restrictive et que les entreprises d’IA devraient redistribuer une partie des revenus aux auteurs originaux

    • Si l’on suivait cette logique, tout passerait en « All Rights Reserved », ce qui rendrait les sorties d’IA inutilisables
      En pratique, les modèles entraînés uniquement sur des données explicitement autorisées ont des performances très faibles
      Si toutes les productions d’IA étaient considérées comme des œuvres dérivées, tous les projets open source seraient contaminés
    • Tant que l’IA ne reproduit pas presque à l’identique le code original, les tribunaux américains ne remettent généralement pas en cause le copyright des données d’entraînement
      En fin de compte, si personne d’autre qu’un humain ne peut revendiquer la propriété, cela revient de facto au domaine public
    • Il y a même eu une proposition semi-humoristique consistant à considérer tout code généré par un LLM comme du GPL v3
    • D’autres ont exprimé de façon cynique que la loi ne changera que lorsque les intérêts de Disney seront touchés
    • La responsabilité juridique dépendra du fait que l’IA ait utilisé directement le code original ou l’ait réécrit à travers une représentation intermédiaire
  • Il existe aussi un autre fil intitulé « No right to relicense this project »

    • Celui-là ressemble simplement à un projet plagié, alors que dans le cas présent de chardet, l’enjeu central est la légitimité d’une réécriture par IA
  • À l’affirmation selon laquelle si le code produit par l’IA relève du domaine public, la licence MIT elle-même n’a plus de sens, certains répondent que ce n’est pas le cas
    Les productions d’IA ne sont pas une simple copie et restent soumises aux contraintes de licence de l’original

    • Comme les résultats produits par l’IA ne sont pas juridiquement reconnus comme des œuvres, personne ne peut en accorder la licence
      Par exemple, un générateur de poésie entraîné sur Project Gutenberg ne peut pas revendiquer de droit d’auteur sur ses sorties
    • Mais dans le cas du code, les critères juridiques restent flous
      Entre les macros, les outils de génération de code et des fonctions automatisées comme Intellisense, la frontière de ce qui relève de la « génération par IA » est ambiguë
    • Certains ont aussi corrigé le terme : on dit « copyright » et non « copywrite »
    • D’autres estiment qu’une production d’IA peut aussi être protégée par le droit d’auteur si un humain y a apporté une contribution créative
  • Il y avait par le passé des discussions sur l’intégration de chardet dans la bibliothèque standard de Python, mais
    avec cette controverse sur le changement de licence, beaucoup estiment que cette possibilité a disparu
    Voir cet issue ainsi que la déclaration du mainteneur 1 et la déclaration 2

  • Ce type de relicence par IA pourrait signifier la fin de l’open source, en particulier du copyleft
    Si les licences ne jouent plus leur rôle de protection, les développeurs reviendront au développement fermé

    • C’est aussi pour cela que j’ai complètement cessé de publier en open source
      Les modèles récents sont même capables de faire de l’ingénierie inverse de WebAssembly, ce qui donne une impression proche de la théorie de la forêt sombre
    • Cela ne concerne pas seulement l’open source, mais tous les projets dont le code source est publié
    • Le but de la GPL n’est pas « d’empêcher des usages non désirés », mais d’exiger la publication du code source en cas de modification
      Si une réécriture par IA est sous GPL, elle doit elle aussi être publiée
    • D’autres ont rétorqué qu’annoncer vouloir refermer le « logiciel libre » contredit dès l’origine la philosophie même de la liberté
  • Beaucoup approuvent la conclusion selon laquelle si une réécriture par IA permet de changer la licence, c’est tout le copyright qui s’effondre
    Car cela pourrait s’appliquer aux films, à la musique, aux romans et à toutes les œuvres créatives
    Au final, les tribunaux ne reconnaîtront probablement pas ce type de tentative comme un moyen d’échapper au copyright,
    et beaucoup espèrent que le projet chardet ne servira pas de cobaye face à cette immense vague juridique