- Le projet open source chardet v7.0.0 a entièrement réécrit son code à l’aide d’un outil d’IA et a changé de licence de la LGPL vers la MIT
- L’auteur original affirme que le processus pourrait constituer une violation de la GPL, en soulignant que le résultat généré par une IA entraînée sur le code d’origine n’est pas une « implémentation en clean room »
- Dans l’approche clean room traditionnelle, deux équipes doivent être séparées, mais l’IA contourne cette barrière, ce qui place au centre du débat la question de savoir s’il s’agit d’une œuvre dérivée
- En parallèle, la Cour suprême des États-Unis ne reconnaît pas le droit d’auteur sur les créations générées par l’IA, ce qui rend flous la propriété du nouveau code et la validité de sa licence
- Si ce type de cas est reconnu, cela soulève le risque d’affaiblir tout le système du Copyleft
Réécriture du projet chardet par l’IA et changement de licence
- La bibliothèque Python de détection d’encodage de caractères chardet était à l’origine un portage du code C++ de Mozilla et était donc liée à la LGPL
- Cela créait une incertitude juridique pour les entreprises utilisatrices
- Les mainteneurs ont utilisé Claude Code pour réécrire l’ensemble du code et ont distribué v7.0.0 sous licence MIT
- L’auteur original a2mark affirme que cette décision constitue une violation de la LGPL
- Selon lui, le code modifié doit toujours rester sous LGPL, et l’argument d’une « réécriture complète » est invalide puisqu’il s’agit d’un résultat généré après exposition au code source original
- Il précise que la génération de code par IA n’accorde aucun droit supplémentaire
Implémentation en clean room et contournement par l’IA
- Une réécriture clean room (clean room rewrite) traditionnelle repose sur deux équipes
- L’équipe A analyse le code d’origine et rédige une spécification fonctionnelle
- L’équipe B écrit un nouveau code à partir de la seule spécification, sans voir l’original
- Mais lorsqu’une IA génère du code après avoir reçu le code LGPL d’origine en entrée, cette séparation procédurale disparaît
- Si l’IA a appris à partir du code d’origine pour produire son résultat, celui-ci peut être considéré comme une œuvre dérivée soumise à la LGPL
Décision de la Cour suprême américaine et paradoxe juridique
- Le 2 mars 2026, la Cour suprême des États-Unis a rejeté le recours portant sur la reconnaissance du droit d’auteur des créations générées par l’IA
- La décision de la juridiction inférieure sur l’exigence d’un auteur humain (Human Authorship) est donc maintenue
- En conséquence, les mainteneurs de chardet se retrouvent face à trois contradictions juridiques
- Vide en matière de droit d’auteur : si les créations générées par l’IA ne bénéficient pas de la protection du droit d’auteur, il n’existe pas de base légale pour les relicencier en MIT
- Piège des œuvres dérivées : si la sortie de l’IA est une œuvre dérivée du code LGPL d’origine, il y a violation de licence
- Vide de propriété : si l’IA a généré un code entièrement nouveau, celui-ci entrerait immédiatement dans le domaine public, rendant la licence MIT elle-même dénuée de sens
Impact potentiel sur le système du Copyleft
- Si la modification de licence via une réécriture par IA est admise, les fondements mêmes du Copyleft pourraient s’effondrer
- N’importe qui pourrait donner un projet GPL à un LLM en lui demandant de « le réécrire dans un autre style », puis le distribuer sous licence MIT
- Le cas de chardet v7.0.0 est considéré comme le premier exemple concret mettant réellement à l’épreuve ces frontières juridiques et éthiques
1 commentaires
Commentaires sur Hacker News
D’après la réponse du mainteneur, il a explicitement demandé à Claude de ne pas se référer au code sous LGPL/GPL, mais il est fort probable que le modèle ait déjà été entraîné sur ce code
Il est actuellement considéré comme impossible pour un LLM d’« oublier » complètement l’influence de ses données d’entraînement
Il existe ce projet comme recherche connexe
Je suis développeur et avocat en propriété intellectuelle, et ce type de question continue d’évoluer devant les tribunaux américains
À noter que les offres enterprise payantes d’Anthropic indemnisent l’utilisateur en cas d’atteinte au droit d’auteur, tandis que les offres gratuite/Pro/Max imposent au contraire à l’utilisateur d’indemniser Anthropic (section 11 des conditions)
Pour qu’il s’agisse d’une véritable implémentation en clean room, il faudrait séparer la personne qui connaît l’original de celle qui réécrit, ce qui n’est pas le cas ici
L’idée était de conserver le sens tout en supprimant une partie des mots pour éviter la citation directe
Cet article mal comprend ce que signifie une « implémentation en clean room »
Il ne s’agit pas simplement de « ne pas regarder le code source », mais d’implémenter indépendamment à partir de la spécification de l’API
Le code généré par un LLM a une forte probabilité de ressembler à l’original, avec un risque important d’être juridiquement considéré comme une copie
Le comportement du mainteneur de chardet ressemble juridiquement à une relicence irresponsable, avec un risque de futurs problèmes de supply chain
Si seul le même résultat a été obtenu, il s’agit d’un résultat fonctionnel, pas d’une contrefaçon
Voir l’article Wikipédia
En pratique, toutefois, une forte similarité reste difficile à défendre en justice
Le cas chardet pourrait, comme la controverse japonaise sur le droit d’auteur des polices, conduire à un arrêt de la distribution même sans violation substantielle
Le code LGPL reste LGPL
Tant que tous les auteurs originaux n’ont pas explicitement donné leur accord, changer la licence est impossible
Le fait qu’une IA ait transformé le code ne fait pas disparaître le droit d’auteur
Sinon, toute l’industrie américaine du copyright s’effondrerait
Si quelqu’un crée une œuvre dérivée sans autorisation, la question de savoir s’il peut lui-même accorder une autorisation devient complexe
Avec l’IA générative, le système du droit d’auteur accuse son âge
Les lois passées supposaient des modèles à objectif unique, alors qu’aujourd’hui apparaissent des modèles capables de rivaliser avec toutes les sources
La stratégie de licence de GNU reposait elle aussi sur la rareté du code, mais la génération de code est désormais si facile que cela en réduit la portée
En cas de procès, les logs de Claude pourraient servir de preuve
Nous vivons désormais dans un monde où générer l’expression est plus facile que formuler l’idée
Un monde où tout le monde peut produire du code grâce à l’IA se rapprocherait plutôt de l’idéal imaginé par GNU
Certains mettent en doute l’idée que si le code produit par l’IA est une véritable nouvelle création, il pourrait devenir domaine public dès sa génération
Comme on ne sait pas sur quelles données le modèle a été entraîné, cela pourrait relever de l’ingénierie inverse
Ils soutiennent donc qu’il faudrait appliquer la licence la plus restrictive et que les entreprises d’IA devraient redistribuer une partie des revenus aux auteurs originaux
En pratique, les modèles entraînés uniquement sur des données explicitement autorisées ont des performances très faibles
Si toutes les productions d’IA étaient considérées comme des œuvres dérivées, tous les projets open source seraient contaminés
En fin de compte, si personne d’autre qu’un humain ne peut revendiquer la propriété, cela revient de facto au domaine public
Il existe aussi un autre fil intitulé « No right to relicense this project »
À l’affirmation selon laquelle si le code produit par l’IA relève du domaine public, la licence MIT elle-même n’a plus de sens, certains répondent que ce n’est pas le cas
Les productions d’IA ne sont pas une simple copie et restent soumises aux contraintes de licence de l’original
Par exemple, un générateur de poésie entraîné sur Project Gutenberg ne peut pas revendiquer de droit d’auteur sur ses sorties
Entre les macros, les outils de génération de code et des fonctions automatisées comme Intellisense, la frontière de ce qui relève de la « génération par IA » est ambiguë
Il y avait par le passé des discussions sur l’intégration de chardet dans la bibliothèque standard de Python, mais
avec cette controverse sur le changement de licence, beaucoup estiment que cette possibilité a disparu
Voir cet issue ainsi que la déclaration du mainteneur 1 et la déclaration 2
Ce type de relicence par IA pourrait signifier la fin de l’open source, en particulier du copyleft
Si les licences ne jouent plus leur rôle de protection, les développeurs reviendront au développement fermé
Les modèles récents sont même capables de faire de l’ingénierie inverse de WebAssembly, ce qui donne une impression proche de la théorie de la forêt sombre
Si une réécriture par IA est sous GPL, elle doit elle aussi être publiée
Beaucoup approuvent la conclusion selon laquelle si une réécriture par IA permet de changer la licence, c’est tout le copyright qui s’effondre
Car cela pourrait s’appliquer aux films, à la musique, aux romans et à toutes les œuvres créatives
Au final, les tribunaux ne reconnaîtront probablement pas ce type de tentative comme un moyen d’échapper au copyright,
et beaucoup espèrent que le projet chardet ne servira pas de cobaye face à cette immense vague juridique