- Le développeur et avocat Matthew Butterick a porté plainte contre Microsoft, GitHub et OpenAI
- Il affirme qu’ils ont violé des licences open source et porté atteinte aux droits des programmeurs
- Les licences GPL, Apache, MIT, etc. exigent d’indiquer le nom de l’auteur, mais Copilot l’ignore
Même lorsque des extraits de code de plus de 150 caractères sont copiés tels quels
- Certains programmeurs qualifient cela de « blanchiment open source » (
laundering)
- Le cabinet d’avocats représentant l’action en justice a déclaré : « Microsoft semble tirer profit du travail d’autrui en ignorant les conditions des licences open source et d’autres exigences légales »
- Indépendamment de la violation des licences, Butterick soutient aussi que cette fonctionnalité enfreint plusieurs autres règles
- les Conditions d’utilisation et la Politique de confidentialité de GitHub
- le DMCA 1202, qui interdit la suppression des informations de gestion du droit d’auteur
- le California Consumer Privacy Act
3 commentaires
Au final, on dirait que ça pourrait se régler en séparant les licences open source dans les données d’entraînement et en permettant de les choisir dans les options de Copilot, non ? — avec une génération correcte des mentions de licence en conséquence. C’est déjà comme ça que ça fonctionne ? Je n’ai jamais utilisé Copilot, donc...
C’est un gros sujet, mais la méthode de résolution me semble assez claire.
Ce genre de problème se pose souvent aussi quand des humains codent, non ? Il arrive qu’au travail on cherche quelqu’un qui n’a pas lu le code d’une implémentation open source d’une spécification XXX (par exemple Linux). (Pour une implémentation en clean room.) Parfois, si on partage distraitement un lien vers du code Linux au boulot, on se fait reprendre — « Il ne faut pas que je lise ce code ! ». Et parfois, c’est même gênant quand on ne se souvient plus si on l’a déjà lu ou non.
Bref, j’ai l’impression que ce sera plus facile à résoudre clairement que les problèmes auxquels les humains sont confrontés.
Quand Copilot a été annoncé..
Au début, j’ai fait « waouh~ », puis quelques jours plus tard, avec ces problèmes liés aux licences.
J’avais vu l’avis disant qu’en l’utilisant mal, du code sous licence GPL pourrait se retrouver en gros morceaux dans le développement du code produit de l’entreprise sans qu’on le veuille, ce qui pourrait devenir un gros problème... et c’est finalement devenu réalité.
Le fait que ce soit copié tel quel, c’est un peu… gênant. C’est aussi pour ça que le domaine de l’Explainable AI fait l’objet de discussions très actives : une IA capable d’expliquer pourquoi elle a produit un tel résultat.
Si Copilot pouvait faire ça, j’ai l’impression qu’il pourrait éviter une bonne partie de la controverse en ajoutant en commentaire le code open source ayant contribué au résultat.