- En vertu de l’accord entre Stack Overflow et OpenAI, toutes les questions et réponses de Stack Overflow doivent être utilisées pour entraîner des modèles d’IA générative
- Cela se fera sans attribution des auteurs, pourtant exigée par la licence CC-BY-SA
- La licence CC-BY-SA impose aussi que les œuvres dérivées soient partagées sous la même licence
- En conséquence, j’ai demandé la suppression de mes données sur Stack Overflow et fermé mon compte
- J’ai pris la même mesure sur Reddit
- Parce que les données auxquelles j’ai contribué vont être enfermées dans des LLM puis me seront revendues
- Stack Overflow aliène d’un seul coup sa communauté, principale source de son avantage concurrentiel
- Avant, on aidait quand on le pouvait, avec l’attente qu’un jour d’autres aideraient à leur tour : c’était le contrat psychologique implicite
- Maintenant, ce n’est plus un échange, c’est devenu
#enshittification
- Les programmeurs voient désormais leur travail aspiré dans la fabrication de solutions GenAI, comme les artistes ou les concepteurs-rédacteurs
- Si OpenAI crée un LLM qui génère du code, comme GitHub Copilot, on peut se demander où trouver de l’aide pour les bugs introduits par le modèle généré
- Un récent rapport de GitClear indique que ces outils exercent une « pression à la baisse sur la qualité du code »
- C’est un nouvel exemple de
#enshittification, et une leçon importante pour les responsables DevRel
- Si votre communauté est la source de votre avantage concurrentiel, il ne faut pas la mettre en colère
14 commentaires
enshittification, on dirait que c’est un néologisme.<Faut-il traiter différemment les humains et l’IA ?>
Imaginons que Hong Gil-dong, un humain, parcoure Internet, y compris Stack Overflow. Supposons qu’il lise plusieurs textes et acquière ainsi diverses connaissances sur un sujet précis. Gil-dong a l’habitude de regénéraliser et de réorganiser ce qu’il a appris de manière à le rendre facile à comprendre, puis de l’écrire sur un blog externe. Dans ce cas, cela n’a rien à voir avec la licence CC. Il n’y a pas non plus d’obligation d’attribution. Car il ne s’agit pas d’une citation, mais d’un apprentissage.
L’IA apprend, comme les humains, à l’aide de réseaux neuronaux. Elle ne parle pas en copiant mot pour mot plusieurs sources. Comme un humain, elle analyse les connaissances à sa manière, construit sa propre compréhension, puis les réorganise avant de les exprimer.
Il est même plus difficile de restreindre la liberté de l’IA et de l’amener à « citer » textuellement les mots d’autrui. Utiliser le RAG pour cela est facile, mais l’entraîner à citer l’est davantage.
Cependant, il arrive qu’une IA reproduise les paroles d’autrui comme si elle les copiait, même sans qu’on lui dise explicitement : « n’exprime pas ta propre pensée, cite mot pour mot le texte (ou le code) de quelqu’un d’autre ». Dans ce cas, c’est parce que la source en question est extrêmement connue. Par exemple, Shakespeare ou certaines répliques cultes du cinéma sont si célèbres qu’elles sont reproduites telles quelles. Les humains aussi finissent par mémoriser textuellement ces contenus célèbres auxquels ils sont exposés de façon répétée ; pour l’IA, c’est la même chose. Dans ce cas, comme les humains, l’IA indique en général spontanément la source.
En conclusion, on peut douter qu’il soit réellement possible d’exiger l’application d’une licence CC et du droit d’auteur à des contenus exprimés à partir d’un apprentissage. Déjà, dans le domaine non plus de « l’apprentissage » mais de « l’inférence » (c’est-à-dire l’utilisation d’une IA dont l’entraînement est terminé), la tendance mondiale est, pour les raisons évoquées ci-dessus, de ne presque plus reconnaître le droit d’auteur de la source d’origine.
Merci pour ce bon commentaire.
Le développeur Hong Gil-dong pourra « apprendre » à partir d’une réponse vue sur SO pour écrire un billet de blog, mais si l’étudiant en master Hong Gil-dong a ne serait-ce qu’un peu « cité » l’article de quelqu’un d’autre, il en indiquera la source. Si la conversation que nous avons s’inscrit dans le contexte du monde de la programmation, et non de la philosophie ou de l’invention, qu’est-ce qui relève de l’apprentissage et qu’est-ce qui relève de la citation ?
Le fait de laisser la source n’est généralement pas une contrepartie suffisante.
Ce point pourra peut-être se régler avec le temps, mais la controverse a commencé quand Copilot a repris tel quel le code de fast inverse sqrt de Quake (https://news.ycombinator.com/item?id=27710287) ; si on l’a remarqué, c’est parce que ce code est très connu, mais personne ne sait combien de code soi-disant « généré » a ainsi été simplement copié-collé.
Un point de vue vraiment intéressant. Cela m’a beaucoup servi de référence.
Point de vue intéressant.
Dans une perspective coréenne, cela donne à la fois l’impression d’un « café communautaire abandonné à des commerçants » et d’un « après tout, c’est une œuvre dérivée, alors où est le problème ? ».
Cela dit, personnellement, je n’apprécie pas vraiment la sensation de voir mes photos publiées sur les réseaux sociaux utilisées à des fins commerciales.
> Comme un humain, il analyse les connaissances à sa manière, structure sa propre pensée, puis la réorganise pour s’exprimer.
Vous semblez affirmer que les LLM ont des valeurs et une pensée propres ; est-ce bien votre intention ? Cela ne change pas vraiment la conclusion, mais je ne pense pas que ce soit un argument approprié pour justifier qu’on ne devrait pas appliquer le droit d’auteur au raisonnement.
Le processus qui consiste à tokeniser chaque mot, puis à placer et organiser correctement ces informations d’embedding dans l’espace latent peut, d’un point de vue abstrait, être comparé à des valeurs et à des idées.
À propos de la cybernisation du cerveau.
Cela me rappelle la phrase de quelqu’un : « Seuls les cerveaux de valeur seront préservés. »
Est-ce que, du côté de SO, ils vont vraiment supprimer ça honnêtement ? Ou bien vont-ils seulement ajouter un indicateur Deleted puis annoncer plus tard que « cela a été utilisé pour l'entraînement en raison d'une erreur technique » ?
> De plus, contrairement à la Corée ou à l’Europe, aux États-Unis, la controverse autour du « droit à l’oubli » semble impossible à clore dès le départ...
Je n’ai pas de connaissances de fond sur ce sujet, donc j’ai fait une petite recherche rapide : est-ce parce que la liberté d’expression et le droit à l’oubli entrent potentiellement en conflit ? Et comme il n’y a pas encore de consensus, cela n’a pas non plus été légiféré ?
Waouh, ça pourrait vraiment arriver.
Stack Overflow et OpenAI concluent un partenariat
Des utilisateurs de Stack Overflow suppriment leurs réponses à la suite du partenariat avec OpenAI