Les grands modèles de langage réduisent le partage de connaissances publiques sur les plateformes de Q&R en ligne
(academic.oup.com)Résumé
-
Impact des grands modèles de langage (LLM)
Les grands modèles de langage (LLM) peuvent se substituer aux données produites par les humains et aux ressources de connaissance. Mais cette substitution soulève un problème : elle pourrait entraîner une baisse des données d’entraînement nécessaires au développement des futurs modèles. Cette étude documente ainsi un recul de l’activité sur Stack Overflow après le lancement de ChatGPT. -
Impact de ChatGPT
Dans les six mois suivant le lancement de ChatGPT, l’activité sur Stack Overflow a diminué de 25 % par rapport à des plateformes similaires en Russie et en Chine ainsi qu’à des forums de mathématiques. Cela est interprété comme une borne inférieure du véritable impact de ChatGPT sur Stack Overflow. La baisse est plus marquée pour les publications liées aux langages de programmation les plus utilisés. -
Effet de substitution des LLM
Les LLM remplacent non seulement les contenus redondants ou de faible qualité, mais aussi les contenus de haute qualité. Les utilisateurs de ChatGPT sont moins susceptibles de publier sur Stack Overflow et ne visitent pas régulièrement la plateforme. Cela suggère que l’adoption rapide des LLM pourrait réduire la production de données publiques nécessaires à leur entraînement, avec des conséquences importantes. -
Impact selon les langages de programmation
L’impact de ChatGPT est plus important pour les langages largement utilisés comme Python et JavaScript. Pour certains langages spécifiques comme CUDA, le nombre de publications a augmenté après le lancement de ChatGPT. Cela montre l’intérêt croissant pour les logiciels liés à l’IA.
Le récapitulatif de GN⁺
- Cette étude met en avant l’impact négatif de l’adoption rapide de l’IA sur la production de données publiques, en analysant les effets de grands modèles de langage comme ChatGPT sur les plateformes de Q&R en ligne.
- À mesure que l’usage de ChatGPT augmente, l’activité sur des plateformes comme Stack Overflow diminue, ce qui pourrait affecter la qualité des données d’entraînement des futurs modèles d’IA.
- Ces évolutions pourraient avoir des conséquences importantes sur l’économie numérique et les modes d’accès à l’information, tout en soulevant des inquiétudes sur la durabilité de l’écosystème de l’IA.
- Parmi d’autres projets aux fonctions similaires, on trouve les dépôts GitHub liés aux langages de programmation.
1 commentaires
Avis sur Hacker News
Au fond, le problème est de savoir sur quoi les LLM vont s’appuyer. Ils ne créent pas de nouvelles informations, ils régurgitent et recombinent des informations existantes ; donc, pour du code où les exemples publics ou les réponses Stack Overflow/Reddit ne suffisent pas, leurs performances chutent fortement
Il a fallu plusieurs échanges pour arriver à une solution fonctionnelle, mais on y est finalement parvenu, et je me demande si l’IA a bien trouvé et assimilé des ressources obscures sur Internet, ou si elle a simplement mieux compris que moi une documentation difficile. Si c’est la seconde hypothèse, le besoin d’exemples publics pourrait diminuer
On penche déjà vers les technologies que les LLM maîtrisent bien, et l’avantage de pouvoir laisser un LLM résoudre 90 % du problème dépasse celui d’un langage ou framework légèrement meilleur. Je n’aime pas beaucoup Python comme langage, mais il est difficile de nier que les LLM s’en sortent bien mieux en Python que dans beaucoup d’autres langages
J’invente le chiffre, mais il est défendable : 90 % des informations sur Stack Overflow sont des répétitions de manuels trouvables quelque part. Le problème, c’est qu’il est souvent difficile de trouver l’information voulue dans la documentation pertinente, et même une fois trouvée, elle est souvent difficile à lire ; or les LLM sont très bons pour lire et comprendre la documentation
Les démos techniques qui créent instantanément une app entière avec un ou deux prompts sont fragiles. Si vous ne savez pas ce qu’elles font, elles changeront sans cesse la manière d’appeler les API, la gestion d’état ou la bibliothèque CSS pendant que vous continuez à ajouter des fonctionnalités. Par exemple, dans un fichier qui contient déjà trois appels à la fonction native
fetch, elles proposeront soudain, sans raison, d’installer et d’utiliseraxiosElles peuvent aussi supprimer des parties comme
{/* rest of your functions here*}Au bout d’un moment, on ne peut les utiliser en toute sécurité que pour des tâches ennuyeuses comme des boucles ou des
switch, donc les emplois de développeurs semblent encore à l’abri pour un momentL’article affirme que les LLM réduisent le partage public de connaissances, et que l’effet ne se limite pas au remplacement de contenus redondants, de faible qualité ou de niveau débutant, mais l’argument est faible et l’effet n’est pas aussi sensationnel que le titre
Premièrement, pour le test proposé selon lequel les LLM remplaceraient les publications de faible qualité, ils ne montrent que la Figure 3 et ne présentent pas les résultats de régression. En revanche, ils rapportent un test fondé sur une classification arbitraire de l’expérience utilisateur, du type : si un utilisateur a publié 10 fois, il est expérimenté. On peut se demander pourquoi ils omettent le test par qualité de publication mais montrent les résultats de catégories d’« expérience » arbitraires
Deuxièmement, la Figure 3 elle-même montre les changements de tendance pour les bonnes questions et les questions neutres. Les bonnes questions étaient en baisse puis se sont stabilisées, tandis que les questions neutres étaient en hausse puis se sont stabilisées. Les mauvaises questions continuent de diminuer sans changement de tendance notable. Cela suggère plutôt la conclusion inverse : les LLM remplacent les contenus de faible qualité
La conclusion avait besoin d’une formulation plus forte, et la recherche ne récompense pas bien les résultats soigneux mais peu surprenants. D’où l’impression d’un titre sensationnaliste et de résultats qui semblent avoir été en partie omis
Les gens ne partagent plus librement l’information sur des forums publics comme avant ; ils se replient sur des services comme Discord, creusent des douves et lèvent le pont-levis. Difficile de leur en vouloir. Beaucoup de forums et de réseaux sociaux adoptent des conceptions et des modes de monétisation de plus en plus hostiles, tandis que l’IA/les LLM crawlent partout, aspirent tout, puis placent le résultat derrière un paywall, en réduisant les chances que la source originale soit trouvée via la recherche. Les algorithmes qui cherchent l’engagement amplifient les invectives et les polémiques. HN est aujourd’hui une rare exception
Au final, des personnes partageant un intérêt ou un savoir spécifique se regroupent dans des communautés privées et ne parlent qu’entre elles, ce qui rend l’environnement plus difficile pour les nouveaux arrivants
Il est naturel que les gens réduisent leurs contributions gratuites à Stack Overflow. Stack Overflow vend ses contributeurs avec son contrat d’API OpenAI et ses innombrables billets de blog exagérés sur l’« IA »
Personnellement, une grande partie des questions liées aux projets open source s’est déplacée vers GitHub et Discord, et il y a donc aussi un déplacement de plateforme en plus des LLM
Pour les problèmes de programmation plus généraux, j’ai tendance à commencer par Gemini. Il me répond directement dans les termes de mon problème, ce qui m’évite de parcourir plusieurs pages pour assembler une solution ; et même quand il se trompe, il me donne souvent de meilleurs indices pour lancer une recherche. Cela m’épargne de cliquer plusieurs fois sur des posts Stack Overflow dont le titre est similaire mais dont le contenu diffère sur des points importants
2024 : Discord est bien parce qu’il n’est pas indexé par les générateurs de bouillie IA
Je suis abonné à plusieurs subreddits techniques, et ces deux dernières années, j’ai souvent vu les mêmes questions postées en rafale sur plusieurs subreddits. Les comptes viennent d’être créés, ou bien toutes les réponses sont des réponses génériques d’une ligne qui semblent générées automatiquement.
Je pars du principe que ce sont des comptes bots destinés à l’entraînement de l’IA, et avant d’écrire une longue explication technique, je vérifie d’abord si c’est bien une vraie personne qui pose la question ; je ne réponds qu’ensuite.
Au bout du compte, le succès de la « culture du don » via le WWW, de « la connaissance doit être libre », du F/OSS, etc., risque de donner une mauvaise image de l’ensemble de l’éthique hacker à la Stallman.
Nous travaillons tous pour IBM^H^H^HOpenAI, mais désormais il n’y a plus rien comme la GPL pour nous soutenir.
Si vous avez une impression de déjà-vu, c’est que le sujet avait déjà été largement mis en avant par des critiques en juillet 2023 avec « Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow » : https://arxiv.org/abs/2307.07367
Cela avait aussi été discuté sur HN : https://news.ycombinator.com/item?id=36763718
Voir aussi, sur le même thème, https://meta.stackoverflow.com/questions/425635 et https://meta.stackoverflow.com/questions/422392
Au final, les grands modèles de langage seront la fin de l’open source. Il faut l’accepter.
Les grands modèles de langage servent à agréger et interpoler de la propriété intellectuelle. Dans ce processus, il n’y a ni reconnaissance des auteurs ou de la filiation, ni attribution ou citation des sources. De fait, la propriété intellectuelle utilisée pour entraîner les modèles devient un bien commun anonyme.
Les récompenses sociales qui motivent souvent le travail open source, comme le crédit et le respect, s’en trouvent affaiblies. Et c’est comme ça que cela se terminera.
Le coût de contribution baisse de façon spectaculaire. Par exemple, 100 dollars représentent 200 millions de tokens GPT-3.5, soit 10 000 tokens consacrés au développement de chaque ligne d’un projet de 20 000 lignes.
C’est un projet de taille moyenne réalisable avec un seul don et une demi-journée de gestion d’un framework de workflow.
Si les LLM sont la fin de l’open source, ce serait pour la raison exacte que vous donnez : ils agrègent et interpolent de la propriété intellectuelle, et transforment la propriété intellectuelle apprise, sans auteurs, filiation ni attribution des sources, en bien commun anonyme.
Mais si c’est vrai et que cela continue d’être autorisé, alors toute propriété intellectuelle reposant sur le droit d’auteur est menacée de la même manière. Ce n’est pas un problème propre à l’open source. Si l’idée est que les œuvres non open source sont protégées en gardant secret le « source » ou son équivalent, je ne vois pas comment gagner de l’argent avec un blockbuster que personne ne peut voir, ou un roman qu’il faudrait empêcher quiconque de lire.
Le crédit et le respect ne sont pas les seules motivations du travail open source, et je doute même que ce soient les plus courantes. Ces récompenses correspondent plutôt à l’image que veulent projeter les acteurs qui cherchent à transformer l’open source en réseau social ou à le gamifier.
On ne voit pas non plus clairement pourquoi ces choses devraient disparaître. L’invention de l’appareil photo n’a pas supprimé le plaisir artistique des portraitistes. Les motivations purement financières peuvent être touchées, mais elles sont loin d’être propres à l’open source.
Vouloir garder en jardin clos les corpus de textes produits par des humains, devenus précieux pour l’entraînement des LLM, est une bataille perdue. Il est très probable que le cheval ait déjà quitté l’écurie
Cela dit, je vois ça comme un problème temporaire. Les LLM sont une technologie de transition. Un jour, il ne sera plus nécessaire d’entraîner un modèle sur tout Reddit et sur tout ce qui a jamais été écrit. Ces modèles statistiques ont des limites évidentes, et les humains n’apprennent pas comme ça. On a peut-être lu des centaines, voire des milliers de livres au cours d’une vie, mais pas un million, et ce n’est pas nécessaire
Ce qui est intéressant, c’est que même si ce sujet relève clairement du vol, il est traité comme un vol envers les sites ou les entreprises qui « possèdent » les données, et non envers les utilisateurs qui les ont créées. Les sites de contenu généré par les utilisateurs sont voués à l’échec. Leurs motivations ne sont pas alignées avec celles des utilisateurs, et la quête sans fin du profit finit inévitablement par les faire partir
Un autre problème est de savoir quelle quantité de propriété intellectuelle il faut consommer pour que cela devienne du vol. Si un LLM a vu tous les films jamais réalisés, c’est probablement du vol. Mais à partir de combien de films est-ce trop ? Apocalypse Now est librement basé sur Heart of Darkness, ou s’en inspire, mais on ne peut pas dire qu’un humain qui a lu Heart of Darkness ait commis un « vol »
Comme on dit, tout art est dérivé
Ils peuvent créer de la poésie et de la littérature, et générer de façon comparable du code, des réponses en physique ou des réponses sur la réparation automobile. De nos jours, les humains capables de faire cela sont très rares
Donc je suis d’accord pour dire que les LLM sont transitoires, mais au même sens que la transition du cerveau, des ganglions de la base au néocortex. Les cerveaux d’IA générale du futur intégreront très probablement des LLM aux côtés d’autres composants, mais il n’est pas évident qu’ils évolueront nécessairement pour fonctionner comme le cerveau humain
Un LLM peut apprendre la documentation officielle d’un outil ou d’une bibliothèque, mais il ne peut pas expérimenter lui-même sur ces problèmes étranges si courants dans l’industrie tech pour en trouver les solutions. Si les gens cessent de partager ces solutions entre eux, cela peut devenir un gros problème
Par exemple, je me demande s’il serait possible d’entraîner une IA, avec de l’apprentissage par renforcement et des réseaux antagonistes génératifs, à accomplir des tâches IT à partir d’un ensemble de documents, en mesurant son fitness non seulement sur la réussite directe de la tâche, mais aussi sur sa capacité à produire une nouvelle documentation mieux affinée, qui permettrait à une copie d’elle-même totalement dépourvue de contexte d’accomplir correctement cette même tâche
Entendre différents gourous spirituels exprimer la même chose avec des mots différents ressemble un peu au fait de regarder les mêmes morceaux de verre coloré se réagencer dans un kaléidoscope pour former un nouveau motif
Donc si les IA du futur sont utilisées comme ChatGPT aujourd’hui, c’est-à-dire par des personnes ordinaires pour demander des conseils sur presque tout, je pense qu’elles devront finalement tout lire
Les gens ne publient pas dans des endroits qu’ils ne visitent pas
Si l’on ne va plus sur Stack Overflow pour des ressources bien connues, surtout dans les langages populaires, c’est parce que perplexity.ai, ChatGPT, Claude, etc., ne se contentent pas de mieux répondre aux questions que la lecture des pages Stack Overflow : ils permettent aussi de copier-coller une réponse plus vite, qu’elle soit juste ou fausse
Si l’on n’est pas sur Stack Overflow pour poser des questions, on ne va pas non plus y répondre. Aucun autre facteur n’est nécessaire pour expliquer les observations
Bien sûr, cela signifie que si Stack Overflow et les autres forums de Q&R veulent rester compétitifs, ils doivent faire de l’utilisabilité des réponses — c’est-à-dire la facilité d’intégration de la réponse dans le flux de travail — leur priorité absolue
L’IA ne « répond pas mieux aux questions ». Elle se contente de supprimer l’étape intermédiaire qui consiste à interpréter la question et à la faire correspondre à des mots ayant la forme d’une réponse. Elle hallucine souvent et ne fait pratiquement aucune vérification de validité sur ce qu’on essaie de faire
La principale raison pour laquelle elle est avantagée face aux forums de Q&R en vitesse et en confort, c’est qu’elle ne se soucie absolument pas de savoir si la question et la réponse pourront aider quelqu’un d’autre plus tard. Elle ne prend pas en compte le fait qu’elles doivent être découvrables via les moteurs de recherche, compréhensibles par quelqu’un d’autre comme étant la même question, et centrées sur un seul problème
Elle n’a pas été conçue pour cela au départ, et elle n’a aucun intérêt à le faire. Quand la personne suivante posera la question, elle générera simplement à nouveau le même contenu de réponse sous une autre forme de faible qualité. Contrairement à un expert humain, l’IA ne se lasse pas de cette tâche