Les grands modèles de langage réduisent le partage de connaissances publiques sur les plateformes de Q&R en ligne

(academic.oup.com)

2 points par GN⁺ 2024-10-14 | 1 commentaires | Partager sur WhatsApp

Résumé

Impact des grands modèles de langage (LLM)
Les grands modèles de langage (LLM) peuvent se substituer aux données produites par les humains et aux ressources de connaissance. Mais cette substitution soulève un problème : elle pourrait entraîner une baisse des données d’entraînement nécessaires au développement des futurs modèles. Cette étude documente ainsi un recul de l’activité sur Stack Overflow après le lancement de ChatGPT.
Impact de ChatGPT
Dans les six mois suivant le lancement de ChatGPT, l’activité sur Stack Overflow a diminué de 25 % par rapport à des plateformes similaires en Russie et en Chine ainsi qu’à des forums de mathématiques. Cela est interprété comme une borne inférieure du véritable impact de ChatGPT sur Stack Overflow. La baisse est plus marquée pour les publications liées aux langages de programmation les plus utilisés.
Effet de substitution des LLM
Les LLM remplacent non seulement les contenus redondants ou de faible qualité, mais aussi les contenus de haute qualité. Les utilisateurs de ChatGPT sont moins susceptibles de publier sur Stack Overflow et ne visitent pas régulièrement la plateforme. Cela suggère que l’adoption rapide des LLM pourrait réduire la production de données publiques nécessaires à leur entraînement, avec des conséquences importantes.
Impact selon les langages de programmation
L’impact de ChatGPT est plus important pour les langages largement utilisés comme Python et JavaScript. Pour certains langages spécifiques comme CUDA, le nombre de publications a augmenté après le lancement de ChatGPT. Cela montre l’intérêt croissant pour les logiciels liés à l’IA.

Le récapitulatif de GN⁺

Cette étude met en avant l’impact négatif de l’adoption rapide de l’IA sur la production de données publiques, en analysant les effets de grands modèles de langage comme ChatGPT sur les plateformes de Q&R en ligne.
À mesure que l’usage de ChatGPT augmente, l’activité sur des plateformes comme Stack Overflow diminue, ce qui pourrait affecter la qualité des données d’entraînement des futurs modèles d’IA.
Ces évolutions pourraient avoir des conséquences importantes sur l’économie numérique et les modes d’accès à l’information, tout en soulevant des inquiétudes sur la durabilité de l’écosystème de l’IA.
Parmi d’autres projets aux fonctions similaires, on trouve les dépôts GitHub liés aux langages de programmation.

1 commentaires

GN⁺ 2024-10-14

Avis sur Hacker News

Au fond, le problème est de savoir sur quoi les LLM vont s’appuyer. Ils ne créent pas de nouvelles informations, ils régurgitent et recombinent des informations existantes ; donc, pour du code où les exemples publics ou les réponses Stack Overflow/Reddit ne suffisent pas, leurs performances chutent fortement
- À titre de référence, GPT o1 m’a aidé à résoudre un cas d’utilisation assez complexe de epub.js, une bibliothèque open source dont la documentation est opaque et qui a peu d’exemples publics
  Il a fallu plusieurs échanges pour arriver à une solution fonctionnelle, mais on y est finalement parvenu, et je me demande si l’IA a bien trouvé et assimilé des ressources obscures sur Internet, ou si elle a simplement mieux compris que moi une documentation difficile. Si c’est la seconde hypothèse, le besoin d’exemples publics pourrait diminuer
- Le fait que les LLM ne sachent pas tout pourrait avoir un effet secondaire intéressant : moins de gens se lanceront à l’aveugle dans la création de nouveaux langages de programmation et frameworks
  On penche déjà vers les technologies que les LLM maîtrisent bien, et l’avantage de pouvoir laisser un LLM résoudre 90 % du problème dépasse celui d’un langage ou framework légèrement meilleur. Je n’aime pas beaucoup Python comme langage, mais il est difficile de nier que les LLM s’en sortent bien mieux en Python que dans beaucoup d’autres langages
- Contrairement à l’idée selon laquelle ils « ne créent pas de nouvelles informations », l’essentiel du partage de connaissances sur les plateformes de Q&R en ligne n’est pas une activité créative. En dehors des développeurs du système eux-mêmes, tout le monde pose sans cesse les mêmes questions sur les mêmes problèmes, et une bonne partie consiste à remplacer une plateforme de recherche
- Ce sur quoi les LLM peuvent s’appuyer, ce sont les documentations officielles
  J’invente le chiffre, mais il est défendable : 90 % des informations sur Stack Overflow sont des répétitions de manuels trouvables quelque part. Le problème, c’est qu’il est souvent difficile de trouver l’information voulue dans la documentation pertinente, et même une fois trouvée, elle est souvent difficile à lire ; or les LLM sont très bons pour lire et comprendre la documentation
- Les LLM oscillent vaguement entre l’ancienne et la nouvelle façon de faire, et plus le code spaghetti de LLM grossit, moins ils sont capables d’ajouter précisément des fonctionnalités sans casser la logique existante
  Les démos techniques qui créent instantanément une app entière avec un ou deux prompts sont fragiles. Si vous ne savez pas ce qu’elles font, elles changeront sans cesse la manière d’appeler les API, la gestion d’état ou la bibliothèque CSS pendant que vous continuez à ajouter des fonctionnalités. Par exemple, dans un fichier qui contient déjà trois appels à la fonction native fetch, elles proposeront soudain, sans raison, d’installer et d’utiliser axios
  Elles peuvent aussi supprimer des parties comme {/* rest of your functions here*}
  Au bout d’un moment, on ne peut les utiliser en toute sécurité que pour des tâches ennuyeuses comme des boucles ou des switch, donc les emplois de développeurs semblent encore à l’abri pour un moment
L’article affirme que les LLM réduisent le partage public de connaissances, et que l’effet ne se limite pas au remplacement de contenus redondants, de faible qualité ou de niveau débutant, mais l’argument est faible et l’effet n’est pas aussi sensationnel que le titre
Premièrement, pour le test proposé selon lequel les LLM remplaceraient les publications de faible qualité, ils ne montrent que la Figure 3 et ne présentent pas les résultats de régression. En revanche, ils rapportent un test fondé sur une classification arbitraire de l’expérience utilisateur, du type : si un utilisateur a publié 10 fois, il est expérimenté. On peut se demander pourquoi ils omettent le test par qualité de publication mais montrent les résultats de catégories d’« expérience » arbitraires
Deuxièmement, la Figure 3 elle-même montre les changements de tendance pour les bonnes questions et les questions neutres. Les bonnes questions étaient en baisse puis se sont stabilisées, tandis que les questions neutres étaient en hausse puis se sont stabilisées. Les mauvaises questions continuent de diminuer sans changement de tendance notable. Cela suggère plutôt la conclusion inverse : les LLM remplacent les contenus de faible qualité
La conclusion avait besoin d’une formulation plus forte, et la recherche ne récompense pas bien les résultats soigneux mais peu surprenants. D’où l’impression d’un titre sensationnaliste et de résultats qui semblent avoir été en partie omis
- Ce n’est pas exactement le sujet de cet article, mais quelqu’un sur HN avait autrefois bien formulé un phénomène similaire. Internet se balkanise. Ce n’est pas un concept nouveau, mais il s’applique particulièrement bien quand on se concentre sur les communautés en ligne
  Les gens ne partagent plus librement l’information sur des forums publics comme avant ; ils se replient sur des services comme Discord, creusent des douves et lèvent le pont-levis. Difficile de leur en vouloir. Beaucoup de forums et de réseaux sociaux adoptent des conceptions et des modes de monétisation de plus en plus hostiles, tandis que l’IA/les LLM crawlent partout, aspirent tout, puis placent le résultat derrière un paywall, en réduisant les chances que la source originale soit trouvée via la recherche. Les algorithmes qui cherchent l’engagement amplifient les invectives et les polémiques. HN est aujourd’hui une rare exception
  Au final, des personnes partageant un intérêt ou un savoir spécifique se regroupent dans des communautés privées et ne parlent qu’entre elles, ce qui rend l’environnement plus difficile pour les nouveaux arrivants
- Si les LLM aident suffisamment bien les codeurs pour que les gens passent moins de temps sur Stack Overflow et poussent à la place davantage de code open source, cela pourrait être plus précieux pour tout le monde
Il est naturel que les gens réduisent leurs contributions gratuites à Stack Overflow. Stack Overflow vend ses contributeurs avec son contrat d’API OpenAI et ses innombrables billets de blog exagérés sur l’« IA »
- Je ne pense pas que ce soit la raison principale. Les gens ne se soucient pas vraiment du fait que quelqu’un vende ce qu’ils ont créé sur une plateforme. Les grands réseaux sociaux comme Facebook le font depuis des années et restent utilisés. On vient sur Stack Overflow pour obtenir une réponse ; pourquoi se soucier du fait que quelqu’un entraîne plus tard un LLM avec cette réponse ?
- Cela ressemble davantage à une baisse des questions qu’à une baisse des réponses
- La période d’analyse va jusqu’en mai 2023, soit un an avant le contrat OpenAI. Ce contrat n’a rien à voir avec les résultats de l’article
- Cela s’ajoute à une tendance de long terme déjà présente depuis environ 2014. Les frustrations n’ont cessé de croître au sujet de la qualité et de la nature des questions : des questions qui ne suivent pas les consignes du site et dont les auteurs ne font pas vraiment l’effort de comprendre comment le site est censé fonctionner
Personnellement, une grande partie des questions liées aux projets open source s’est déplacée vers GitHub et Discord, et il y a donc aussi un déplacement de plateforme en plus des LLM
Pour les problèmes de programmation plus généraux, j’ai tendance à commencer par Gemini. Il me répond directement dans les termes de mon problème, ce qui m’évite de parcourir plusieurs pages pour assembler une solution ; et même quand il se trompe, il me donne souvent de meilleurs indices pour lancer une recherche. Cela m’épargne de cliquer plusieurs fois sur des posts Stack Overflow dont le titre est similaire mais dont le contenu diffère sur des points importants
- 2022 : Discord est nul parce qu’il n’est pas indexé par les moteurs de recherche
  2024 : Discord est bien parce qu’il n’est pas indexé par les générateurs de bouillie IA
- J’ai exactement vécu la même chose avec les questions de projets open source qui se déplacent vers GitHub et Discord. En plus, c’était agréable de pouvoir parler directement aux mainteneurs
Je suis abonné à plusieurs subreddits techniques, et ces deux dernières années, j’ai souvent vu les mêmes questions postées en rafale sur plusieurs subreddits. Les comptes viennent d’être créés, ou bien toutes les réponses sont des réponses génériques d’une ligne qui semblent générées automatiquement.
Je pars du principe que ce sont des comptes bots destinés à l’entraînement de l’IA, et avant d’écrire une longue explication technique, je vérifie d’abord si c’est bien une vraie personne qui pose la question ; je ne réponds qu’ensuite.
- Quoi qu’il en soit, ça aide à l’entraînement.
  Au bout du compte, le succès de la « culture du don » via le WWW, de « la connaissance doit être libre », du F/OSS, etc., risque de donner une mauvaise image de l’ensemble de l’éthique hacker à la Stallman.
  Nous travaillons tous pour IBM^H^H^HOpenAI, mais désormais il n’y a plus rien comme la GPL pour nous soutenir.
Si vous avez une impression de déjà-vu, c’est que le sujet avait déjà été largement mis en avant par des critiques en juillet 2023 avec « Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow » : https://arxiv.org/abs/2307.07367
Cela avait aussi été discuté sur HN : https://news.ycombinator.com/item?id=36763718
- La discussion meta de Stack Overflow elle-même à ce sujet vaut aussi le détour : https://meta.stackoverflow.com/questions/425651
  Voir aussi, sur le même thème, https://meta.stackoverflow.com/questions/425635 et https://meta.stackoverflow.com/questions/422392
Au final, les grands modèles de langage seront la fin de l’open source. Il faut l’accepter.
Les grands modèles de langage servent à agréger et interpoler de la propriété intellectuelle. Dans ce processus, il n’y a ni reconnaissance des auteurs ou de la filiation, ni attribution ou citation des sources. De fait, la propriété intellectuelle utilisée pour entraîner les modèles devient un bien commun anonyme.
Les récompenses sociales qui motivent souvent le travail open source, comme le crédit et le respect, s’en trouvent affaiblies. Et c’est comme ça que cela se terminera.
- Pourquoi n’écrirait-on pas davantage d’open source avec des LLM ?
  Le coût de contribution baisse de façon spectaculaire. Par exemple, 100 dollars représentent 200 millions de tokens GPT-3.5, soit 10 000 tokens consacrés au développement de chaque ligne d’un projet de 20 000 lignes.
  C’est un projet de taille moyenne réalisable avec un seul don et une demi-journée de gestion d’un framework de workflow.
- Je ne comprends pas ce point de vue.
  Si les LLM sont la fin de l’open source, ce serait pour la raison exacte que vous donnez : ils agrègent et interpolent de la propriété intellectuelle, et transforment la propriété intellectuelle apprise, sans auteurs, filiation ni attribution des sources, en bien commun anonyme.
  Mais si c’est vrai et que cela continue d’être autorisé, alors toute propriété intellectuelle reposant sur le droit d’auteur est menacée de la même manière. Ce n’est pas un problème propre à l’open source. Si l’idée est que les œuvres non open source sont protégées en gardant secret le « source » ou son équivalent, je ne vois pas comment gagner de l’argent avec un blockbuster que personne ne peut voir, ou un roman qu’il faudrait empêcher quiconque de lire.
  Le crédit et le respect ne sont pas les seules motivations du travail open source, et je doute même que ce soient les plus courantes. Ces récompenses correspondent plutôt à l’image que veulent projeter les acteurs qui cherchent à transformer l’open source en réseau social ou à le gamifier.
  On ne voit pas non plus clairement pourquoi ces choses devraient disparaître. L’invention de l’appareil photo n’a pas supprimé le plaisir artistique des portraitistes. Les motivations purement financières peuvent être touchées, mais elles sont loin d’être propres à l’open source.
- Non, ce n’est pas ça : cela ne fera que rendre l’open source déjà suffisamment de niche encore plus de niche.
Vouloir garder en jardin clos les corpus de textes produits par des humains, devenus précieux pour l’entraînement des LLM, est une bataille perdue. Il est très probable que le cheval ait déjà quitté l’écurie
Cela dit, je vois ça comme un problème temporaire. Les LLM sont une technologie de transition. Un jour, il ne sera plus nécessaire d’entraîner un modèle sur tout Reddit et sur tout ce qui a jamais été écrit. Ces modèles statistiques ont des limites évidentes, et les humains n’apprennent pas comme ça. On a peut-être lu des centaines, voire des milliers de livres au cours d’une vie, mais pas un million, et ce n’est pas nécessaire
Ce qui est intéressant, c’est que même si ce sujet relève clairement du vol, il est traité comme un vol envers les sites ou les entreprises qui « possèdent » les données, et non envers les utilisateurs qui les ont créées. Les sites de contenu généré par les utilisateurs sont voués à l’échec. Leurs motivations ne sont pas alignées avec celles des utilisateurs, et la quête sans fin du profit finit inévitablement par les faire partir
Un autre problème est de savoir quelle quantité de propriété intellectuelle il faut consommer pour que cela devienne du vol. Si un LLM a vu tous les films jamais réalisés, c’est probablement du vol. Mais à partir de combien de films est-ce trop ? Apocalypse Now est librement basé sur Heart of Darkness, ou s’en inspire, mais on ne peut pas dire qu’un humain qui a lu Heart of Darkness ait commis un « vol »
Comme on dit, tout art est dérivé
- Je suis d’accord, mais on accorde peut-être trop de privilèges à la façon dont fonctionne l’intelligence humaine. Les LLM sont des érudits capables de produire du contenu à une vitesse surhumaine
  Ils peuvent créer de la poésie et de la littérature, et générer de façon comparable du code, des réponses en physique ou des réponses sur la réparation automobile. De nos jours, les humains capables de faire cela sont très rares
  Donc je suis d’accord pour dire que les LLM sont transitoires, mais au même sens que la transition du cerveau, des ganglions de la base au néocortex. Les cerveaux d’IA générale du futur intégreront très probablement des LLM aux côtés d’autres composants, mais il n’est pas évident qu’ils évolueront nécessairement pour fonctionner comme le cerveau humain
- Les forums en ligne sont parfois le seul endroit où trouver des solutions à des situations de niche et des cas limites. Des astuces qu’il aurait été très difficile de découvrir seul
  Un LLM peut apprendre la documentation officielle d’un outil ou d’une bibliothèque, mais il ne peut pas expérimenter lui-même sur ces problèmes étranges si courants dans l’industrie tech pour en trouver les solutions. Si les gens cessent de partager ces solutions entre eux, cela peut devenir un gros problème
- Je réfléchis beaucoup ces temps-ci à l’idée que « les humains n’apprennent pas comme ça »
  Par exemple, je me demande s’il serait possible d’entraîner une IA, avec de l’apprentissage par renforcement et des réseaux antagonistes génératifs, à accomplir des tâches IT à partir d’un ensemble de documents, en mesurant son fitness non seulement sur la réussite directe de la tâche, mais aussi sur sa capacité à produire une nouvelle documentation mieux affinée, qui permettrait à une copie d’elle-même totalement dépourvue de contexte d’accomplir correctement cette même tâche
- Quand je pense à des livres comme “Finite and Infinite Games”, j’ai l’impression qu’on peut dans une certaine mesure « reconstruire » les connaissances et les thèses centrales de ce livre simplement à partir de lectures dans d’autres domaines
  Entendre différents gourous spirituels exprimer la même chose avec des mots différents ressemble un peu au fait de regarder les mêmes morceaux de verre coloré se réagencer dans un kaléidoscope pour former un nouveau motif
- À moitié seulement. Le raisonnement et la compréhension réelle ne sont peut-être pas les points forts des LLM, mais leur capacité à produire de bonnes informations à partir de tout ce qu’ils ont lu est intéressante. Moi, je n’en ai lu qu’une infime partie. Ils peuvent être idiots, mais ils ont une bonne mémoire
  Donc si les IA du futur sont utilisées comme ChatGPT aujourd’hui, c’est-à-dire par des personnes ordinaires pour demander des conseils sur presque tout, je pense qu’elles devront finalement tout lire
Les gens ne publient pas dans des endroits qu’ils ne visitent pas
Si l’on ne va plus sur Stack Overflow pour des ressources bien connues, surtout dans les langages populaires, c’est parce que perplexity.ai, ChatGPT, Claude, etc., ne se contentent pas de mieux répondre aux questions que la lecture des pages Stack Overflow : ils permettent aussi de copier-coller une réponse plus vite, qu’elle soit juste ou fausse
Si l’on n’est pas sur Stack Overflow pour poser des questions, on ne va pas non plus y répondre. Aucun autre facteur n’est nécessaire pour expliquer les observations
Bien sûr, cela signifie que si Stack Overflow et les autres forums de Q&R veulent rester compétitifs, ils doivent faire de l’utilisabilité des réponses — c’est-à-dire la facilité d’intégration de la réponse dans le flux de travail — leur priorité absolue
- Rivaliser avec l’IA est explicitement un non-objectif pour la communauté Stack Overflow et pour l’autre forum de Q&R que j’utilise, Codidact
  L’IA ne « répond pas mieux aux questions ». Elle se contente de supprimer l’étape intermédiaire qui consiste à interpréter la question et à la faire correspondre à des mots ayant la forme d’une réponse. Elle hallucine souvent et ne fait pratiquement aucune vérification de validité sur ce qu’on essaie de faire
  La principale raison pour laquelle elle est avantagée face aux forums de Q&R en vitesse et en confort, c’est qu’elle ne se soucie absolument pas de savoir si la question et la réponse pourront aider quelqu’un d’autre plus tard. Elle ne prend pas en compte le fait qu’elles doivent être découvrables via les moteurs de recherche, compréhensibles par quelqu’un d’autre comme étant la même question, et centrées sur un seul problème
  Elle n’a pas été conçue pour cela au départ, et elle n’a aucun intérêt à le faire. Quand la personne suivante posera la question, elle générera simplement à nouveau le même contenu de réponse sous une autre forme de faible qualité. Contrairement à un expert humain, l’IA ne se lasse pas de cette tâche

Les grands modèles de langage réduisent le partage de connaissances publiques sur les plateformes de Q&R en ligne

Résumé

Le récapitulatif de GN⁺

À lire aussi

1 commentaires

Avis sur Hacker News