Les grands modèles de langage réduisent le partage de connaissances publiques sur les plateformes de Q&R en ligne
(academic.oup.com)Résumé
-
Impact des grands modèles de langage (LLM)
Les grands modèles de langage (LLM) peuvent se substituer aux données produites par les humains et aux ressources de connaissance. Mais cette substitution soulève un problème : elle pourrait entraîner une baisse des données d’entraînement nécessaires au développement des futurs modèles. Cette étude documente ainsi un recul de l’activité sur Stack Overflow après le lancement de ChatGPT. -
Impact de ChatGPT
Dans les six mois suivant le lancement de ChatGPT, l’activité sur Stack Overflow a diminué de 25 % par rapport à des plateformes similaires en Russie et en Chine ainsi qu’à des forums de mathématiques. Cela est interprété comme une borne inférieure du véritable impact de ChatGPT sur Stack Overflow. La baisse est plus marquée pour les publications liées aux langages de programmation les plus utilisés. -
Effet de substitution des LLM
Les LLM remplacent non seulement les contenus redondants ou de faible qualité, mais aussi les contenus de haute qualité. Les utilisateurs de ChatGPT sont moins susceptibles de publier sur Stack Overflow et ne visitent pas régulièrement la plateforme. Cela suggère que l’adoption rapide des LLM pourrait réduire la production de données publiques nécessaires à leur entraînement, avec des conséquences importantes. -
Impact selon les langages de programmation
L’impact de ChatGPT est plus important pour les langages largement utilisés comme Python et JavaScript. Pour certains langages spécifiques comme CUDA, le nombre de publications a augmenté après le lancement de ChatGPT. Cela montre l’intérêt croissant pour les logiciels liés à l’IA.
Le récapitulatif de GN⁺
- Cette étude met en avant l’impact négatif de l’adoption rapide de l’IA sur la production de données publiques, en analysant les effets de grands modèles de langage comme ChatGPT sur les plateformes de Q&R en ligne.
- À mesure que l’usage de ChatGPT augmente, l’activité sur des plateformes comme Stack Overflow diminue, ce qui pourrait affecter la qualité des données d’entraînement des futurs modèles d’IA.
- Ces évolutions pourraient avoir des conséquences importantes sur l’économie numérique et les modes d’accès à l’information, tout en soulevant des inquiétudes sur la durabilité de l’écosystème de l’IA.
- Parmi d’autres projets aux fonctions similaires, on trouve les dépôts GitHub liés aux langages de programmation.
1 commentaires
Avis Hacker News
Les LLM ont le problème de ne pas générer de nouvelles informations, mais de recombiner l’existant. Leurs performances sont médiocres lorsqu’il manque des exemples de code.
Des doutes sont exprimés sur l’affirmation selon laquelle les LLM réduisent le partage public des connaissances.
Les questions sur les projets open source se déplacent vers GitHub et Discord.
La baisse des contributions gratuites sur Stack Overflow s’explique par le contrat API avec OpenAI et par les billets de blog liés à l’IA.
Une fois l’AGI atteinte, les LLM diront : "cette conversation a été marquée comme doublon".
Les LLM peuvent réduire l’étendue des connaissances et du débat.
La diminution des interactions techniques pourrait aussi avoir un impact sur les interactions dans le monde réel.
Les LLM apprennent à partir des plateformes de Q&R en ligne, mais si les gens cessent de poser des questions et d’y répondre, les sources de connaissance risquent d’être contaminées par des données de LLM inexactes.
Il pourrait être nécessaire d’avoir des agents qui contribuent automatiquement à Stack Overflow et attribuent automatiquement des upvotes aux solutions.