2 points par GN⁺ 2024-10-14 | 1 commentaires | Partager sur WhatsApp

Résumé

  • Impact des grands modèles de langage (LLM)
    Les grands modèles de langage (LLM) peuvent se substituer aux données produites par les humains et aux ressources de connaissance. Mais cette substitution soulève un problème : elle pourrait entraîner une baisse des données d’entraînement nécessaires au développement des futurs modèles. Cette étude documente ainsi un recul de l’activité sur Stack Overflow après le lancement de ChatGPT.

  • Impact de ChatGPT
    Dans les six mois suivant le lancement de ChatGPT, l’activité sur Stack Overflow a diminué de 25 % par rapport à des plateformes similaires en Russie et en Chine ainsi qu’à des forums de mathématiques. Cela est interprété comme une borne inférieure du véritable impact de ChatGPT sur Stack Overflow. La baisse est plus marquée pour les publications liées aux langages de programmation les plus utilisés.

  • Effet de substitution des LLM
    Les LLM remplacent non seulement les contenus redondants ou de faible qualité, mais aussi les contenus de haute qualité. Les utilisateurs de ChatGPT sont moins susceptibles de publier sur Stack Overflow et ne visitent pas régulièrement la plateforme. Cela suggère que l’adoption rapide des LLM pourrait réduire la production de données publiques nécessaires à leur entraînement, avec des conséquences importantes.

  • Impact selon les langages de programmation
    L’impact de ChatGPT est plus important pour les langages largement utilisés comme Python et JavaScript. Pour certains langages spécifiques comme CUDA, le nombre de publications a augmenté après le lancement de ChatGPT. Cela montre l’intérêt croissant pour les logiciels liés à l’IA.

Le récapitulatif de GN⁺

  • Cette étude met en avant l’impact négatif de l’adoption rapide de l’IA sur la production de données publiques, en analysant les effets de grands modèles de langage comme ChatGPT sur les plateformes de Q&R en ligne.
  • À mesure que l’usage de ChatGPT augmente, l’activité sur des plateformes comme Stack Overflow diminue, ce qui pourrait affecter la qualité des données d’entraînement des futurs modèles d’IA.
  • Ces évolutions pourraient avoir des conséquences importantes sur l’économie numérique et les modes d’accès à l’information, tout en soulevant des inquiétudes sur la durabilité de l’écosystème de l’IA.
  • Parmi d’autres projets aux fonctions similaires, on trouve les dépôts GitHub liés aux langages de programmation.

1 commentaires

 
GN⁺ 2024-10-14
Avis Hacker News
  • Les LLM ont le problème de ne pas générer de nouvelles informations, mais de recombiner l’existant. Leurs performances sont médiocres lorsqu’il manque des exemples de code.

    • Si personne ne pose de questions sur des plateformes comme Stack Overflow, il n’y aura plus non plus de réponses.
    • Les forums de questions-réponses comme Stack Overflow devraient améliorer l’intégration des réponses dans le flux de travail des utilisateurs.
  • Des doutes sont exprimés sur l’affirmation selon laquelle les LLM réduisent le partage public des connaissances.

    • Les données présentées ne sont pas suffisamment solides.
    • Les bonnes questions sont passées d’une baisse à une stabilisation, et les questions neutres d’une hausse à une stabilisation.
    • Les mauvaises questions continuent de diminuer, ce qui suggère que les LLM remplacent le contenu de faible qualité.
  • Les questions sur les projets open source se déplacent vers GitHub et Discord.

    • Les LLM font gagner du temps.
  • La baisse des contributions gratuites sur Stack Overflow s’explique par le contrat API avec OpenAI et par les billets de blog liés à l’IA.

  • Une fois l’AGI atteinte, les LLM diront : "cette conversation a été marquée comme doublon".

  • Les LLM peuvent réduire l’étendue des connaissances et du débat.

    • Quand on demande une blague à un LLM, il a tendance à répéter les mêmes.
  • La diminution des interactions techniques pourrait aussi avoir un impact sur les interactions dans le monde réel.

    • Des questions sont soulevées sur la manière de comparer les conseils d’une IA et ceux d’un humain.
  • Les LLM apprennent à partir des plateformes de Q&R en ligne, mais si les gens cessent de poser des questions et d’y répondre, les sources de connaissance risquent d’être contaminées par des données de LLM inexactes.

  • Il pourrait être nécessaire d’avoir des agents qui contribuent automatiquement à Stack Overflow et attribuent automatiquement des upvotes aux solutions.