3 points par GN⁺ 19 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Stack Overflow a longtemps été l’espace de référence du Q&A pour les développeurs, mais après la généralisation d’assistants IA de codage comme ChatGPT, Cursor et Claude, le nombre de questions et le trafic ont fortement chuté
  • Le mois dernier, le nombre de questions est tombé à 6 866, un niveau comparable aux débuts du lancement en 2008, et Elon Musk a qualifié cela de « mort causée par les LLM »
  • Même si la participation au forum a reculé, le chiffre d’affaires annuel a presque doublé pour atteindre environ 115 millions de dollars, tandis que les pertes sont passées de 84 millions de dollars en FY2023 à 22 millions de dollars
  • Le modèle de revenus s’est déplacé d’une logique centrée sur la publicité vers des solutions d’entreprise et des licences de données, et Stack Internal est désormais utilisé par 25 000 entreprises dans le monde
  • Les questions des développeurs se déplacent vers des chats IA privés, ce qui réduit la création de nouvelles connaissances publiques, mais les LLM continuent malgré tout d’avoir besoin des données de Stack Overflow, créant ainsi une dynamique circulaire

Les assistants IA ont fait baisser le trafic de Stack Overflow

  • Stack Overflow a longtemps été le forum Q&A de référence où les développeurs venaient chercher de l’aide technique, et pendant la pandémie, son influence a atteint un niveau proche de son apogée grâce aux développeurs qui y trouvaient des informations utiles sur la durée
  • Avec la diffusion d’assistants IA de codage comme ChatGPT, Cursor, Claude, Google Gemini et Microsoft Copilot, le trafic du site a chuté brutalement
  • En juillet 2023, Elon Musk a décrit la situation de Stack Overflow comme une « mort causée par les LLM »
  • Le mois dernier, 6 866 questions ont été publiées sur Stack Overflow, soit un volume presque identique à celui observé au tout début de son lancement en 2008

Le forum décline, mais le chiffre d’affaires de l’entreprise résiste

  • Le forum Q&A de Stack Overflow s’est affaibli, mais l’entreprise tient bon en monétisant son immense stock de contenus historiques
  • Depuis l’arrivée de ChatGPT en 2022, la participation a fortement chuté, mais le chiffre d’affaires annuel de Stack Overflow a presque doublé pour atteindre environ 115 millions de dollars
  • Les pertes ont été réduites, passant de 84 millions de dollars en FY2023 à 22 millions de dollars sur le dernier exercice fiscal
  • De fortes réductions de coûts, comme des licenciements massifs, ont aussi contribué à améliorer la rentabilité
  • Contrairement à des hubs de connaissances comme Chegg, durement touchés par l’IA générative, Stack Overflow a réussi à transformer la valeur de ses anciens contenus en nouvelles sources de revenus

Passage de la publicité aux solutions d’entreprise et aux licences de données

  • Par le passé, Stack Overflow dépendait de la publicité liée à l’activité de son forum, mais sa principale source de revenus est aujourd’hui devenue les solutions d’entreprise
  • « Stack Internal » propose des fonctionnalités additionnelles d’IA générative reposant sur des millions de questions et réponses accumulées au fil des années
  • Stack Internal est utilisé par 25 000 entreprises dans le monde
  • Stack Overflow vend aussi des licences de données à des entreprises de l’IA, à l’image de Reddit
  • Reddit est cité comme une plateforme ayant gagné plus de 200 millions de dollars en 2024 grâce aux licences de contenus générés par ses utilisateurs

La valeur de la confiance construite par une ancienne communauté

  • Le nouveau créneau de Stack Overflow repose sur la confiance créée par son ancienne communauté et son expertise accumulée
  • Le CEO Prashanth Chandrasekar estimait début 2023 que la baisse du nombre de questions concernait surtout les questions très simples, tandis que les questions complexes continuaient d’être publiées sur Stack Overflow
  • Selon Chandrasekar, si les LLM ne valent que par la qualité des données sélectionnées par des humains, alors Stack Overflow pourrait être l’un des meilleurs endroits, voire le meilleur, dans le domaine technique
  • Les grands modèles de langage veulent des données sur les problèmes de programmation et leurs solutions, et Stack Overflow possède un immense entrepôt numérique de ce type de données

L’IA et le savoir des développeurs dans une dynamique circulaire

  • Les données de Stack Overflow sont importantes pour les LLM, mais à mesure que les questions des développeurs se déplacent vers des fenêtres de chat privées avec les LLM, la quantité de nouveaux échanges publics en questions-réponses diminue
  • Les LLM ont besoin de volumes massifs de données pour fonctionner, et les données de Stack Overflow constituent un actif capable de répondre à cette demande
  • En même temps, les données de Stack Overflow deviennent progressivement un actif vieillissant
  • Stack Overflow illustre une transformation circulaire de l’industrie technologique, dans laquelle l’IA affaiblit le partage public des connaissances entre développeurs tout en continuant à dépendre de ces mêmes connaissances publiques

1 commentaires

 
Avis sur Hacker News
  • On peut aussi se dire que sa disparition est méritée
    Moi aussi, comme beaucoup d’autres, je l’ai beaucoup utilisé et j’y ai souvent trouvé de l’aide, mais les problèmes culturels étaient devenus graves et n’ont jamais disparu
    La gamification a attiré des gens rigides, obsédés par les règles, qui semblaient souvent ne même pas se rendre compte qu’ils blessaient les autres
    Je comprends l’intention de vouloir de bonnes questions et des réponses utiles, mais cela ne justifie pas de maltraiter quelqu’un au prétexte qu’il a posé une « mauvaise » question. L’arrogance et le mépris cynique qu’on y voyait étaient pénibles à observer

    • « Comment faire ça avec Django 6 ? »
      Fermé : doublon de la question n°1234 d’août 2011, « Comment faire vaguement quelque chose de similaire avec Django 1.3 ? »
      Les modérateurs de ce site ont complètement supprimé le plaisir de l’interaction. Si vous gérez un site avec des modérateurs, il faut absolument les encadrer pour éviter qu’ils ne le transforment en Stack Overflow
    • Il est vrai qu’il y avait beaucoup de zélotes du règlement qui ont forgé cette réputation de SO, mais je ne sais pas si c’est pour ça qu’il est mort
      En tant que personne qui répondait souvent dans la file d’attente « New », la quantité de violations des règles, de questions sans effort et de doublons flagrants était stupéfiante
      Au final, 99 % des questions ne valaient pas la peine d’interagir avec elles, donc j’ai arrêté de répondre et je me suis contenté de voter pour les fermer avant de passer à autre chose
      À mes yeux, SO est mort parce qu’il est devenu trop célèbre et que la modération est devenue ingérable
    • Il y avait aussi une sorte de justicier sur le tag CUDA, avec dans son profil quelque chose comme ceci
      Autrefois, CUDA était une technologie émergente qui ouvrait des possibilités intéressantes pour le calcul scientifique et le calcul parallèle, et il y avait sur Stack Overflow beaucoup de questions intéressantes sur son utilisation. Il avait donc commencé à y répondre, avait fini par répondre à près de 700 questions, était devenu le contributeur à la meilleure réputation sur le tag CUDA, et cela lui avait beaucoup plu
      Mais à mesure que CUDA mûrissait, la plupart des bonnes questions avaient déjà été posées et avaient déjà reçu une réponse, et ce qui arrivait désormais sur Stack Overflow n’était en grande partie que des résidus ; il passait donc plus de temps à éditer, voter contre et fermer qu’à répondre
      Au bout du compte, la plupart des questions sur CUDA se faisaient downvoter puis supprimer. Étrangement, c’était le cas alors même que CUDA continuait d’évoluer
    • J’ai eu une impression similaire les quelques fois où j’ai posé des questions sur des subreddits Reddit
      Quand on traverse une période difficile dans sa vie et qu’on cherche de l’aide en ligne, c’est une expérience vraiment démotivante
    • Je pouvais supporter les règles agaçantes, l’impolitesse et même l’arrogance, mais la vraie ligne rouge a été quand le site a dégénéré en suppressionnisme littéral
      Désormais, ils ne se contentaient plus de fermer les questions : ils les supprimaient entièrement, même quand elles contenaient des informations utiles
      Je suis un jour retourné sur une ancienne question fermée pour retrouver un lien laissé dans les commentaires, et j’ai vu qu’un modérateur l’avait supprimée sans raison, alors qu’il y avait un vrai contenu
      C’est là que j’en ai eu définitivement assez, et que je me suis concentré sur mon propre domaine et mon propre site web ; si je republiais quelque chose là-bas, ce serait toujours uniquement sous forme de lien vers mon site. Histoire que leur suppressionnisme ne puisse pas l’atteindre
  • Stack Overflow est peut-être le meilleur réservoir de connaissances de l’humanité sur la programmation
    Mais son utilité me semble limitée au savoir accumulé. Comme service ou comme communauté, c’était déjà assez mauvais depuis longtemps
    Pour les nouveaux utilisateurs qui essayaient d’apprendre à programmer, c’était peut-être l’une des ressources les plus toxiques. Depuis 2019, je n’y ai presque plus jamais posté de question
    Ce qu’un utilisateur moyen pouvait espérer, c’était soit une réponse sèche de quelqu’un qui n’avait même pas vraiment lu le message, soit une suppression par un modérateur au motif qu’une question vaguement similaire existait, qu’il y ait ou non une réponse satisfaisante
    À partir d’un certain point, toutes les questions vraiment significatives avaient déjà été posées. Le site n’existait plus pour aider sur des variantes de problèmes existants, mais pour collecter de nouveaux problèmes
    On sous-estime aussi l’effet de l’uniformisation du secteur autour de quelques frameworks. Le fait que le pic de Stack Overflow coïncide avec l’ascension de React est assez révélateur

    • Au début, SO était optimisé pour que des humains aident d’autres humains
      Plus tard, il s’est optimisé pour l’ordre et la mise au carré, a ruiné le site, et dans le processus a particulièrement maltraité puis chassé les nouveaux utilisateurs
    • D’après mon expérience, StackExchange était assez accueillant pour les débutants
      Je postais parfois des questions simples de maths ou de statistiques sur math SE et stats SE, et j’obtenais des réponses précises en quelques heures, parfois même en quelques minutes
    • Comme pour Internet dans son ensemble, plus c’est devenu populaire, moins c’est devenu aimable
      Et il n’y avait aucun mécanisme pour préserver et récompenser la bienveillance
      Jeff Atwood a beaucoup réfléchi à ce point lorsqu’il a créé Discourse, en essayant d’encourager les membres des communautés à bien se traiter entre eux
  • L’auteur a indiqué le COVID et la sortie de ChatGPT sur le graphique, mais n’a pas mentionné que Stack Overflow a été racheté en juin 2021 par le fonds de private equity néerlandais Prosus
    À mes yeux, ce moment correspond assez bien à la tendance générale à la baisse

    • Je trouve rassurant de penser que les fondateurs originels de Stack Overflow ont pu avoir leur événement de liquidité et bien s’en sortir financièrement
    • Une entreprise est vendue quand ses propriétaires pensent pouvoir en tirer le meilleur prix
      La vente en elle-même relève davantage du symptôme que de la cause
    • Pour moi, les problèmes de SO ont toujours été liés aux modérateurs bénévoles
      Eux n’ont pas vraiment été « rachetés » ; ils ressemblent plutôt à ceux qui ont hérité du problème
    • Je me demande ce qu’ils ont réellement changé
    • Je ne le vois pas comme ça
      Pendant cette période, StackOverflow lui-même n’a pas vraiment changé, et l’évolution des utilisateurs relevait probablement de facteurs externes
  • Stack Overflow avait beaucoup de défauts, mais à son apogée c’était une merveille d’Internet
    Surtout au début, les gens couraient après le karma, et peu importe ce qu’on demandait, on obtenait une réponse, n’importe laquelle. Elle n’était pas toujours juste, mais il y avait une réponse
    Les LLM donnent peut-être en moyenne de bien meilleures réponses, mais j’ai l’impression qu’il faut se souvenir correctement et chérir ce fragment d’humanité qu’on y a perdu

    • Recevoir une mauvaise réponse sur un forum public peut aussi être utile pour susciter une correction
    • Les forums basés sur phpBB qu’on trouvait autrefois un peu partout étaient meilleurs que StackOverflow
      Ironiquement, StackOverflow a presque tué ces forums-là, avant de devenir à son tour la victime de la vague suivante
  • Je me dis que c’est vraiment inquiétant.
    Les gens utilisaient Stack Overflow et, ce faisant, créaient de nouvelles connaissances.
    Sans ce type de support de discussion, comment peut-on encore alimenter les modèles avec des connaissances récentes et de haute qualité ?

    • Ce n’est pas ironique, il faut vraiment un Stack Overflow pour les LLM.
      L’idée serait d’y publier des solutions à des problèmes découvertes au terme de nombreuses recherches par les LLM.
      Malheureusement, comme les LLM sont concentrés chez quelques fournisseurs comme OpenAI, Anthropic ou Google, chacun risque de construire son propre Stack Overflow privé et fermé.
      En exploitant ce Stack Overflow privé, leurs LLM respectifs pourraient contourner des raisonnements complexes et économiser des tokens, du temps et de l’argent.
    • Il y a aussi énormément de documentation, ainsi que beaucoup de code que l’IA peut lire directement.
      Par exemple, si une bibliothèque a un bug qui nécessite souvent un contournement, on peut apprendre ce contournement à partir de code open source qui l’utilise.
    • Je ne pense pas que ce soit un gros problème.
      Il y a des environnements d’apprentissage par renforcement, des données synthétiques, des données annotées par des humains, ainsi que les données d’usage de codex / claude code / cursor.
      En programmation, l’essentiel des capacités des modèles vient non pas du préentraînement, mais du post-entraînement.
    • J’y pensais aussi.
      On peut dire que les LLM ont profité en « volant » du contenu généré par les utilisateurs, produit avant l’ère des LLM.
      À l’ère des LLM, il n’y aura plus de nouveau Stack Overflow pour entraîner les LLM à l’avenir.
      On se rapproche aussi de la théorie de l’Internet mort, où beaucoup de comptes sur Twitter sont en pratique des LLM. Reddit risque d’être un gros problème aussi, avec beaucoup de comptes qui farm le karma, participent à des campagnes d’influence ou cherchent des revenus publicitaires.
      On finira par atteindre un point où les corpus eux-mêmes seront remplis de déchets produits par des LLM. Un futur de déchets auto-renforcés, en quelque sorte.
    • Les gens ont toujours envie de parler de problèmes intéressants qu’ils ont résolus et de la manière dont ils s’y sont pris.
      Le problème n’est pas seulement que SO s’est étouffé lui-même, mais aussi que même les principaux moteurs de recherche préfèrent désormais les réponses IA à l’affichage de petits blogs.
  • Le fait d’avoir des exigences strictes pour rédiger une question aidait à définir clairement le problème, et une fois la question correctement formulée, on finissait souvent par trouver la réponse.

    • À ses débuts, Stack Overflow était un excellent outil de rubber duck debugging.
      Mais ces dernières années, y poser une question est devenu une expérience presque traumatisante. Même en publiant une question parfaitement légitime, on risquait fortement les votes négatifs et la fermeture, et au moindre défaut dans la question, c’était encore pire.
      On est complètement passé de « j’ai posé la question, puis j’ai trouvé la réponse moi-même, et quelqu’un me l’a signalé en commentaire » à « quelle que soit la question postée, tout le site se jette dessus pour la faire disparaître ».
  • Aussi étrange que cela puisse paraître, je trouve parfois de meilleures solutions sur Stack Overflow que celles sur lesquelles Claude Code insiste.
    À long terme, je ne sais pas si un monde sans SO serait préférable.

    • Pareil pour moi.
      Les LLM excellent davantage à recracher les solutions connues qu’à fournir la meilleure solution à un problème.
      À cause de la manière dont on échantillonne les tokens dans la distribution de probabilité d’un LLM, la longue traîne des solutions disparaît en grande partie.
      Ce qui m’a aidé, c’est de demander, par exemple, 10 solutions différentes à un problème, puis d’en choisir une. Quand il n’existe pas vraiment 10 solutions distinctes, il arrive presque qu’une solution créative apparaisse.
    • L’avantage de SO, c’était de pouvoir voir plusieurs solutions et implémentations pour une même chose.
      Parfois, la « meilleure » solution est un code difficile à lire, et voir des gens débattre comme des singes en colère autour de plusieurs approches permettait de mieux comprendre le problème.
      Bien sûr, parfois c’était vraiment mauvais.
    • Une bonne partie de ce que Claude insiste pour faire vient probablement de SO.
    • Je suis d’accord avec l’idée qu’on ne sait pas si ce sera mieux à long terme sans SO.
      Cela dit, la culture du site grinçait déjà depuis longtemps.
      J’ai consacré beaucoup d’efforts à éditer des questions et des réponses sur ServerFault, qui fait partie de SO, mais aujourd’hui j’ai l’impression que ce temps a été gaspillé.
      Ils voulaient vendre le site depuis un moment et semblaient ne plus vraiment s’en soucier. Ils ont laissé quelques éditeurs se comporter de façon odieuse pendant trop longtemps, et cela leur est monté à la tête. J’aimerais pouvoir récupérer tous ces efforts.
    • SO est probablement la source de données de la plus haute qualité pour les modèles de langage.
      On pourrait même plaisanter en disant que le reste d’Internet ne sert qu’à diluer l’espace latent final contraint par Jon Skeet.
  • Je savais que Stack Overflow allait souffrir à cause de l’IA, mais voir le nombre de questions mensuelles tomber d’environ 200 000 avant les chatbots à à peine 1 000, c’est difficile à croire.
    Cela dit, moi non plus je n’y suis pas allé une seule fois ces quatre dernières années.

    • J’ai cliqué sur la requête du premier graphique : le pic était à environ 300 000 en mai 2020, et le dernier mois complet, avril 2026, était à environ 3 000. C’est vraiment choquant.
      https://data.stackexchange.com/stackoverflow/revision/193252...
    • Ça me paraît logique.
      Il n’y a désormais littéralement plus aucune raison d’utiliser Stack Overflow. Malgré leurs défauts, les LLM sont bien meilleurs pour obtenir des réponses à des problèmes de code.
  • C’était le genre de situation où l’on te disait : « Merci pour ce message, mais le choix des mots est mauvais ici, et il existe 13 autres réponses contenant en partie les mêmes termes, mais comme elles ne répondent pas réellement à la question, elles ont été supprimées. Et si ce message reste, cela réduira le nombre de vues de ma réponse hors sujet. »
    Ce forum n’est pas mort pour une seule raison.

    • À chaque fois qu’on parle de la mort de Stack Overflow, tout le monde mentionne ça, mais c’était déjà comme ça dès le départ.
      Que cela plaise ou non, cette modération stricte faisait partie intégrante de la plateforme, et si les LLM n’avaient pas supprimé à 99,9 % le besoin de forums de Q&R en programmation, ça aurait probablement pu durer bien plus longtemps, même ainsi.
    • Si j’ai bien compris, ils voulaient faire de l’optimisation pour la recherche Google.
      Il leur fallait donc une réponse « canonique », et c’est ce qui a tué le site à long terme.
      À court terme, cela a très bien marché, et les fondateurs ont, à juste titre, gagné beaucoup d’argent.
    • Je suis d’accord aussi.
      Cela dit, j’ai posté quelques questions il y a environ un an et je n’ai eu absolument aucune réponse.
      Ceux qui ont quitté SO ne sont pas seulement les gens qui posent des questions, mais aussi ceux qui y répondent. C’est peut-être un problème de poule et d’œuf, autrement dit une inversion des effets de réseau.
    • Même si une mauvaise modération n’a pas tué Stack Overflow, elle a au minimum donné à ceux qui auraient pu soutenir le site l’impression qu’il ne valait pas la peine qu’on s’y attache.
  • Les LLM sont meilleurs que l’assistance humaine lente pour le débogage ou les tâches de type helpdesk, et de toute façon ce genre de questions n’était pas vraiment bienvenu sur SO
    Stack Overflow reste excellent pour les questions canoniques, les réponses multiples et les discussions publiques entre humains, optimisées pour la recherche
    Mais pour une entreprise détenue par un fonds de capital-investissement qui cherche à transformer un investissement de 1,8 milliard de dollars en rendement x100, cela ne sera probablement pas suffisant
    J’aimerais qu’un jour le site classique de Q&R soit isolé comme activité déficitaire et séparé au profit d’une fondation de type Wikimedia intéressée par la préservation du site de Q&R d’origine, sans chercher la croissance ni une transformation

    • Pour paraphraser une mauvaise réplique de film, on peut se demander pourquoi un site de Q&R aurait besoin de 1,8 milliard de dollars
      Je suis d’accord sur le fait qu’une fondation comme Wikimedia serait la meilleure façon de préserver l’objectif initial