- Stack Overflow a longtemps été l’espace de référence du Q&A pour les développeurs, mais après la généralisation d’assistants IA de codage comme ChatGPT, Cursor et Claude, le nombre de questions et le trafic ont fortement chuté
- Le mois dernier, le nombre de questions est tombé à 6 866, un niveau comparable aux débuts du lancement en 2008, et Elon Musk a qualifié cela de « mort causée par les LLM »
- Même si la participation au forum a reculé, le chiffre d’affaires annuel a presque doublé pour atteindre environ 115 millions de dollars, tandis que les pertes sont passées de 84 millions de dollars en FY2023 à 22 millions de dollars
- Le modèle de revenus s’est déplacé d’une logique centrée sur la publicité vers des solutions d’entreprise et des licences de données, et Stack Internal est désormais utilisé par 25 000 entreprises dans le monde
- Les questions des développeurs se déplacent vers des chats IA privés, ce qui réduit la création de nouvelles connaissances publiques, mais les LLM continuent malgré tout d’avoir besoin des données de Stack Overflow, créant ainsi une dynamique circulaire
Les assistants IA ont fait baisser le trafic de Stack Overflow
- Stack Overflow a longtemps été le forum Q&A de référence où les développeurs venaient chercher de l’aide technique, et pendant la pandémie, son influence a atteint un niveau proche de son apogée grâce aux développeurs qui y trouvaient des informations utiles sur la durée
- Avec la diffusion d’assistants IA de codage comme ChatGPT, Cursor, Claude, Google Gemini et Microsoft Copilot, le trafic du site a chuté brutalement
- En juillet 2023, Elon Musk a décrit la situation de Stack Overflow comme une « mort causée par les LLM »
- Le mois dernier, 6 866 questions ont été publiées sur Stack Overflow, soit un volume presque identique à celui observé au tout début de son lancement en 2008
Le forum décline, mais le chiffre d’affaires de l’entreprise résiste
- Le forum Q&A de Stack Overflow s’est affaibli, mais l’entreprise tient bon en monétisant son immense stock de contenus historiques
- Depuis l’arrivée de ChatGPT en 2022, la participation a fortement chuté, mais le chiffre d’affaires annuel de Stack Overflow a presque doublé pour atteindre environ 115 millions de dollars
- Les pertes ont été réduites, passant de 84 millions de dollars en FY2023 à 22 millions de dollars sur le dernier exercice fiscal
- De fortes réductions de coûts, comme des licenciements massifs, ont aussi contribué à améliorer la rentabilité
- Contrairement à des hubs de connaissances comme Chegg, durement touchés par l’IA générative, Stack Overflow a réussi à transformer la valeur de ses anciens contenus en nouvelles sources de revenus
Passage de la publicité aux solutions d’entreprise et aux licences de données
- Par le passé, Stack Overflow dépendait de la publicité liée à l’activité de son forum, mais sa principale source de revenus est aujourd’hui devenue les solutions d’entreprise
- « Stack Internal » propose des fonctionnalités additionnelles d’IA générative reposant sur des millions de questions et réponses accumulées au fil des années
- Stack Internal est utilisé par 25 000 entreprises dans le monde
- Stack Overflow vend aussi des licences de données à des entreprises de l’IA, à l’image de Reddit
- Reddit est cité comme une plateforme ayant gagné plus de 200 millions de dollars en 2024 grâce aux licences de contenus générés par ses utilisateurs
La valeur de la confiance construite par une ancienne communauté
- Le nouveau créneau de Stack Overflow repose sur la confiance créée par son ancienne communauté et son expertise accumulée
- Le CEO Prashanth Chandrasekar estimait début 2023 que la baisse du nombre de questions concernait surtout les questions très simples, tandis que les questions complexes continuaient d’être publiées sur Stack Overflow
- Selon Chandrasekar, si les LLM ne valent que par la qualité des données sélectionnées par des humains, alors Stack Overflow pourrait être l’un des meilleurs endroits, voire le meilleur, dans le domaine technique
- Les grands modèles de langage veulent des données sur les problèmes de programmation et leurs solutions, et Stack Overflow possède un immense entrepôt numérique de ce type de données
L’IA et le savoir des développeurs dans une dynamique circulaire
- Les données de Stack Overflow sont importantes pour les LLM, mais à mesure que les questions des développeurs se déplacent vers des fenêtres de chat privées avec les LLM, la quantité de nouveaux échanges publics en questions-réponses diminue
- Les LLM ont besoin de volumes massifs de données pour fonctionner, et les données de Stack Overflow constituent un actif capable de répondre à cette demande
- En même temps, les données de Stack Overflow deviennent progressivement un actif vieillissant
- Stack Overflow illustre une transformation circulaire de l’industrie technologique, dans laquelle l’IA affaiblit le partage public des connaissances entre développeurs tout en continuant à dépendre de ces mêmes connaissances publiques
1 commentaires
Avis sur Hacker News
On peut aussi se dire que sa disparition est méritée
Moi aussi, comme beaucoup d’autres, je l’ai beaucoup utilisé et j’y ai souvent trouvé de l’aide, mais les problèmes culturels étaient devenus graves et n’ont jamais disparu
La gamification a attiré des gens rigides, obsédés par les règles, qui semblaient souvent ne même pas se rendre compte qu’ils blessaient les autres
Je comprends l’intention de vouloir de bonnes questions et des réponses utiles, mais cela ne justifie pas de maltraiter quelqu’un au prétexte qu’il a posé une « mauvaise » question. L’arrogance et le mépris cynique qu’on y voyait étaient pénibles à observer
Fermé : doublon de la question n°1234 d’août 2011, « Comment faire vaguement quelque chose de similaire avec Django 1.3 ? »
Les modérateurs de ce site ont complètement supprimé le plaisir de l’interaction. Si vous gérez un site avec des modérateurs, il faut absolument les encadrer pour éviter qu’ils ne le transforment en Stack Overflow
En tant que personne qui répondait souvent dans la file d’attente « New », la quantité de violations des règles, de questions sans effort et de doublons flagrants était stupéfiante
Au final, 99 % des questions ne valaient pas la peine d’interagir avec elles, donc j’ai arrêté de répondre et je me suis contenté de voter pour les fermer avant de passer à autre chose
À mes yeux, SO est mort parce qu’il est devenu trop célèbre et que la modération est devenue ingérable
Autrefois, CUDA était une technologie émergente qui ouvrait des possibilités intéressantes pour le calcul scientifique et le calcul parallèle, et il y avait sur Stack Overflow beaucoup de questions intéressantes sur son utilisation. Il avait donc commencé à y répondre, avait fini par répondre à près de 700 questions, était devenu le contributeur à la meilleure réputation sur le tag CUDA, et cela lui avait beaucoup plu
Mais à mesure que CUDA mûrissait, la plupart des bonnes questions avaient déjà été posées et avaient déjà reçu une réponse, et ce qui arrivait désormais sur Stack Overflow n’était en grande partie que des résidus ; il passait donc plus de temps à éditer, voter contre et fermer qu’à répondre
Au bout du compte, la plupart des questions sur CUDA se faisaient downvoter puis supprimer. Étrangement, c’était le cas alors même que CUDA continuait d’évoluer
Quand on traverse une période difficile dans sa vie et qu’on cherche de l’aide en ligne, c’est une expérience vraiment démotivante
Désormais, ils ne se contentaient plus de fermer les questions : ils les supprimaient entièrement, même quand elles contenaient des informations utiles
Je suis un jour retourné sur une ancienne question fermée pour retrouver un lien laissé dans les commentaires, et j’ai vu qu’un modérateur l’avait supprimée sans raison, alors qu’il y avait un vrai contenu
C’est là que j’en ai eu définitivement assez, et que je me suis concentré sur mon propre domaine et mon propre site web ; si je republiais quelque chose là-bas, ce serait toujours uniquement sous forme de lien vers mon site. Histoire que leur suppressionnisme ne puisse pas l’atteindre
Stack Overflow est peut-être le meilleur réservoir de connaissances de l’humanité sur la programmation
Mais son utilité me semble limitée au savoir accumulé. Comme service ou comme communauté, c’était déjà assez mauvais depuis longtemps
Pour les nouveaux utilisateurs qui essayaient d’apprendre à programmer, c’était peut-être l’une des ressources les plus toxiques. Depuis 2019, je n’y ai presque plus jamais posté de question
Ce qu’un utilisateur moyen pouvait espérer, c’était soit une réponse sèche de quelqu’un qui n’avait même pas vraiment lu le message, soit une suppression par un modérateur au motif qu’une question vaguement similaire existait, qu’il y ait ou non une réponse satisfaisante
À partir d’un certain point, toutes les questions vraiment significatives avaient déjà été posées. Le site n’existait plus pour aider sur des variantes de problèmes existants, mais pour collecter de nouveaux problèmes
On sous-estime aussi l’effet de l’uniformisation du secteur autour de quelques frameworks. Le fait que le pic de Stack Overflow coïncide avec l’ascension de React est assez révélateur
Plus tard, il s’est optimisé pour l’ordre et la mise au carré, a ruiné le site, et dans le processus a particulièrement maltraité puis chassé les nouveaux utilisateurs
Je postais parfois des questions simples de maths ou de statistiques sur math SE et stats SE, et j’obtenais des réponses précises en quelques heures, parfois même en quelques minutes
Et il n’y avait aucun mécanisme pour préserver et récompenser la bienveillance
Jeff Atwood a beaucoup réfléchi à ce point lorsqu’il a créé Discourse, en essayant d’encourager les membres des communautés à bien se traiter entre eux
L’auteur a indiqué le COVID et la sortie de ChatGPT sur le graphique, mais n’a pas mentionné que Stack Overflow a été racheté en juin 2021 par le fonds de private equity néerlandais Prosus
À mes yeux, ce moment correspond assez bien à la tendance générale à la baisse
La vente en elle-même relève davantage du symptôme que de la cause
Eux n’ont pas vraiment été « rachetés » ; ils ressemblent plutôt à ceux qui ont hérité du problème
Pendant cette période, StackOverflow lui-même n’a pas vraiment changé, et l’évolution des utilisateurs relevait probablement de facteurs externes
Stack Overflow avait beaucoup de défauts, mais à son apogée c’était une merveille d’Internet
Surtout au début, les gens couraient après le karma, et peu importe ce qu’on demandait, on obtenait une réponse, n’importe laquelle. Elle n’était pas toujours juste, mais il y avait une réponse
Les LLM donnent peut-être en moyenne de bien meilleures réponses, mais j’ai l’impression qu’il faut se souvenir correctement et chérir ce fragment d’humanité qu’on y a perdu
Ironiquement, StackOverflow a presque tué ces forums-là, avant de devenir à son tour la victime de la vague suivante
Je me dis que c’est vraiment inquiétant.
Les gens utilisaient Stack Overflow et, ce faisant, créaient de nouvelles connaissances.
Sans ce type de support de discussion, comment peut-on encore alimenter les modèles avec des connaissances récentes et de haute qualité ?
L’idée serait d’y publier des solutions à des problèmes découvertes au terme de nombreuses recherches par les LLM.
Malheureusement, comme les LLM sont concentrés chez quelques fournisseurs comme OpenAI, Anthropic ou Google, chacun risque de construire son propre Stack Overflow privé et fermé.
En exploitant ce Stack Overflow privé, leurs LLM respectifs pourraient contourner des raisonnements complexes et économiser des tokens, du temps et de l’argent.
Par exemple, si une bibliothèque a un bug qui nécessite souvent un contournement, on peut apprendre ce contournement à partir de code open source qui l’utilise.
Il y a des environnements d’apprentissage par renforcement, des données synthétiques, des données annotées par des humains, ainsi que les données d’usage de codex / claude code / cursor.
En programmation, l’essentiel des capacités des modèles vient non pas du préentraînement, mais du post-entraînement.
On peut dire que les LLM ont profité en « volant » du contenu généré par les utilisateurs, produit avant l’ère des LLM.
À l’ère des LLM, il n’y aura plus de nouveau Stack Overflow pour entraîner les LLM à l’avenir.
On se rapproche aussi de la théorie de l’Internet mort, où beaucoup de comptes sur Twitter sont en pratique des LLM. Reddit risque d’être un gros problème aussi, avec beaucoup de comptes qui farm le karma, participent à des campagnes d’influence ou cherchent des revenus publicitaires.
On finira par atteindre un point où les corpus eux-mêmes seront remplis de déchets produits par des LLM. Un futur de déchets auto-renforcés, en quelque sorte.
Le problème n’est pas seulement que SO s’est étouffé lui-même, mais aussi que même les principaux moteurs de recherche préfèrent désormais les réponses IA à l’affichage de petits blogs.
Le fait d’avoir des exigences strictes pour rédiger une question aidait à définir clairement le problème, et une fois la question correctement formulée, on finissait souvent par trouver la réponse.
Mais ces dernières années, y poser une question est devenu une expérience presque traumatisante. Même en publiant une question parfaitement légitime, on risquait fortement les votes négatifs et la fermeture, et au moindre défaut dans la question, c’était encore pire.
On est complètement passé de « j’ai posé la question, puis j’ai trouvé la réponse moi-même, et quelqu’un me l’a signalé en commentaire » à « quelle que soit la question postée, tout le site se jette dessus pour la faire disparaître ».
Aussi étrange que cela puisse paraître, je trouve parfois de meilleures solutions sur Stack Overflow que celles sur lesquelles Claude Code insiste.
À long terme, je ne sais pas si un monde sans SO serait préférable.
Les LLM excellent davantage à recracher les solutions connues qu’à fournir la meilleure solution à un problème.
À cause de la manière dont on échantillonne les tokens dans la distribution de probabilité d’un LLM, la longue traîne des solutions disparaît en grande partie.
Ce qui m’a aidé, c’est de demander, par exemple, 10 solutions différentes à un problème, puis d’en choisir une. Quand il n’existe pas vraiment 10 solutions distinctes, il arrive presque qu’une solution créative apparaisse.
Parfois, la « meilleure » solution est un code difficile à lire, et voir des gens débattre comme des singes en colère autour de plusieurs approches permettait de mieux comprendre le problème.
Bien sûr, parfois c’était vraiment mauvais.
Cela dit, la culture du site grinçait déjà depuis longtemps.
J’ai consacré beaucoup d’efforts à éditer des questions et des réponses sur ServerFault, qui fait partie de SO, mais aujourd’hui j’ai l’impression que ce temps a été gaspillé.
Ils voulaient vendre le site depuis un moment et semblaient ne plus vraiment s’en soucier. Ils ont laissé quelques éditeurs se comporter de façon odieuse pendant trop longtemps, et cela leur est monté à la tête. J’aimerais pouvoir récupérer tous ces efforts.
On pourrait même plaisanter en disant que le reste d’Internet ne sert qu’à diluer l’espace latent final contraint par Jon Skeet.
Je savais que Stack Overflow allait souffrir à cause de l’IA, mais voir le nombre de questions mensuelles tomber d’environ 200 000 avant les chatbots à à peine 1 000, c’est difficile à croire.
Cela dit, moi non plus je n’y suis pas allé une seule fois ces quatre dernières années.
https://data.stackexchange.com/stackoverflow/revision/193252...
Il n’y a désormais littéralement plus aucune raison d’utiliser Stack Overflow. Malgré leurs défauts, les LLM sont bien meilleurs pour obtenir des réponses à des problèmes de code.
C’était le genre de situation où l’on te disait : « Merci pour ce message, mais le choix des mots est mauvais ici, et il existe 13 autres réponses contenant en partie les mêmes termes, mais comme elles ne répondent pas réellement à la question, elles ont été supprimées. Et si ce message reste, cela réduira le nombre de vues de ma réponse hors sujet. »
Ce forum n’est pas mort pour une seule raison.
Que cela plaise ou non, cette modération stricte faisait partie intégrante de la plateforme, et si les LLM n’avaient pas supprimé à 99,9 % le besoin de forums de Q&R en programmation, ça aurait probablement pu durer bien plus longtemps, même ainsi.
Il leur fallait donc une réponse « canonique », et c’est ce qui a tué le site à long terme.
À court terme, cela a très bien marché, et les fondateurs ont, à juste titre, gagné beaucoup d’argent.
Cela dit, j’ai posté quelques questions il y a environ un an et je n’ai eu absolument aucune réponse.
Ceux qui ont quitté SO ne sont pas seulement les gens qui posent des questions, mais aussi ceux qui y répondent. C’est peut-être un problème de poule et d’œuf, autrement dit une inversion des effets de réseau.
Les LLM sont meilleurs que l’assistance humaine lente pour le débogage ou les tâches de type helpdesk, et de toute façon ce genre de questions n’était pas vraiment bienvenu sur SO
Stack Overflow reste excellent pour les questions canoniques, les réponses multiples et les discussions publiques entre humains, optimisées pour la recherche
Mais pour une entreprise détenue par un fonds de capital-investissement qui cherche à transformer un investissement de 1,8 milliard de dollars en rendement x100, cela ne sera probablement pas suffisant
J’aimerais qu’un jour le site classique de Q&R soit isolé comme activité déficitaire et séparé au profit d’une fondation de type Wikimedia intéressée par la préservation du site de Q&R d’origine, sans chercher la croissance ni une transformation
Je suis d’accord sur le fait qu’une fondation comme Wikimedia serait la meilleure façon de préserver l’objectif initial