- Après la mise en ligne en preprint en novembre 2024 sur arXiv de l’article « Artificial Intelligence, Scientific Discovery, and Product Innovation », des problèmes liés à l’exactitude et à l’intégrité de cette recherche ont été soulevés
- Le MIT a mené une enquête interne non publique et, jugeant l’article insuffisamment fiable, a adressé officiellement une demande de retrait à arXiv et à The Quarterly Journal of Economics
- Selon une lettre ouverte publiée au nom du Committee on Discipline du MIT, l’institution n’a aucune confiance dans la provenance, la fiabilité et l’exactitude des données de l’article, et n’a pas confiance non plus dans les résultats de la recherche eux-mêmes
- Conformément à la politique d’arXiv, seuls les auteurs peuvent demander le retrait d’un article, mais comme l’auteur ne l’a pas fait, le MIT a formulé une demande officielle à sa place et souhaite que l’article soit retiré rapidement avec une mention explicite
Impact de l’article et réponse du MIT
- Un article en preprint est une recherche qui n’a pas encore fait l’objet d’une évaluation par les pairs (peer review)
- Cet article exerce déjà une influence importante dans les discussions académiques sur l’IA et la science
- Le MIT pousse à un retrait officiel afin d’atténuer les effets négatifs des inexactitudes de l’article sur ces discussions
- L’auteur n’est plus affilié au MIT
Importance de l’intégrité de la recherche
- L’intégrité de la recherche est une valeur fondamentale du MIT et relève de sa mission essentielle
- Le MIT a mis en place et applique des procédures non publiques ainsi que des politiques dédiées pour réagir rapidement aux cas de fraude scientifique
- Les politiques et procédures concernées sont consultables sur le site officiel du MIT
Position officielle du corps professoral
- Les professeurs Daron Acemoglu et David Autor sont mentionnés dans une note de bas de page de l’article et ont publié la déclaration officielle suivante
- Cet article est le travail d’un ancien doctorant de deuxième année du département d’économie ; il n’a pas encore été publié dans une revue évaluée par les pairs, mais il fait déjà l’objet de discussions actives dans la littérature sur l’IA et la science
- Avec le temps, des doutes sur la validité de la recherche sont apparus et ont été signalés aux départements concernés
- En février 2024, le MIT a mené une enquête confidentielle conformément à ses politiques internes
- En raison des restrictions liées à la divulgation d’informations, il est difficile d’en publier les résultats, mais ils réaffirment n’avoir aucune confiance dans l’origine des données et de la recherche, ni dans leur fiabilité et leur intégrité
- Ils rendent ces éléments publics parce que, bien que l’article ne soit pas publié, il influence déjà les débats sur l’impact de l’IA sur la science
- Le MIT accorde une grande importance à l’exactitude du dossier scientifique et affirme clairement qu’il est inapproprié de fonder des discussions académiques ou publiques sur les résultats de cet article
Conclusion et recommandations
- Le MIT recommande à la communauté académique et au grand public de ne pas utiliser cet article comme référence scientifique
- Garantir l’exactitude et la fiabilité de la recherche reste la priorité absolue
1 commentaires
Avis Hacker News
L’idée avancée est que seuls les auteurs peuvent demander le retrait d’un article sur arXiv, et que le MIT explique la situation sous la forme d’une déclaration disant qu’il a demandé à l’auteur de le retirer, sans que cela ait encore été fait. Il trouve la manière dont le MIT communique acceptable, en protégeant raisonnablement la vie privée tout en révélant dans une certaine mesure le déroulement des faits. Il évoque aussi l’hypothèse que l’auteur pensait pouvoir laisser l’article en ligne, quitter volontairement le MIT et passer à de nouvelles opportunités, sans s’attendre à ce que le MIT publie une prise de position officielle à ce sujet
Selon cette opinion, le MIT rejette toute la responsabilité sur l’étudiant tout en dissimulant sa propre négligence. L’auteur avait été recommandé par des professeurs célèbres et fortunés du MIT, et il paraît difficile de croire qu’un doctorant de deuxième année ait pu monter seul une fraude de cette ampleur sans contacts dans l’industrie. Les statistiques de l’abstract — « l’IA a permis de découvrir 44 % de nouveaux matériaux en plus, une hausse de 39 % des dépôts de brevets et de 17 % de l’innovation downstream » — paraissent, à la simple lecture, suspectes au regard de la réalité de la recherche industrielle. À ce niveau, il estime qu’un minimum de bon sens suffisait à comprendre qu’il s’agissait d’une fraude
Il confirme aussi que l’auteur avait créé un faux site web pour masquer ses traces, allant jusqu’à enregistrer un domaine donnant l’impression qu’il travaillait chez Corning. Il joint également l’affaire dans laquelle Corning a dû obtenir un transfert forcé du domaine via l’OMPI
Il partage également une vidéo d’un séminaire Zoom où l’auteur présentait lui-même son article. Avec le recul, il dit avoir remarqué qu’au moment de mentir, l’auteur évitait de regarder l’écran ou la caméra, ce qui lui donne le sentiment inquiétant que ce type de mensonge improvisé était peut-être déjà devenu une habitude
Il partage son impression initiale selon laquelle les données des graphiques paraissent trop propres, avec une sensation de manipulation plutôt que de données réelles. En particulier, il n’explique pas comment, en mai 2022, soit seulement six mois avant l’arrivée de ChatGPT dans le grand public, un doctorant de deuxième année aurait convaincu un grand laboratoire industriel de recherche sur les matériaux de mener une expérimentation à l’échelle de mille personnes. La description du modèle reste vague, du type GAN + diffusion, sans détails concrets, et, d’après son expérience réelle dans de grandes entreprises, une adoption de cette ampleur ne peut absolument pas se faire en si peu de temps
Il mentionne la similarité avec la fraude autour d’un article de Michael LaCour, en ce que le protocole expérimental décrit ici serait irréalisable en pratique. À l’époque aussi, les taux de réponse et de recontact d’un panel d’enquête étaient hors de toute vraisemblance, et même des entreprises capables en théorie de mener ce type d’expérience disaient qu’une telle procédure était impossible
Il souligne aussi que l’auteur indiquait un numéro d’approbation du MIT IRB pour des expérimentations humaines, alors qu’à l’époque il n’était même pas encore entré en doctorat
Lors de la session de questions-réponses, l’auteur aurait affirmé avoir utilisé non pas un GAN mais un GNN (graph neural network), mais il partage aussi l’impression que le public n’était pas dans une disposition à interroger sérieusement la validité de l’article
Quand un article est difficile à reproduire et que le domaine lui-même est immense, il se demande à quel moment il peut réellement être vérifié, et estime qu’il faut réfléchir plus sérieusement au nombre d’articles frauduleux présents dans ce champ. Il ajoute que, dans le domaine du ML, il a personnellement vu pas mal de gens inventer des chiffres
L’idée qu’une analyse automatique de texte puisse produire des données mensuelles de répartition du temps de travail de scientifiques de façon presque constante sur une année entière lui semble absurde dès le départ. Pour que ce soit plausible, la qualité des données devrait être bien supérieure à tout ce qu’on peut obtenir en réalité
Des économistes renommés du MIT se sont rangés du côté de ceux qui doutaient de la crédibilité de l’article, et, en essayant de vérifier des cas d’innovation dans de vraies grandes entreprises du secteur des matériaux, ils n’ont pas réussi à lever les désaccords, ce qui a conduit à une enquête interne au MIT. Il estime qu’expulser seulement l’étudiant ne suffit pas, et que les professeurs ayant activement soutenu l’article auraient dû, s’ils étaient réellement impliqués dans la recherche, vérifier au minimum l’existence de ce mystérieux laboratoire de mille personnes et l’usage réel des outils d’IA
Il relève avec ironie que, parmi les 21 personnes remerciées dans l’article, pas une seule n’a semblé douter de l’origine des données. L’une d’elles avait même publié un thread Twitter populaire sur cette recherche et, lorsqu’on l’a récemment informée de l’affaire, elle s’est contentée de répondre brièvement que « les données de l’article semblent peu fiables »
Il se plaint qu’il existe partout dans le monde académique des professeurs surtout célèbres par leur prestige mais qui ne lisent pas réellement les articles. Il dit en faire lui-même l’expérience et, sans pouvoir citer de noms, ajoute que malgré la difficulté de la situation il a au moins la chance d’avoir un bon co-encadrant, ce qui lui permet de garder une vision un peu plus positive
À la question de savoir d’où venait cette source citée, il répond qu’il s’agit d’articles du Washington Post et du WSJ
Il attire l’attention sur le fait que cet article a déjà été cité près de 50 fois. Par le passé, dans les revues traditionnelles, il aurait au moins été possible de laisser un message lié aux problèmes de l’article, alors que sur arXiv, lorsqu’on suit l’article, il n’y a aucun moyen de savoir qu’il existe une controverse ou un litige, ce qui met en évidence une faiblesse des serveurs de preprints
Il précise que la plupart de ces 50 citations proviennent elles-mêmes de preprints sur arXiv ou de plateformes comme ResearchGate. Selon lui, le nombre de citations dans de vraies revues à comité de lecture est l’indicateur le plus réaliste. Il décrit arXiv comme l’équivalent d’un blog PDF sans relecture, avec simplement un léger système d’invitation, donc une défense faible. Dans la discussion, il évoque aussi un ancien cas d’article étrange en cryptographie
Il souligne que cette faiblesse découle de l’absence de relecture : arXiv assure une certaine modération, mais ne constitue pas en soi une base de confiance réelle. Faire confiance à un article suppose soit de faire confiance à l’auteur, soit de le vérifier soi-même, et même en cas de retrait, aucune raison détaillée n’est conservée, ce qui oblige chacun à suivre l’affaire par ses propres moyens. Il cite à titre d’exemple le message d’un article retiré qu’il avait déjà vu
Il signale que cet article avait déjà été discuté sur HN il y a quelques mois
Il insiste, lien à l’appui, sur le fait que certaines personnes avaient repéré son caractère suspect dès cette époque
Il complète l’information en ajoutant le titre et le lien du fil de discussion concerné
Selon lui, au lieu de supprimer complètement l’article, il vaudrait mieux ajouter une note au preprint pour signaler les problèmes et le risque de fraude. Comme l’article a déjà été cité, il pourrait être nécessaire plus tard d’en examiner l’impact réel, et s’il disparaît totalement il ne restera qu’un vide
Il précise qu’en cas de retrait, les anciennes versions restent visibles, et mentionne aussi que le MIT a demandé ce retrait. Il ajoute que le titre de l’article de presse est quelque peu trompeur
Il estime aussi que les articles qui citent ce travail frauduleux devraient recevoir un marquage d’avertissement, afin qu’il ne continue pas à être cité et que l’effet de la fraude ne subsiste pas jusqu’au bout
Il exprime également le souhait qu’arXiv affiche au moins une page du type « un article a autrefois existé ici, mais il a été retiré »
Il met en doute la position du MIT consistant à présenter l’affaire comme la simple faute d’un doctorant tout en niant toute possibilité de financements VC, de petits arrangements ou de corruption organisationnelle. À ses yeux, si certains savaient que cet article finirait par être démasqué mais s’en sont servis pour soutenir la valorisation et l’enthousiasme du marché de l’IA, en profiter largement puis présenter des excuses avec un coût limité une fois la polémique devenue trop grande, cela ressemble à un système où l’on empoche d’abord de gros gains. Il remarque que l’industrie pharmaceutique fonctionne parfois ainsi. Il ajoute qu’il faut rester prudent, car même des institutions ou publications réputées publient beaucoup d’articles faux ou légèrement déformés, et le fait qu’un article de presse les cite ne garantit pas leur validité logique
Il note que le communiqué officiel du MIT donne peu de détails, et que l’article du WSJ en contient un peu plus sans pour autant être très concret. Il rappelle qu’après les objections soulevées par un informaticien extérieur, les économistes ayant activement promu l’article ont vu le MIT lancer une enquête interne
Selon lui, le simple fait de parler d’un « ancien doctorant de deuxième année » laisse entendre qu’il a été expulsé