- Les articles sur la prédiction de la fonction des enzymes à l’aide de modèles de deep learning attirent beaucoup d’attention et de citations, tandis que les articles qui pointent leurs erreurs par le fact-checking passent presque inaperçus
- Une étude ayant entraîné un modèle basé sur Transformer sur 22 millions de données d’enzymes pour prédire 450 fonctions enzymatiques non identifiées a été publiée dans Nature Communications
- Mais un article de suivi a révélé des centaines de prédictions erronées, des doublons dans les données et des conclusions biologiquement impossibles
- Sans analyse approfondie par des experts, il est difficile d’évaluer la fiabilité des résultats de l’IA, et le risque de propagation continue de données erronées augmente
- L’importance de la validation fondamentale des données et de l’intégration des connaissances métier est remise en lumière face aux modèles d’IA spectaculaires
Deep learning gets the glory, deep fact checking gets ignored
- Un article sur la prédiction de la fonction enzymatique fondée sur le deep learning a attiré une forte attention après avoir entraîné un modèle Transformer sur 22 millions de données d’enzymes pour prédire 450 fonctions enzymatiques non identifiées, puis avoir été publié dans Nature Communications
- Mais un article de suivi a mis en évidence des centaines de prédictions erronées, des doublons avec des bases de données existantes, des résultats biologiquement impossibles et de nombreuses erreurs répétitives
- Par exemple, l’IA a mal prédit la fonction d’un gène spécifique de E. coli, alors que des travaux antérieurs avaient déjà montré qu’il ne remplissait pas cette fonction
- L’article qui a mis au jour ces erreurs a été déposé sur bioRxiv, mais avec peu de vues et de citations, ce qui révèle un problème dans la structure des incitations à publier
- Les experts soulignent la nécessité de la validation des données et de l’expertise métier plutôt que du seul modélisme IA, et alertent sur le risque de repropagation d’informations erronées via les bases de données
The Problem of Determining Enzyme Function
- Les enzymes jouent un rôle essentiel en catalysant des réactions importantes dans les organismes vivants, et leurs différentes fonctions sont classées via des numéros Enzyme Commission (EC)
- La tâche qui consiste à prédire un numéro EC à partir d’une séquence d’acides aminés est considérée comme bien adaptée au machine learning, car les entrées et les sorties sont clairement définies
- La base de données UniProt recense plus de 22 millions d’enzymes et de numéros EC, ce qui fournit un volume abondant de données d’entraînement
An Approach with Transformers (AI model)
- Les chercheurs ont utilisé un modèle composé de Transformer, couches convolutives et couches linéaires pour prédire la fonction d’enzymes non identifiées
- Point notable : pour la capacité d’interprétation du modèle, ils ont analysé si les high attention regions avaient une signification biologique
- Parmi 450 enzymes non identifiées, seules 3 ont été validées expérimentalement (in vitro), ce qui a servi, selon eux, à démontrer l’exactitude du modèle
The Errors
- Parmi les 450 résultats « nouveaux » publiés dans l’article de Nature, 135 figuraient déjà dans des bases de données existantes
- 148 résultats présentaient une forte répétitivité, avec de multiples prédictions de la même fonction enzymatique, ce qui révèle de nombreuses erreurs biologiquement impossibles
- On a aussi trouvé de nombreux cas où le modèle prédisait à tort une enzyme de synthèse pour une molécule que E. coli ne produit pas, ou des résultats contredisant des expériences antérieures
- Une possibilité de fuite de données (data leakage) a également été soulevée, et les erreurs semblaient fréquentes dans les prédictions portant sur des zones sans ground truth réel
The Microbiology Detective
- Dans l’article de suivi, le Dr de Crécy-Lagard a constaté qu’une des enzymes prédites dans l’article de Nature, yciO, contredisait clairement les travaux antérieurs
- Bien que yciO et TsaC soient liés d’un point de vue évolutif, des expériences réelles ont montré à plusieurs reprises que yciO ne peut pas remplacer la fonction de TsaC
- Cela met en évidence les limites algorithmiques d’une approche qui assimile une fonction à une simple similarité structurelle
- Pour déterminer la fonction d’une enzyme, il faut prendre en compte de manière combinée le contexte génétique environnant, la liaison au substrat, les voies métaboliques et d’autres éléments de preuve
Hundreds of Likely Erroneous Results
- L’équipe de l’article de suivi a confirmé que, parmi les 450 prédictions de l’article de Nature, 135 correspondaient à des éléments déjà enregistrés dans des bases de données
- Les 148 autres cas ont été analysés comme des problèmes liés à la répétition de prédictions d’une même fonction, à des biais de données, à un manque de caractéristiques et à des limites d’architecture
- Plusieurs résultats ont été démontrés comme erronés à partir du contexte biologique ou d’un examen de la littérature existante
Rethinking Enzyme Classification and “True Unknowns”
- La prédiction de la fonction enzymatique mêle deux tâches : la propagation de fonctions connues (propagation) et la découverte de fonctions véritablement inconnues (discovery)
- Le supervised ML présente des limites intrinsèques lorsqu’il s’agit de prédire des fonctions réellement inconnues
- Lorsque des prédictions erronées sont intégrées dans des bases comme UniProt, puis réutilisées pour entraîner de nouveaux modèles, on voit apparaître un cycle d’erreurs auto-entretenu
Need for Domain Expertise
- Contrairement à la recherche en IA, la validation des données et l’analyse approfondie par des experts métier souffrent d’un manque d’incitations et attirent donc moins l’attention des chercheurs
- L’article montre d’ailleurs que l’une des causes d’échec de projets IA à haut risque est l’application insuffisante des connaissances métier
- La plupart des articles de deep learning ne font pas l’objet d’une validation minutieuse par des experts du domaine, et des travaux apparemment impressionnants peuvent en réalité contenir de nombreuses erreurs
Conclusion et recommandations
- L’article insiste sur l’importance de la validation fondamentale des données et de l’intégration des connaissances métier, plutôt que sur le seul développement de modèles d’IA spectaculaires
- Il plaide pour que les incitations et les soutiens à la recherche se concentrent davantage sur les travaux de validation concrets
- Il suggère qu’à long terme, la vérification des erreurs et l’amélioration de la qualité des données peuvent contribuer davantage aux progrès de l’IA
1 commentaires
Réactions sur Hacker News
J’ai l’impression qu’on oublie trop souvent qu’une fuite de données est possible. Il faut toujours partir du principe qu’il y en a une tant qu’on n’a pas de preuve solide du contraire, et la charge de démontrer l’absence de fuite doit incomber aux auteurs. Avec les petits jeux de données, c’est encore plus facile, justement parce qu’on peut les parcourir intégralement à la main. Il est extrêmement courant que des erreurs subtiles corrompent les données. Aujourd’hui, les jeux de données sont si gigantesques qu’aucun humain ne peut tout vérifier, et comme tout le monde sait que le filtrage est imparfait, il n’est pas raisonnable de croire qu’il n’y a aucune fuite. On peut dire qu’on a filtré, mais pas affirmer sérieusement qu’il n’y a aucune fuite. Même dans les jeux de données auxquels nous avons réellement accès, on découvre souvent des problèmes. Vu qu’on continue à constater ce genre de choses, je ne comprends pas pourquoi on continue à supposer que les données sont saines. J’y vois sans doute une forme d’auto-illusion nourrie par des attentes excessives. Pour corriger le problème, il faut regarder la réalité en face
Tous les systèmes ont des défauts. La vraie question, c’est quel niveau de défaut on est prêt à accepter. Par exemple, les cas de fraude dans Medicare et Medicaid représentaient 7,66 % ; c’est énorme en valeur absolue, mais cela ne veut pas dire que le système est un échec total, puisque les 93 % restants fonctionnaient correctement. Pour les modèles d’IA, c’est pareil : un taux d’erreur de 10 % ne signifie pas forcément que tout le système est mauvais ; il faut discuter de savoir si ce niveau est acceptable. Voir la source
À mon avis, la question de savoir où se situe la charge de la preuve ne sert pas de guide aux croyances autant que beaucoup de gens l’imaginent
Avant que l’IA fasse de la recherche, elle doit déjà réussir à reproduire les recherches existantes. Par exemple, si on donne un article de deep learning à une IA et qu’on lui demande de l’implémenter, on peut alors évaluer ses capacités réelles. Tant que cette base n’est pas acquise, il est difficile d’attendre de nouvelles idées
Au départ, je pensais que tu allais proposer : « donnons seulement le début de l’article à l’IA et voyons si elle peut compléter le reste ». Si même ce niveau de validation n’est pas encore possible, je ne vois pas comment l’IA pourrait produire des découvertes véritablement innovantes
OpenAI a créé un benchmark lié à cela : paperbench
Il faut aussi un système d’enregistrement totalement transparent et vérifiable, garantissant que l’article n’a jamais été exposé au jeu de données au préalable. La fraude académique est rare, mais elle existe, et les LLM peuvent produire des informations fausses avec un aplomb total
Par exemple, on pourrait donner à une IA les statistiques expérimentales d’un article et lui demander de reconstituer les données brutes
L’idée est non seulement suffisamment intéressante, mais elle pourrait aussi aider à résoudre en partie le problème de la vérification de la reproductibilité. Cela dit, même une recherche reproduite par une IA doit toujours être examinée minutieusement par des humains. En pratique, les LLM peuvent déjà jouer divers rôles utiles, par exemple assister la vérification du code de traitement des données dans le processus de peer review, aider à l’étude bibliographique ou servir au brainstorming d’idées
"Nature Communications" et "Nature" n’ont pas du tout le même statut. Il ne faut pas les traiter comme si c’était la même chose. Et les altmetrics sont des indicateurs de faible valeur. À moins de vouloir mesurer l’emballement du public, cela n’a pas grand-chose à voir avec les citations scientifiques
Quand on regarde la majorité des articles de deep learning, il est rare que des experts du domaine vérifient les résultats avec un niveau de détail vraiment fin. Je me demande combien d’articles impressionnants ne passeraient pas une validation rigoureuse. Cela dit, dans mon domaine, les articles d’IA sont effectivement lus de près par moi-même et par beaucoup d’autres spécialistes. En revanche, les résultats en informatique ou en logiciel me semblent plus faciles à valider qu’en biologie — ou peut-être est-ce simplement parce que je connais moins bien la bio
En biologie, rien que la validation de la validité des labels peut prendre des années. Le cas cité par l’OP est justement un exemple très chanceux où quelqu’un avait déjà passé plusieurs années à valider à l’avance certaines prédictions. La plupart du temps, personne ne va risquer 3 à 5 ans de sa carrière pour tester des prédictions produites par un modèle au hasard
Dans mon domaine, il est fréquent que, lorsqu’un article utilise cette méthode, les gens l’examinent de très près et formulent des critiques. Le problème, c’est que les personnes d’autres domaines ne prennent souvent pas ces critiques au sérieux
Il faudrait à l’IA un sous-système de « vérification du réel ». Dans le cas des LLM, c’est un peu comme le bruit continu de notre inconscient qui produit sans cesse des pensées. En pratique, notre cerveau dispose d’un filtre interne qui vérifie des choses comme : « ce que je viens de dire est-il une vérité réfutable ? », et qui élimine les mensonges. (Bon, avec la blague habituelle selon laquelle cela ne fonctionne pas chez tout le monde)
Tout à fait d’accord. Il y a quelques mois, tard dans la nuit, à moitié endormi, j’ai pris conscience que mon cerveau produisait sans arrêt diverses phrases et pensées. J’avais parfois l’impression très nette que toutes ces idées passaient par un filtre avant d’être raffinées en phrases. C’est une expérience étrange très personnelle, mais cela me donne l’impression qu’un algorithme de ce type est absolument nécessaire pour l’IA. Si je fais un doctorat, j’aimerais en faire un sujet de recherche
Le système humain de « vérification du réel » ressemble au discriminateur dans un GAN, mais il est fortement influencé par les émotions. Les travaux en psychologie montrent que les circuits humains d’évaluation du vrai et du faux commencent toujours par des signaux émotionnels, enracinés dans les croyances. Quand quelqu’un dit quelque chose qui heurte fortement mes convictions, la réaction émotionnelle arrive d’abord, puis le jugement rationnel intervient ensuite
Cela correspond bien à mon expérience des LLM en tant que chercheur. J’ai été profondément impressionné par leurs capacités de compréhension et de génération de texte, mais j’ai toujours trouvé décevant de les voir produire instantanément des réponses sur des problèmes non résolus beaucoup plus difficiles. Les questions complexes exigent du temps et de la réflexion, alors que les LLM ont tendance à répondre avec assurance — même quand c’est complètement faux — sans cette profondeur ni cette mise à l’épreuve
Très bel article de Rachel Thomas. C’est un nouvel exemple qui confirme l’idée que le deep learning est au fond un outil de recherche d’information [génératif]. Les données d’entraînement reflètent le domaine réel, mais constituent intrinsèquement un jeu de données très fortement compressé avec perte. Par exemple, les données/labels génétiques ne représentent pas parfaitement la structure réelle de la biologie ; les résultats peuvent donc souvent être faux ou dénués de sens. Et lorsqu’un résultat semble étrangement trop bon, il faut aussi envisager la possibilité d’une fuite de données, justement parce que les LLM sont, par conception, des outils de recherche d’information. Du point de vue de la théorie de l’information, les limites du jeu de données sont un facteur de risque inconnu commun à tous les modèles. Au final, le problème n’est pas tant un défaut de l’algorithme qu’un défaut du jeu de données d’entraînement. Nous opérons avec une grande souplesse dans le domaine du langage naturel, et même un enfant peut souvent juger si un texte a du sens en le lisant. Si les LLM réussissent en NLP, c’est grâce à cette nature des données. En revanche, dans des domaines complexes où les données sources ne capturent pas fidèlement l’essence du phénomène, les limites sont bien plus nombreuses
Je m’inquiète de voir la désinformation pénétrer aussi la science. On voit, comme sur les réseaux sociaux, des déclarations sensationnalistes sans fondement attirer davantage d’attention que des travaux réellement étayés. Mais on ne peut pas mettre Twitter et la revue Nature sur le même plan, et j’avais confiance dans les revues prestigieuses et le système de peer review comme « dernier rempart » contre ce type de problème. D’où la question : dans cette affaire, est-ce bien un échec de Nature ?
Il faut se rappeler qu’il existe des statistiques montrant que les revues à fort impact présentent aussi des taux plus élevés de rétractation et de résultats non vérifiés. Les causes profondes de ce phénomène sont discutées, mais un seul article ne prouve pas la vérité ; le vrai critère de confiance, c’est que plusieurs institutions et plusieurs équipes de recherche vérifient indépendamment les résultats
Le problème de la désinformation dans la science n’est pas nouveau : cela fait déjà plusieurs années que la controverse sur la « crise de la reproductibilité » dure
L’exemple de l’article sur le ML Quantum Wormhole est particulièrement décevant : des travaux erronés ne se retrouvent plus seulement dans les articles de vulgarisation, mais aussi dans des revues prestigieuses. Plus qu’une simple erreur, il y a trop de cas où chercheurs et reviewers ont tout simplement omis de faire des vérifications sérieuses. Personnellement, j’étais déjà sceptique vis-à-vis du système traditionnel des revues et j’espérais une publication scientifique plus ouverte, mais aujourd’hui on a surtout l’impression que les revues sapent elles-mêmes leur propre crédibilité. Et ce qui m’inquiète le plus, c’est que cela finit par contribuer à dégrader la confiance du public dans la science. Le grand public a déjà du mal à percevoir les nuances des débats internes à la science, et ce genre d’épisodes ne fait que fournir un prétexte supplémentaire au camp anti-science
Cela fait penser au bullshit asymmetry principle (la loi de Brandolini) : lien vers ce principe
Nous avons tendance à mettre en avant de manière spectaculaire le seul cas de réussite magnifique en ML/IA, tout en fermant les yeux sur des dizaines de tentatives ratées