Le deep learning attire l’attention, mais le deep fact-checking est ignoré

(rachel.fast.ai)

3 points par GN⁺ 2025-06-04 | 1 commentaires | Partager sur WhatsApp

Une étude ayant entraîné un Transformer sur 22 millions de données enzymatiques pour prédire la fonction de 450 enzymes inconnues a été publiée dans Nature Communications et s’est classée dans le top 5 % Altmetric en matière d’attention, mais le preprint de suivi qui en a vérifié les erreurs à grande échelle a reçu beaucoup moins d’attention
La prédiction de la fonction enzymatique peut sembler se résumer à attribuer un numéro EC à partir d’une séquence d’acides aminés, mais l’évaluation réelle nécessite des preuves biologiques allant au-delà de la similarité structurelle, comme le contexte génomique des gènes, le docking de substrats et la cooccurrence dans des voies métaboliques
Parmi les 450 prédictions « novel », 135 existaient déjà dans UniProt, et 148 présentaient des motifs biologiquement étranges, avec la même fonction très spécifique répétée jusqu’à 12 fois
Le cas de yciO montre que les performances sur un jeu de test et quelques validations in vitro ne suffisent pas ; yciO est structurellement similaire à TsaC, mais les études existantes et les différences d’activité enzymatique indiquent qu’il n’assure pas la même fonction centrale
Les modèles d’apprentissage supervisé peuvent être utiles pour propager des labels de fonctions connues au sein d’une même famille fonctionnelle, mais ils ont des limites pour découvrir de véritables fonctions inconnues, et des labels erronés peuvent continuer à se diffuser via des bases de données comme UniProt dans l’entraînement des modèles ultérieurs

Le contraste entre l’article de prédiction enzymatique par IA et sa validation ultérieure

L’étude initiale a entraîné et évalué un modèle basé sur des Transformers avec un jeu de données contenant 22 millions d’enzymes et leurs numéros EC, puis a prédit la fonction d’environ 450 enzymes dont la fonction était inconnue
Elle a été publiée dans Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications, avec 22 000 vues et une attention classée dans le top 5 % de l’ensemble des productions de recherche selon Altmetric
L’article de vérification ultérieur, Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv, a trouvé dans les prédictions de l’article initial des erreurs graves et des centaines de résultats très probablement incorrects, mais n’a pas obtenu autant de vues ni de citations que l’article d’origine
Ce cas montre qu’il est difficile d’évaluer la validité de résultats d’IA en biologie sans expertise approfondie du domaine

Pourquoi la prédiction de la fonction enzymatique est difficile

Les enzymes catalysent des réactions dans les organismes vivants, et les numéros Enzyme Commission (EC) classent hiérarchiquement des milliers de fonctions enzymatiques
Le problème semble bien se prêter au machine learning, puisque l’entrée est la séquence d’acides aminés composant une protéine et la sortie un numéro EC
UniProt contient plus de 22 millions d’enzymes et de numéros EC, ce qui permet de l’utiliser comme grand jeu de données d’entraînement
Mais l’évaluation de la fonction enzymatique ne peut pas se limiter à la similarité de séquence ou de structure, et les relations évolutives dans lesquelles les fonctions divergent constituent un piège fréquent

L’approche Transformer et ses résultats apparents

L’article de Nature Communications a utilisé un modèle de deep learning Transformer pour prédire la fonction d’enzymes dont la fonction n’était pas connue auparavant
L’architecture du modèle reprend l’approche adoptée dans BERT, avec deux encodeurs Transformer, deux couches convolutionnelles et une couche linéaire
Les chercheurs ont vérifié si les zones à forte attention avaient un sens biologique, et ont conclu que le modèle apprenait une signification fondamentale tout en offrant une certaine interprétabilité
Ils ont utilisé une séparation standard entraînement/validation/test sur un jeu de données de plusieurs millions d’entrées, puis appliqué le modèle à un jeu de données sans vérité terrain afin de produire environ 450 nouvelles prédictions
Parmi celles-ci, trois ont été choisies aléatoirement pour des tests in vitro, qui ont confirmé que les prédictions étaient exactes

Erreurs mises au jour et motifs répétés

L’analyse de suivi a conclu que des centaines de prédictions « novel » de l’article de Nature Communications étaient presque certainement erronées
L’article initial affichait de bonnes performances sur le jeu de test mis de côté, mais l’enquête ultérieure a découvert une possible fuite de données
Parmi les 450 résultats « novel » :
- 135 étaient déjà répertoriés dans UniProt et n’étaient donc pas réellement nouveaux
- 148 présentaient un motif anormal dans lequel la même fonction enzymatique très spécifique était répétée jusqu’à 12 fois dans des gènes d’E. coli
Ces répétitions ne sont pas biologiquement plausibles, et des biais, un déséquilibre des données, l’absence de caractéristiques pertinentes, des limites d’architecture et un manque de calibration de l’incertitude peuvent pousser le modèle à produire de force des labels fréquents dans les données d’entraînement
YjhQ a été prédit comme mycothiol synthase, mais E. coli ne synthétise pas le mycothiol
YrhB a été prédit comme synthétisant un composé spécifique, mais ce composé avait déjà été prédit comme synthétisé par l’enzyme QueD, et un mutant QueD d’E. coli ne parvient pas à synthétiser ce composé, ce qui montre qu’il ne s’agit pas de la fonction de YrhB

Ce que le cas yciO montre du rôle de la connaissance métier

yciO, l’une des cibles des tests in vitro, était une enzyme étudiée depuis plus de dix ans par Dr. de Crécy-Lagard
L’article initial concluait que yciO assurait la même fonction que TsaC, mais les études existantes ne le confirment pas
TsaC est un gène essentiel chez E. coli ; yciO est présent dans le même génome et la surexpression de yciO ne supprime pas l’essentialité de TsaC
L’activité de yciO rapportée par Kim et al. est inférieure à celle de TsaC de plus de 4 ordres de grandeur, soit plus de 10 000 fois plus faible
yciO et TsaC sont structurellement similaires, et yciO a évolué à partir d’un ancêtre de TsaC, mais la diversification fonctionnelle après duplication génique est courante dans l’évolution des protéines et des enzymes
Outre la similarité structurelle, les preuves suivantes sont importantes pour classer les fonctions enzymatiques
- le neighborhood context des gènes
- le docking de substrats
- la cooccurrence de gènes au sein de voies métaboliques
- d’autres caractéristiques de l’enzyme

Distinguer « propagation de fonctions connues » et « découverte de véritables fonctions inconnues »

L’identification de fonctions enzymatiques mélange deux problèmes différents
- propager des labels de fonctions connues à des enzymes de la même famille fonctionnelle
- découvrir des fonctions réellement inconnues
Par conception, les modèles de machine learning supervisé ne peuvent pas être utilisés pour prédire la fonction de true unknowns
Le machine learning peut être utile pour propager des fonctions connues à des enzymes supplémentaires
Mais les erreurs suivantes peuvent se produire
- ne pas propager un label qui devrait l’être
- propager un label qui ne devrait pas l’être
- erreurs de curation
- erreurs expérimentales
Lorsqu’une fonction erronée entre dans une base de données en ligne centrale comme UniProt, elle peut ensuite être utilisée comme donnée d’entraînement pour des modèles prédictifs ultérieurs, ce qui propage encore davantage l’erreur
Ce problème peut s’aggraver avec le temps

La faible reconnaissance des travaux de validation des données

Le travail de construction de modèles d’IA reçoit davantage de récompenses et de soutien que l’examen minutieux des données sous-jacentes et l’intégration d’une expertise approfondie du domaine
Everyone Wants to do the Model Work, not the Data Work étudie des dizaines de praticiens du machine learning ayant participé à des projets d’IA à haut risque, et identifie l’insuffisance d’expertise du domaine d’application comme l’une des principales causes d’échecs critiques
Évaluer des résultats d’IA en dehors de son propre domaine d’expertise peut être très difficile, voire impossible
De nombreux articles de deep learning sont lus sans qu’un expert du domaine ait examiné en détail la qualité des résultats
Vérifier des centaines de prédictions enzymatiques est moins spectaculaire que construire un modèle d’IA, mais peut être plus important pour la qualité des résultats
Un système d’incitations qui concentre de façon disproportionnée l’attention sur des solutions d’IA séduisantes peut sacrifier la qualité des résultats

1 commentaires

GN⁺ 2025-06-04

Avis Hacker News

J’ai déjà vécu quelque chose de similaire. J’ai lancé BERT sur des données d’enzymes et ça avait l’air correct à l’évaluation, puis ça s’est complètement effondré en conditions réelles. Un cas typique de surapprentissage à “l’ambiance”
Franchement, pour une simple classification, je choisirais à tout moment un SVM ou une régression logistique. Les transformers sont impressionnants, mais si les données ne sont pas très propres, ils débitent des absurdités avec assurance. C’est un peu comme donner à GPT un QCM absurde: il choisit quelque chose et l’affirme avec aplomb
Ces temps-ci, je tends plutôt à récupérer les embeddings de grands modèles et à poser un classifieur simple par-dessus. Ça marche mieux, c’est plus rapide et moins bruyant
- Les transformers obtiennent la note maximale sur le jeu de test, puis se cassent la figure dès qu’ils rencontrent le réel. Moi aussi, j’ai dansé en mode “waouh, 92 % de précision !”, avant de me rendre compte que je n’avais fait qu’un apparieur de motifs qui reconnaissait avec assurance des détails insignifiants du dataset
- Tu le sais peut-être déjà, mais la méthode consistant à récupérer les embeddings d’un grand modèle et à mettre un classifieur par-dessus est, au sens large, connue sous le nom d’apprentissage par transfert
- C’est vrai, mais ça reste quand même une utilisation indirecte des transformers
- Ironiquement, ce commentaire lui-même se lit comme s’il avait été généré par un transformer, plus précisément ChatGPT
- Question un peu différente: à quel point trouvez-vous les SVM utiles en production ? J’ai généralement eu l’impression qu’ils étaient trop lents par rapport à d’autres algorithmes pour vraiment valoir le coup
Avant de confier de la recherche à l’IA, il faudrait sans doute d’abord lui faire reproduire de la recherche. Par exemple, lui donner un article sur une technique de deep learning et lui demander d’en produire l’implémentation
Si elle n’y arrive pas, je n’attends pas d’elle qu’elle soit capable de produire de nouvelles idées
- La reproductibilité est la ligne de base. Tant qu’un modèle ne peut pas lire, comprendre et implémenter correctement des travaux existants de façon fiable, l’expression “scientifique IA” relève surtout du branding
- OpenAI a créé un benchmark pour cela: https://openai.com/index/paperbench/
- Il faudrait une piste d’audit très complète pour les LLM, et garantir aussi que l’article en question ne figure dans aucun dataset
  La fraude académique est rare, mais elle existe. Les LLM inventent des données et mentent dès qu’il y a la moindre faille
- Je pensais que tu allais dire: “donnons à l’IA le début d’un article, c’est-à-dire le prompt, et voyons si elle peut compléter le reste pour produire une science équivalente aux résultats de recherche”. Si elle n’y arrive pas, je n’attends pas d’elle qu’elle soit capable de produire de nouvelles idées
- Ou bien on pourrait lui donner un article rempli de statistiques sur des observations expérimentales et lui faire reproduire les données brutes
J’ai entendu parler d’un chercheur qui a passé six mois à vérifier les résultats d’un article publié. Au final, tout ce qu’il a reçu, c’est un “merci de l’avoir signalé”
Il a dit calmement: “certaines choses ne sont pas importantes parce qu’elles se voient, mais parce qu’elles empêchent d’autres personnes de partir dans la mauvaise direction”
Je pense que si l’on n’a même pas la volonté de vérifier soigneusement si les prédictions correspondent à la réalité, alors, aussi impressionnante que puisse paraître la technologie, ce n’est qu’une illusion passagère
- Il n’aura pas de prix Nobel, mais en termes d’accomplissement et de valeur ajoutée à l’humanité, il est très loin devant la plupart des salariés d’entreprise. J’aimerais que nous puissions en dire autant de ce que nous avons fait ces dix dernières années
La partie “des enquêtes ultérieures suggèrent qu’il a pu y avoir une fuite de données” semble souvent oubliée. Jusqu’à preuve contraire solide, il faut supposer qu’il y a fuite de données
Ce n’est pas au lecteur ou au sceptique de prouver qu’il y a une fuite; c’est aux auteurs de démontrer qu’il n’y en a pas
Sur de petits datasets, les fuites de données apparaissent facilement. Même dans des datasets que l’on peut entièrement inspecter à l’œil nu, elles s’introduisent très facilement, généralement à l’insu de leurs auteurs. Des éléments subtils peuvent facilement corrompre les données
Nous travaillons désormais avec d’immenses datasets qu’aucun humain n’a la moindre chance de parcourir entièrement. Nous savons aussi que les méthodes de filtrage sont imparfaites: alors comment peut-on croire qu’il n’y a pas de fuite ? On peut dire qu’on a filtré, mais pas qu’il n’y a pas de fuite
En plus, même dans les datasets accessibles, on continue à trouver de la contamination. Autrement dit, les preuves s’accumulent que cela arrive souvent en pratique
Alors pourquoi continue-t-on à supposer qu’il n’y a pas de contamination ? À cause de la hype ? Franchement, ça ressemble à un mensonge qu’on se raconte parce qu’on a envie d’y croire. On ne peut pas corriger ce genre de problème en se mentant à soi-même
- Tous les systèmes ont des problèmes. La meilleure question est de savoir où se situe le seuil acceptable
  Par exemple, le taux de paiements indus de Medicare et Medicaid était de 7,66 %. Cela représente des milliards de dollars et il y a de la marge pour s’améliorer, mais cela ne signifie pas que tout le système a échoué. Dans 93 % des cas, la couverture fonctionne comme prévu
  Il pourrait en aller de même pour ces modèles. Si le taux de contamination est de 10 %, est-ce que tout le système est mauvais, ou est-ce un niveau tolérable ?
  [1]: https://www.cms.gov/newsroom/fact-sheets/fiscal-year-2024-im...
- La question de savoir où se situe la charge de la preuve n’est pas un critère aussi déterminant pour décider quoi croire que ce qu’on imagine souvent en ligne
C’est exactement ce que je prédisais: https://news.ycombinator.com/context?id=44041114 https://news.ycombinator.com/context?id=41786908
C’est comme “l’IA sait coder”. Si le problème n’est pas dans le jeu d’entraînement, elle continue à échouer de façon spectaculaire, et les gens sont surpris à chaque fois
- Pour “l’IA sait coder”, on peut quand même aller assez loin en contournant le problème. Il suffit de renforcer le flux de travail de vrais ingénieurs logiciel et d’ajouter des garde-fous comme des linters et des tests
  Elle ne sait pas gérer les parties difficiles comme l’architecture, la conception ou la revue, mais elle peut absorber une énorme partie des tâches répétitives et déjà résolues qui prennent la plupart du temps des ingénieurs. Comme l’assurance qualité reste humaine, il est tout à fait possible d’augmenter la productivité de 2 à 5 fois sans perte de qualité
  Mais sans supervision ni vérification, elle ne peut remplacer correctement l’ensemble du travail d’aucun humain. On en est encore très loin
« Dans la plupart des articles sur le deep learning que j’ai lus, aucun expert du domaine ne passait les résultats au peigne fin pour examiner la qualité des sorties. Combien d’articles impressionnants en apparence ne résisteraient pas à une vérification minutieuse ? »
Est-ce vraiment le cas ? J’ai lu quelques articles d’IA dans mon domaine, et je sais que beaucoup d’autres experts de domaines en lisent aussi. Cela dit, les travaux fondés sur l’informatique et le logiciel semblent globalement plus faciles à vérifier que ceux en biologie. Ou bien c’est peut-être simplement parce que je connais très peu la biologie
- La validation d’étiquettes biologiques peut facilement prendre des années. L’exemple du billet d’origine relevait presque d’une énorme coïncidence heureuse : quelqu’un avait déjà consacré des années à l’une des étiquettes de protéines prédites
  Personne ne va risquer 3 à 5 ans de carrière pour valider des prédictions arbitraires d’un modèle
- Lire un article, vérifier les résultats et certifier leur exactitude sont trois choses différentes. Je lis aussi beaucoup d’articles, mais en général je ne regarde les données sous-jacentes que lorsque je veux les réutiliser à une autre fin
  Dans ces cas-là, je repère assez vite les erreurs d’étiquettes de référence. Bien sûr, la plupart des modèles ne sont pas assez performants pour que ce type d’erreur ait un impact majeur sur les résultats
- En linguistique, j’ai l’impression que les articles utilisant ce genre de techniques sont lus assez attentivement et suscitent aussi des critiques. Mais comme les gens ne prennent pas les linguistes au sérieux, ceux des domaines concernés ignorent ces critiques
Il ne faut pas appeler Nature Communications « Nature ». Leur prestige n’a rien à voir. Et les altmetrics ne sont pas très pertinentes non plus, sauf si l’on veut mesurer l’emballement médiatique
- Mise à jour : l’auteur semble avoir lu cela et corrigé
Cela correspond bien à mon expérience limitée des LLM en tant que chercheur. Leur compréhension apparente de la langue écrite et leur expression sont très impressionnantes
Mais parvenir à la meilleure réponse possible, surtout pour des questions encore non résolues, est une autre affaire. Pour une question sur laquelle on pourrait passer une demi-journée sans parvenir à une conclusion, une réponse fournie presque instantanément est rarement satisfaisante
Les questions complexes demandent du temps d’exploration. Jusqu’ici, même dans des situations où un LLM devrait ne pas conclure faute de capacités, il tend plutôt à produire une réponse qui paraît assurée, parfois totalement fausse, au lieu de reconnaître cet état non résolu
Excellent texte de Rachel Thomas
Cela ressemble à un autre argument montrant que le deep learning, parce qu’il dépend de données d’entraînement qui sont une représentation très avec pertes du domaine fondamental, ne fonctionne au bout du compte que comme une recherche d’information générative. Autrement dit, un perroquet stochastique
Comme les données génétiques ou les étiquettes ne représentent pas toujours parfaitement la biologie, qui est le domaine fondamental, les sorties peuvent être fausses, invalides ou absurdes
Quand cela fonctionne très bien, il y a fuite de données. Les LLM sont par conception des outils de recherche d’information. Du point de vue de la théorie de l’information, tout modèle comporte fondamentalement des « inconnues inconnues »
Ma conclusion est que le problème vient moins de l’algorithme que du jeu de données d’entraînement
Les humains fonctionnent avec souplesse dans le domaine du langage naturel, et même un enfant peut lire un texte et juger s’il a du sens. Cela explique le succès des modèles entraînés pour le traitement automatique du langage naturel
Mais dans les domaines où les données d’entraînement représentent avec pertes le domaine fondamental, l’imperfection est inévitable
- Le paradoxe des LLM modernes est qu’ils ne représentent pas directement le domaine fondamental, mais peuvent représenter des informations présentables sous forme de texte. Ils représentent donc certaines informations, sans que l’on sache toujours clairement lesquelles ni comment elles sont représentées
  L’espace des embeddings peut représenter les relations entre mots, phrases et paragraphes, et celles-ci peuvent contenir des informations sur le domaine fondamental ; en interrogeant ces relations sous forme de texte, on peut donc obtenir des réponses plausibles. Le problème est que le texte est un mode d’encodage brouillon, si bien qu’il n’est pas toujours clair ce que ces relations représentent
  Une autre faiblesse tient à leur caractère génératif. Pour les rendre génératifs, au lieu de coder en dur dans une base de données toutes les questions et réponses possibles, on délègue une partie des données à un algorithme, c’est-à-dire à la prédiction du prochain token. Cela permet des questions et prompts imprécis mais probabilistes, avec l’avantage de pouvoir demander n’importe quoi
  Mais aucun algorithme unique ne peut encoder avec exactitude toutes les réponses possibles à toutes les questions possibles d’un domaine. Une partie de la précision de l’information est donc perdue. C’est ainsi que je vois les LLM actuels
- Même en simplifiant le débat et en supposant qu’il soit tout à fait juste de dire que les LLM sont de la recherche d’information générative, les LLM resteront là
  Il suffit de penser à la manière dont travaille un développeur junior moyen ou en dessous de la moyenne en programmation. Il « recherche » des informations de résolution de problèmes sur Stack Overflow ou dans des tutoriels
  Donner à chaque développeur un bon outil d’automatisation par IA revient un peu à lui adjoindre un développeur junior à qui déléguer les tâches ennuyeuses et simples. Il n’y a pas non plus à craindre qu’un junior ne progresse pas à cause des tâches simples. Avec suffisamment d’outils comme l’analyse statique du code et les tests, un outil d’IA pourra assez bien enchaîner travail, lancement des outils et correction des problèmes
  Le prix de cet outil représente peut-être environ 1/30 du coût d’un développeur junior, non ? Cela libère donc plus de temps pour des tâches importantes, y compris former de vrais développeurs juniors
  Je ne pense pas que l’IA en soit déjà totalement là, mais les modèles de fondation actuels pourraient suffire à y parvenir s’ils sont correctement connectés et combinés
- Je me demande dans quelle mesure le raisonnement menant à la situation décrite par Rachel Thomas fonctionne aussi dans d’autres domaines. C’est un texte important, et je suis d’accord
Cela met bien le doigt sur l’un des problèmes centraux du cycle actuel de battage autour de l’IA. Nous n’optimisons pas l’exactitude, mais l’attention
Et ce n’est pas un problème propre à la biologie. On observe des schémas similaires dans l’application du machine learning à de nombreux domaines, de la climatologie au droit en passant par la médecine

Le deep learning attire l’attention, mais le deep fact-checking est ignoré

Le contraste entre l’article de prédiction enzymatique par IA et sa validation ultérieure

Pourquoi la prédiction de la fonction enzymatique est difficile

L’approche Transformer et ses résultats apparents

Erreurs mises au jour et motifs répétés

Ce que le cas yciO montre du rôle de la connaissance métier

Distinguer « propagation de fonctions connues » et « découverte de véritables fonctions inconnues »

La faible reconnaissance des travaux de validation des données

À lire aussi

1 commentaires

Avis Hacker News