- Google DeepMind a dévoilé un nouveau modèle d’IA pour les séquences ADN appelé AlphaGenome
- Ce modèle améliore la précision de la prédiction des effets des variants de régulation génétique et peut prédire divers processus de régulation génétique
- Il se distingue par sa capacité à prendre en entrée de longues séquences ADN allant jusqu’à 1 million de paires de bases et à prédire à haute résolution divers phénomènes biologiques
- Contrairement aux modèles existants, il peut évaluer en une seule fois l’impact des variants sur divers tissus biologiques et types cellulaires
- AlphaGenome devrait aider les chercheurs à mieux comprendre la fonction des gènes et la biologie des maladies, et à accélérer la découverte de nouveaux traitements
Présentation d’AlphaGenome
- Google DeepMind a présenté un nouveau modèle d’IA pour les séquences ADN nommé AlphaGenome
- En prédisant avec précision l’effet de variants uniques ou mutations influençant la régulation génétique, ce modèle marque un tournant important pour l’étude de la fonction du génome et la compréhension des maladies
- Il est déjà accessible à l’avance via une API à des fins de recherche, et le modèle devrait aussi être publié ultérieurement
Fonctionnement d’AlphaGenome
- AlphaGenome prend en entrée de longues séquences ADN pouvant aller jusqu’à 1 million de paires de bases et prédit diverses propriétés moléculaires
- Parmi les propriétés prédites figurent des milliers d’éléments comme la position des gènes, la quantité d’ARN produite, l’accessibilité de l’ADN et les sites de liaison des protéines
- Le modèle a été entraîné sur de vastes jeux de données publics comme ENCODE, GTEx, 4D Nucleome et FANTOM5
- En interne, il détecte d’abord les motifs courts avec des couches convolutionnelles, puis combine l’information sur l’ensemble de la séquence avec un transformer, avant de produire diverses prédictions
- Il améliore l’efficacité de l’entraînement en traitant de gros volumes de calcul dans un environnement TPU distribué
- Issu d’une évolution du précédent modèle Enformer, il analyse de manière globale les régions non codantes (98 % du génome entier), contrairement à AlphaMissense qui est dédié aux seules régions codant les protéines
Ce qui distingue AlphaGenome
- Analyse de séquences longue portée en très haute résolution : il analyse à l’échelle de 1 million de paires de bases et fournit des résultats avec une précision à l’échelle d’une seule base
- Il offre une meilleure efficacité d’entraînement que les modèles précédents et apprend plus vite avec moins de ressources
- Prédiction multimodale intégrée : un seul modèle prédit simultanément des informations correspondant à différentes étapes de la régulation génétique
- Notation efficace des variants : il compare immédiatement séquence mutée et séquence normale afin de calculer rapidement l’impact des variants sur divers phénomènes biologiques
- Modélisation innovante des jonctions d’épissage : il prédit directement les sites d’épissage et les niveaux d’expression des gènes, contribuant ainsi aussi à la recherche sur les maladies rares
Performances avancées et résultats de benchmark
- AlphaGenome a dépassé ou égalé les meilleurs modèles externes dans 22 des 24 benchmarks de prédiction génomique et dans 24 des 26 évaluations des effets régulateurs des variants
- C’est le seul modèle capable de prédire simultanément, via un seul appel API, divers types de caractéristiques biologiques, là où d’autres modèles sont spécialisés tâche par tâche
Les avantages d’un modèle intégré
- En traitant plusieurs modalités de façon intégrée, il permet aux scientifiques d’itérer rapidement sur différentes hypothèses et expériences
- Il apprend une représentation générale des séquences ADN, ce qui facilite son adaptation, son entraînement complémentaire et son optimisation par la communauté
- Il offre souplesse et scalabilité, avec la possibilité d’étendre le modèle à davantage de données ou de cas d’usage
Un outil de recherche puissant
- Compréhension des maladies : potentiel d’utilisation pour identifier les causes de maladies, notamment les variants rares, et rechercher des cibles thérapeutiques
- Biologie synthétique : possibilité d’utilisation pour concevoir de l’ADN synthétique doté de fonctions spécifiques
- Recherche fondamentale : soutien à la cartographie des éléments fonctionnels clés du génome et à l’identification des éléments régulateurs propres à chaque type cellulaire
- En pratique, AlphaGenome a prédit qu’un variant associé à la T-ALL (leucémie aiguë lymphoblastique) provoquait l’activation du gène TAL1 voisin via la formation d’un motif de liaison de l’ADN pour MYB, reproduisant avec succès le mécanisme par lequel ce variant affecte un gène impliqué dans la maladie
Limites actuelles
- L’identification des effets d’éléments régulateurs très éloignés, situés à plus de 100 000 bases, reste un défi
- La reconnaissance des motifs spécifiques à certains types cellulaires et tissus nécessite encore des recherches supplémentaires
- Les usages de prédiction de génome individuel (diagnostic et prédiction personnalisés) ne sont pas envisagés à ce stade
- Le modèle ne permet que des prédictions au niveau moléculaire et n’explique pas complètement les causes complexes de toutes les maladies
- Il en est encore au stade d’annonce pour la recherche ; une évaluation directe de l’adéquation clinique ou une application thérapeutique ne sont pas encore possibles
Soutien à la communauté et orientations futures
- L’API est disponible immédiatement pour la recherche non commerciale, et Google DeepMind prévoit d’accroître l’utilité d’AlphaGenome par une large collaboration avec la communauté scientifique
- Des retours et cas d’usage sont recueillis via des forums communautaires et d’autres canaux
- Le modèle devrait évoluer vers des versions étendues intégrant davantage de données, d’espèces et de modalités
- Il pourrait favoriser de nouvelles innovations en médecine et en sciences de la vie liées à l’interprétation du génome
Conclusion
- AlphaGenome est un nouvel outil d’analyse génomique fondé sur l’IA, capable d’interpréter en une seule fois la signification des variants génétiques sous plusieurs angles et d’accélérer la recherche fondamentale comme clinique
- En collaboration avec des groupes d’experts externes, Google DeepMind prévoit de diffuser au plus grand nombre les innovations fondées sur les données génomiques
2 commentaires
Je me suis demandé quelles modalités recouvre la multimodalité d’un modèle d’IA dédié à la prédiction génétique, alors j’ai posé la question à o3, qui m’a expliqué que cela inclut notamment le niveau de transcription, les positions de début et de fin de transcription, l’épissage, etc.
Avis Hacker News
On y voit un signe de la pression croissante exercée sur les entreprises : alors qu’il s’agit d’un modèle qui peut tourner sur un seul A100, ni le code ni les paramètres ne sont publiés, il n’est exploité que derrière une API, et la page 31 de l’article colle pratiquement tout le modèle sous forme de pseudo-code ; souhait que Google/Demis/Sergei publient au moins les paramètres ; avec un modèle aussi petit cantonné derrière une API, il ne risque pas de guérir le cancer, et cela ne semble pas non plus devoir générer d’énormes revenus pour GCloud
Il pourrait y avoir une percée dans le domaine de la simulation cellulaire, avec l’espoir d’une simulation aussi utile que la dynamique moléculaire, mais réalisable sur des supercalculateurs modernes ; le fait de ne pas pouvoir voir ce qui se passe à l’intérieur est considéré comme un obstacle majeur à la recherche en sciences de la vie
DeepMind n’est pas le seul à mener des recherches en IA appliquée à fort impact, mais on peut se demander pourquoi l’entreprise se distingue autant dans ce domaine ; est-ce simplement grâce à un excellent marketing technologique, ou y a-t-il autre chose ?
Il est intéressant d’imaginer une extension de la taille d’entrée jusqu’aux 3,2 Gbp du génome humain ; on y verrait sans doute apparaître des interactions intéressantes, et le fait que les U-net et les transformers soient au centre de la recherche est aussi un point notable
On imagine qu’en interne, certaines entreprises pourraient aussi proposer des idées pour améliorer l’efficacité publicitaire à partir des données génomiques ; par exemple, si un risque de cancer colorectal est détecté, diffuser une publicité pour des « compléments pour la santé du côlon », ou analyser les tendances comportementales à partir des informations génétiques pour bâtir des stratégies marketing du type « ce gène est corrélé à une préférence pour l’humour noir ; faisons la promotion du nouveau film auprès des personnes porteuses de ce gène »
Un grand bond des performances de prédiction de l’ARN pourrait offrir une opportunité majeure aux laboratoires travaillant sur l’mRNA
Peu après son arrivée chez Google en 2008, quelqu’un disait déjà qu’il fallait investir massivement dans les sciences de la vie ; conviction que Google pouvait produire des résultats de niveau mondial grâce à ses capacités en traitement de données et en ML, puis aider d’autres biologistes à reproduire ces méthodes ; exacycle a effectivement produit des résultats intéressants sur le repliement et le design des protéines, puis Cloud Genomics a permis d’aller jusqu’à des services de stockage et d’analyse de jeux de données à grande échelle ; au final, DeepMind a réalisé cet objectif de manière bien plus impressionnante encore ; les articles récents sont si riches qu’il faudra du temps à la communauté pour tout assimiler
Il est décevant que l’article ignore l’un de ses plus grands problèmes : parmi les segments d’ADN fortement associés, distinguer les variants réellement causaux des variants non causaux, un travail appelé fine mapping en génétique ; pour identifier des cibles thérapeutiques efficaces, il est crucial de réduire précisément les régions régulatrices clés ; un récent article dans Nature montre un exemple de ce problème et un cas relié à un candidat médicament destiné à réguler la fonction des macrophages dans l’auto-immunité