AlphaGenome : une IA pour mieux comprendre le génome

(deepmind.google)

1 points par GN⁺ 2025-06-27 | 2 commentaires | Partager sur WhatsApp

Google DeepMind a dévoilé un nouveau modèle d’IA pour les séquences ADN appelé AlphaGenome
Ce modèle améliore la précision de la prédiction des effets des variants de régulation génétique et peut prédire divers processus de régulation génétique
Il se distingue par sa capacité à prendre en entrée de longues séquences ADN allant jusqu’à 1 million de paires de bases et à prédire à haute résolution divers phénomènes biologiques
Contrairement aux modèles existants, il peut évaluer en une seule fois l’impact des variants sur divers tissus biologiques et types cellulaires
AlphaGenome devrait aider les chercheurs à mieux comprendre la fonction des gènes et la biologie des maladies, et à accélérer la découverte de nouveaux traitements

Présentation d’AlphaGenome

Google DeepMind a présenté un nouveau modèle d’IA pour les séquences ADN nommé AlphaGenome
En prédisant avec précision l’effet de variants uniques ou mutations influençant la régulation génétique, ce modèle marque un tournant important pour l’étude de la fonction du génome et la compréhension des maladies
Il est déjà accessible à l’avance via une API à des fins de recherche, et le modèle devrait aussi être publié ultérieurement

Fonctionnement d’AlphaGenome

AlphaGenome prend en entrée de longues séquences ADN pouvant aller jusqu’à 1 million de paires de bases et prédit diverses propriétés moléculaires
Parmi les propriétés prédites figurent des milliers d’éléments comme la position des gènes, la quantité d’ARN produite, l’accessibilité de l’ADN et les sites de liaison des protéines
Le modèle a été entraîné sur de vastes jeux de données publics comme ENCODE, GTEx, 4D Nucleome et FANTOM5
En interne, il détecte d’abord les motifs courts avec des couches convolutionnelles, puis combine l’information sur l’ensemble de la séquence avec un transformer, avant de produire diverses prédictions
Il améliore l’efficacité de l’entraînement en traitant de gros volumes de calcul dans un environnement TPU distribué
Issu d’une évolution du précédent modèle Enformer, il analyse de manière globale les régions non codantes (98 % du génome entier), contrairement à AlphaMissense qui est dédié aux seules régions codant les protéines

Ce qui distingue AlphaGenome

Analyse de séquences longue portée en très haute résolution : il analyse à l’échelle de 1 million de paires de bases et fournit des résultats avec une précision à l’échelle d’une seule base
Il offre une meilleure efficacité d’entraînement que les modèles précédents et apprend plus vite avec moins de ressources
Prédiction multimodale intégrée : un seul modèle prédit simultanément des informations correspondant à différentes étapes de la régulation génétique
Notation efficace des variants : il compare immédiatement séquence mutée et séquence normale afin de calculer rapidement l’impact des variants sur divers phénomènes biologiques
Modélisation innovante des jonctions d’épissage : il prédit directement les sites d’épissage et les niveaux d’expression des gènes, contribuant ainsi aussi à la recherche sur les maladies rares

Performances avancées et résultats de benchmark

AlphaGenome a dépassé ou égalé les meilleurs modèles externes dans 22 des 24 benchmarks de prédiction génomique et dans 24 des 26 évaluations des effets régulateurs des variants
C’est le seul modèle capable de prédire simultanément, via un seul appel API, divers types de caractéristiques biologiques, là où d’autres modèles sont spécialisés tâche par tâche

Les avantages d’un modèle intégré

En traitant plusieurs modalités de façon intégrée, il permet aux scientifiques d’itérer rapidement sur différentes hypothèses et expériences
Il apprend une représentation générale des séquences ADN, ce qui facilite son adaptation, son entraînement complémentaire et son optimisation par la communauté
Il offre souplesse et scalabilité, avec la possibilité d’étendre le modèle à davantage de données ou de cas d’usage

Un outil de recherche puissant

Compréhension des maladies : potentiel d’utilisation pour identifier les causes de maladies, notamment les variants rares, et rechercher des cibles thérapeutiques
Biologie synthétique : possibilité d’utilisation pour concevoir de l’ADN synthétique doté de fonctions spécifiques
Recherche fondamentale : soutien à la cartographie des éléments fonctionnels clés du génome et à l’identification des éléments régulateurs propres à chaque type cellulaire
En pratique, AlphaGenome a prédit qu’un variant associé à la T-ALL (leucémie aiguë lymphoblastique) provoquait l’activation du gène TAL1 voisin via la formation d’un motif de liaison de l’ADN pour MYB, reproduisant avec succès le mécanisme par lequel ce variant affecte un gène impliqué dans la maladie

Limites actuelles

L’identification des effets d’éléments régulateurs très éloignés, situés à plus de 100 000 bases, reste un défi
La reconnaissance des motifs spécifiques à certains types cellulaires et tissus nécessite encore des recherches supplémentaires
Les usages de prédiction de génome individuel (diagnostic et prédiction personnalisés) ne sont pas envisagés à ce stade
Le modèle ne permet que des prédictions au niveau moléculaire et n’explique pas complètement les causes complexes de toutes les maladies
Il en est encore au stade d’annonce pour la recherche ; une évaluation directe de l’adéquation clinique ou une application thérapeutique ne sont pas encore possibles

Soutien à la communauté et orientations futures

L’API est disponible immédiatement pour la recherche non commerciale, et Google DeepMind prévoit d’accroître l’utilité d’AlphaGenome par une large collaboration avec la communauté scientifique
Des retours et cas d’usage sont recueillis via des forums communautaires et d’autres canaux
Le modèle devrait évoluer vers des versions étendues intégrant davantage de données, d’espèces et de modalités
Il pourrait favoriser de nouvelles innovations en médecine et en sciences de la vie liées à l’interprétation du génome

Conclusion

AlphaGenome est un nouvel outil d’analyse génomique fondé sur l’IA, capable d’interpréter en une seule fois la signification des variants génétiques sous plusieurs angles et d’accélérer la recherche fondamentale comme clinique
En collaboration avec des groupes d’experts externes, Google DeepMind prévoit de diffuser au plus grand nombre les innovations fondées sur les données génomiques

2 commentaires

galadbran 2025-06-27

Je me suis demandé quelles modalités recouvre la multimodalité d’un modèle d’IA dédié à la prédiction génétique, alors j’ai posé la question à o3, qui m’a expliqué que cela inclut notamment le niveau de transcription, les positions de début et de fin de transcription, l’épissage, etc.

GN⁺ 2025-06-27

Avis Hacker News

On y voit un signe de la pression croissante exercée sur les entreprises : alors qu’il s’agit d’un modèle qui peut tourner sur un seul A100, ni le code ni les paramètres ne sont publiés, il n’est exploité que derrière une API, et la page 31 de l’article colle pratiquement tout le modèle sous forme de pseudo-code ; souhait que Google/Demis/Sergei publient au moins les paramètres ; avec un modèle aussi petit cantonné derrière une API, il ne risque pas de guérir le cancer, et cela ne semble pas non plus devoir générer d’énormes revenus pour GCloud
Il pourrait y avoir une percée dans le domaine de la simulation cellulaire, avec l’espoir d’une simulation aussi utile que la dynamique moléculaire, mais réalisable sur des supercalculateurs modernes ; le fait de ne pas pouvoir voir ce qui se passe à l’intérieur est considéré comme un obstacle majeur à la recherche en sciences de la vie
- Arc tente effectivement de relever ce défi ; plus de détails dans cet article lié sur arcinstitute.org
- Ce point pourrait être résolu par l’informatique quantique, mais cela prendra probablement encore une dizaine d’années ; l’accélération par l’IA est plus difficile à prévoir
- Souhait qu’il y ait davantage d’efforts pour créer de véritables simulations déterministes ; il semble plus important d’exposer les mécanismes internes que de se contenter d’une boîte noire qui ne montre que le résultat
DeepMind n’est pas le seul à mener des recherches en IA appliquée à fort impact, mais on peut se demander pourquoi l’entreprise se distingue autant dans ce domaine ; est-ce simplement grâce à un excellent marketing technologique, ou y a-t-il autre chose ?
- Cet article est une recherche bien menée, mais il ne semble pas s’agir d’une innovation révolutionnaire ; des tentatives similaires existent depuis longtemps
- DeepMind travaille là-dessus depuis longtemps, avec l’appui des ressources massives fournies par Google ; selon Perplexity, la construction de la base de données AlphaFold 2 aurait demandé « des millions d’heures GPU »
- Dans les sciences de la vie, l’Arc Institute mène actuellement des recherches très rafraîchissantes ; côté laboratoires pharmaceutiques, Genentech ou GSK obtiennent aussi d’excellents résultats avec leurs groupes IA
- Comme il s’agit d’une organisation appartenant à Google, le soutien d’une entreprise valant 2 000 milliards de dollars apporte selon toute vraisemblance bien plus qu’un simple avantage marketing
Il est intéressant d’imaginer une extension de la taille d’entrée jusqu’aux 3,2 Gbp du génome humain ; on y verrait sans doute apparaître des interactions intéressantes, et le fait que les U-net et les transformers soient au centre de la recherche est aussi un point notable
- En pratique, il ne semble pas nécessaire d’aller au-delà de 2 mégabases ; le génome n’est pas une séquence continue unique, il est physiquement séparé et organisé par chromosome et par topologically associated domain ; environ 2 mégabases couvrent déjà la quasi-totalité des principales plages d’interaction entre les cis regulatory elements et les gènes effecteurs
- À propos du fait que « tout tourne autour des U-net et des transformers », mention du point de vue de « quelqu’un qui n’a qu’un marteau »
On imagine qu’en interne, certaines entreprises pourraient aussi proposer des idées pour améliorer l’efficacité publicitaire à partir des données génomiques ; par exemple, si un risque de cancer colorectal est détecté, diffuser une publicité pour des « compléments pour la santé du côlon », ou analyser les tendances comportementales à partir des informations génétiques pour bâtir des stratégies marketing du type « ce gène est corrélé à une préférence pour l’humour noir ; faisons la promotion du nouveau film auprès des personnes porteuses de ce gène »
Un grand bond des performances de prédiction de l’ARN pourrait offrir une opportunité majeure aux laboratoires travaillant sur l’mRNA
- (Réponse juste en dessous : ce point pourrait être encore plus marqué en dehors des États-Unis)
Peu après son arrivée chez Google en 2008, quelqu’un disait déjà qu’il fallait investir massivement dans les sciences de la vie ; conviction que Google pouvait produire des résultats de niveau mondial grâce à ses capacités en traitement de données et en ML, puis aider d’autres biologistes à reproduire ces méthodes ; exacycle a effectivement produit des résultats intéressants sur le repliement et le design des protéines, puis Cloud Genomics a permis d’aller jusqu’à des services de stockage et d’analyse de jeux de données à grande échelle ; au final, DeepMind a réalisé cet objectif de manière bien plus impressionnante encore ; les articles récents sont si riches qu’il faudra du temps à la communauté pour tout assimiler
- Accord avec l’idée que Sundar n’est pas un leader particulièrement inspirant comme CEO de Google, mais il a fait passer le bénéfice trimestriel de 3B en 2015, avant sa prise de fonction, à 35B au T1 2025, soit une croissance par 10 ; il a maintenu le cap sur l’activité publicitaire et construit la rentabilité actuelle ; la transition vers l’IA a été un peu tardive, mais Gemini semble rester compétitif, et DeepMind aussi produit des résultats remarquables ; en somme, « Sundar suscite peu de hype, mais ses résultats sont excellents »
- Avis selon lequel le commentaire « je suis heureux de voir se réaliser ce vieux souhait » sonne assez narcissique ; même si beaucoup de gens ont de grandes idées, il est étrange de dire « enfin ! mon idée est arrivée dans le monde… »
- Question demandant s’il y a déjà eu une conversation sur ce sujet dans la navette de Santa Cruz par le passé ; les échanges de l’époque étaient extrêmement intéressants, et l’arrivée d’AlphaGenome reste enthousiasmante
- Du point de vue d’un employé actuel de Google, l’avis sur Sundar est très nuancé ; on lui reconnaît d’avoir investi tôt dans l’infrastructure et les outils pour l’IA, mais il faudrait selon certains attribuer plus de mérite à Jeff Dean qu’à Demis
Il est décevant que l’article ignore l’un de ses plus grands problèmes : parmi les segments d’ADN fortement associés, distinguer les variants réellement causaux des variants non causaux, un travail appelé fine mapping en génétique ; pour identifier des cibles thérapeutiques efficaces, il est crucial de réduire précisément les régions régulatrices clés ; un récent article dans Nature montre un exemple de ce problème et un cas relié à un candidat médicament destiné à réguler la fonction des macrophages dans l’auto-immunité
- Question de savoir si ces résultats rapprochent malgré tout de cette direction ; sans être expert du domaine, il semble que de meilleures prédictions fonctionnelles faciliteraient la distinction entre variants réellement importants et variants sans signification ; l’étape suivante serait probablement une intégration avec de vraies méthodes statistiques de fine mapping