1 points par GN⁺ 2024-07-14 | 1 commentaires | Partager sur WhatsApp

Introduction

À qui s’adresse cet article

  • Les personnes qui veulent comprendre le fonctionnement d’AlphaFold3
  • Les personnes qui veulent comprendre visuellement des structures complexes
  • Les personnes familières avec le machine learning

Vue d’ensemble de l’architecture

  • AlphaFold3 prédit la structure des protéines, des acides nucléiques, des petites molécules, etc.
  • Il utilise une méthode de featurization/tokenization plus complexe pour traiter des types d’entrée plus complexes

Préparation des entrées

Tokenization

  • Acide aminé standard : 1 token
  • Nucléotide standard : 1 token
  • Acide aminé/nucléotide non standard : 1 token par atome
  • Autres molécules : 1 token par atome

Recherche (génération du MSA et des templates)

  • Recherche de séquences similaires pour générer le MSA et les templates
  • Calcul des distances euclidiennes puis conversion en distogramme

Génération de représentations au niveau atomique

  • Création d’une « structure de référence » pour chaque acide aminé, nucléotide et ligand
  • Génération de la représentation simple au niveau atomique (q) et de la représentation par paires (p)

Mise à jour des représentations au niveau atomique (Atom Transformer)

  • Mise à jour de q et p pour produire de meilleures représentations
  • Utilisation de Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating et Conditioned Transition

Agrégation du niveau atomique vers le niveau token

  • Conversion des représentations au niveau atomique en représentations au niveau token
  • Ajout du MSA et des informations fournies par l’utilisateur

Apprentissage des représentations

Module de templates

  • Mise à jour de z à l’aide des templates

Module MSA

  • Mise à jour du MSA et de z
  • Utilisation de Outer Product Mean et Row-wise Gated Self-Attention Using Only Pair Bias

Module Pairformer

  • Mise à jour de s et de z
  • Utilisation de Triangle Updates et Triangle Attention

Prédiction de structure

Principes de base de la diffusion

  • Utilisation d’un modèle de diffusion pour prédire la structure
  • Ajout puis suppression de bruit afin de générer la structure finale

Résumé de GN⁺

  • AlphaFold3 prédit des structures complexes comme les protéines, les acides nucléiques et les petites molécules
  • L’article facilite la compréhension en expliquant une architecture de modèle complexe avec des diagrammes visuels
  • Il s’agit d’un modèle marquant pour les domaines du machine learning et des biotechnologies
  • Parmi les projets aux fonctions similaires, on peut citer RosettaFold

1 commentaires

 
GN⁺ 2024-07-14
Commentaires sur Hacker News
  • Merci d’avoir traduit l’article pour que les biologistes structuraux puissent comprendre le papier

  • J’ai appris que, dans AF3, le nombre de PTM est limité parce que tous les atomes doivent être traités comme des tokens individuels

  • C’est probablement parce que les PTM apparaissent très rarement dans la PDB

  • C’est un article qui donne un aperçu de la manière dont les réseaux de neurones et les technologies d’IA pourraient être mis en œuvre à l’avenir

  • Beaucoup d’ingénierie et de manipulation astucieuse de techniques existantes sont combinées à un modèle puissant et bien entraîné

  • Des choses comme ChatGPT n’en sont actuellement qu’à la première étape de la création d’un modèle fondamental de généralisation et de traitement des données

  • Il n’y a pas encore beaucoup de travail sur le traitement des entrées pour qu’un modèle puisse les comprendre de manière optimale

  • Il existe des recherches de base dans ce domaine, mais rien d’aussi sophistiqué qu’AlphaFold pour l’instant

  • Les gens combinent des LLM et utilisent des system prompts pour aider au traitement des entrées

  • Quand des systèmes plus complexes apparaîtront, on verra peut-être quelque chose de semblable à une véritable AGI

  • C’est extrêmement complexe

  • Je n’avais jamais entendu parler des algorithmes MSA utilisés pour aligner les séquences protéiques

  • Article impressionnant, merci

  • Je vais le lire plus en détail