3 points par GN⁺ 2024-09-05 | 1 commentaires | Partager sur WhatsApp
  • Les fondateurs de Ligo Biosciences ont partagé une implémentation open source d’AlphaFold3, le modèle le plus récent pour la prédiction de structures protéiques
  • Google DeepMind et leur nouvelle startup Isomorphic Labs étendent leurs activités à la découverte de médicaments
    • En développant AlphaFold3, ils accélèrent la découverte de médicaments et créent une demande de la part des laboratoires pharmaceutiques
    • Ils ont déjà signé des contrats d’une valeur de 3 milliards de dollars avec Novartis et Eli Lilly
  • AlphaFold3 est un modèle de prédiction de structures biomoléculaires (biomolecular structure prediction) qui remplit trois fonctions majeures
    • prédiction de structures protéiques
    • prédiction de structures d’interaction médicament-protéine
    • prédiction de structures de complexes acide nucléique-protéine
  • AlphaFold3 est extrêmement important pour la science, car il accélère de façon spectaculaire la cartographie des structures protéiques
    • Là où un doctorant peut passer toute sa thèse à étudier une seule structure, AlphaFold3 permet d’obtenir en quelques minutes des prédictions comparables à la précision expérimentale
  • Le problème est que DeepMind a annoncé AlphaFold3 en mai, mais n’a pas publié le code
    • Cela a suscité des interrogations sur la reproductibilité et du mécontentement dans la communauté scientifique
  • AlphaFold3 représente une avancée fondamentale dans les technologies de modélisation structurale dont l’ensemble du secteur biotech peut bénéficier, avec un champ d’application très large
    • technologie d’édition génétique CRISPR : les scientifiques peuvent voir précisément comment l’ADN interagit avec les protéines Cas qui servent de ciseaux moléculaires
    • recherche sur le cancer : possibilité de prédire comment des médicaments potentiels se lient à des cibles cancéreuses. L’un des points forts de l’article de DeepMind est la prédiction de la structure du complexe entre un inhibiteur clinique de KRAS et sa cible
    • prédiction des anticorps/nanobodies et de leurs cibles : AlphaFold3 double la précision sur cette classe de molécules par rapport aux outils de second rang
  • Malheureusement, en raison de sa licence non commerciale, aucune entreprise ne peut l’utiliser
  • C’est pourquoi une implémentation open source d’AlphaFold3 a été publiée
    • Le modèle complet entraîné sur des protéines à chaîne unique est rendu public, et les deux autres fonctions seront bientôt entraînées puis publiées
    • Le code d’entraînement est également inclus
    • Les poids seront publiés une fois l’entraînement et le benchmarking terminés
    • Le projet utilise la licence Apache 2.0 afin d’être véritablement open source
  • DeepMind a dévoilé l’architecture complète du modèle dans son article, accompagnée de pseudo-code pour chaque composant
    • L’équipe l’a entièrement traduit en PyTorch, ce qui a demandé davantage de reverse engineering que prévu
  • Lors de l’implémentation initiale, plusieurs problèmes susceptibles de perturber l’entraînement ont été identifiés dans l’article de DeepMind. Cela devrait intéresser la communauté du deep learning
    • Le scaling de la loss MSE diffère de Karras et al. (2022). Les pondérations fournies dans l’article ne réduisent pas la loss à des niveaux de bruit élevés
    • Une residual layer manque dans l’article
      • L’ajout de cette residual layer manquante a amélioré le gradient flow et la convergence
      • L’équipe se demande si quelqu’un sait pourquoi DeepMind a omis la residual connection dans le bloc DiT
    • La forme actuelle du module MSA contient une dead layer
      • Le pair weighted averaging final et la transition layer ne peuvent pas contribuer à la pair representation, donc le gradient ne se propage pas
      • Ils ont remplacé cela par un ordre similaire à celui d’ExtraMsaStack dans AlphaFold2
      • L’utilisation du weight sharing pourrait aussi être une alternative, mais l’article reste flou sur ce point
  • Chez Ligo (YC S24), les idées d’AlphaFold3 sont utilisées pour la conception d’enzymes
  • L’open source d’AlphaFold3 est considéré comme une mission secondaire utile à la communauté

L’avis de GN⁺

  • AlphaFold3 est une technologie révolutionnaire dans le domaine de la prédiction de structures protéiques, et devrait avoir un impact majeur sur la découverte de médicaments et la recherche en sciences de la vie
  • Toutefois, le fait que DeepMind n’ait pas publié le code peut être vu comme contraire aux principes de reproductibilité et d’esprit de collaboration de la communauté scientifique
  • Parmi les projets open source offrant des fonctions similaires à AlphaFold3, on peut citer OpenFold, RoseTTAFold, etc.
  • Lors de l’adoption d’AlphaFold3, il faut examiner attentivement la précision et les limites du modèle, ainsi que les besoins en ressources de calcul
  • L’arrivée d’une implémentation open source permet à davantage de chercheurs et d’entreprises de bénéficier d’AlphaFold3, mais des contraintes subsistent encore pour une commercialisation

1 commentaires

 
GN⁺ 2024-09-05
Avis Hacker News
  • DeepMind et AlphaFold sont en train de basculer vers du closed source

    • Isomorphic Labs a été créé comme division d'Alphabet pour se concentrer sur des travaux closed source
    • Une version open source d'un outil académique semblerait théoriquement préférable
    • Sans être familier du domaine, il est difficile d'indiquer des avantages concrets
    • Curiosité quant aux projets de l'entreprise
    • On se demande s'ils continueront à travailler sur des projets open source dans le cadre de leur business model, ou si c'est ponctuel
    • Le site web reste très vague sur ce qu'il cherche à vendre
  • Curiosité sur la manière dont les prédictions sont validées

    • On se demande s'il faut toujours utiliser des techniques expérimentales comme la cristallographie aux rayons X, la cryo-microscopie électronique, etc., après la prédiction
    • On se demande si les prédictions sont suffisamment proches de la réalité pour avancer sans expérimentation
  • Curiosité quant à la publication d'un article sur l'implémentation

    • Cela faciliterait les citations dans la littérature plus tard
    • On se demande si les grandes revues accepteraient un tel article
    • Cela semblerait acceptable s'il existe des questions de reproductibilité
  • Heureux que cette version ouverte puisse être utilisée dans un environnement commercial

    • C'est une excellente manière de lancer une entreprise
  • Il semblerait préférable de changer le nom de cette implémentation

    • Parce que ce n'est pas réellement AlphaFold3
    • Ils pourraient recevoir de DM une demande de cessation d'utilisation du nom
  • Le code du modèle lui-même n'est qu'une petite partie du défi

    • Le calcul d'entraînement et les données d'entraînement représentent une part bien plus importante
    • Google a probablement accès à une capacité de calcul d'entraînement à plus grande échelle que n'importe qui d'autre
  • Brève expérience en protéomique computationnelle

    • Ce domaine est vraiment d'un niveau supérieur
  • Qui aurait cru que publier uniquement du pseudocode ne suffirait pas

    • Heureux de voir le système immunitaire scientifique lutter contre la science fermée
    • Curiosité quant au prochain mouvement de Google
  • Curiosité sur leur familiarité avec ColabFold

  • Curiosité sur la prochaine étape

    • On se demande pourquoi ils ont décidé de se concentrer sur la conception d'enzymes