2 points par GN⁺ 2025-09-27 | 1 commentaires | Partager sur WhatsApp
  • SimpleFold est le premier modèle de prédiction du repliement des protéines basé sur le flow-matching publié par Apple, ainsi qu’un framework open source de prédiction de structure protéique
  • Au lieu de conceptions spécialisées complexes propres au domaine, il atteint de hautes performances uniquement avec des couches Transformer génériques et un entraînement génératif par flow-matching
  • Entraîné avec 3B (3 milliards) de paramètres, il affiche une taille record et se montre compétitif face aux modèles SOTA (état de l’art) sur des benchmarks publics
  • Sans modules structurels complexes (attention triangulaire, représentations par paires, etc.), il est plus efficace et mieux adapté au passage à l’échelle sur de grands jeux de données
  • Le modèle peut être ajusté et réentraîné avec des données personnalisées, ce qui lui donne un fort potentiel d’usage concret en bio-informatique, pharmacie et autres domaines

Présentation et importance de SimpleFold

  • SimpleFold est le premier modèle de prédiction du repliement des protéines basé sur le flow-matching présenté par Apple
  • Contrairement aux principaux modèles existants, il utilise uniquement des couches Transformer génériques, sans triangle attention complexe ni biais de représentation par paires
  • Entraîné avec un objectif génératif de flow-matching, il se montre performant non seulement sur une configuration unique, mais aussi en prédiction par ensemble
  • Il a été étendu jusqu’à 3B de paramètres et entraîné à grande échelle en combinant plus de 8,6 millions de protéines avec des données expérimentales PDB
  • Il s’agit du plus grand modèle de repliement des protéines annoncé à ce jour

Fonctions principales et avantages

  • Polyvalence : peut être appliqué à divers domaines et jeux de données sans contrainte particulière
  • Efficacité : l’absence de composants complexes spécialisés lui donne un avantage en vitesse d’entraînement et d’inférence, ainsi qu’en taille de modèle
  • Scalabilité : plusieurs tailles sont proposées, de 100M à 3B de paramètres, avec prise en charge de GPU et de MLX (PyTorch / matériel Apple)
  • Entraînement génératif : prend en charge la prédiction par ensemble, permettant d’obtenir plusieurs résultats de prédiction en une seule fois
  • Adaptation aux données utilisateur : réentraînement, tuning et usages personnalisés libres avec ses propres jeux de données

Exemples d’utilisation et éléments pris en charge

  • Des exemples Jupyter Notebook (sample.ipynb) sont fournis, permettant de prédire immédiatement une structure à partir d’une véritable séquence protéique
  • Inférence haute performance : depuis l’interface en ligne de commande, il est possible de choisir la taille du modèle, de définir le backend d’inférence (MLX, PyTorch), et d’obtenir les fichiers de sortie ainsi que l’indicateur de confiance (pLDDT)
  • Résultats sur jeux de données de benchmark : les prédictions SimpleFold sur des jeux d’évaluation standard (CAMEO22, CASP14, etc.) sont fournies et ouvertes
  • Évaluation : des scripts d’évaluation reliés à des outils existants comme OpenStructure et TMscore sont fournis, permettant diverses évaluations de prédiction de structure

Entraînement et préparation des données

  • Pour l’entraînement, des structures protéiques nettoyées issues de données expérimentales PDB et de plus de 8,6 millions d’entrées AFDB SwissProt/AFESM/AFESM-E sont utilisées
  • Les listes de données (listes de cibles) et fichiers d’exemple sont également publiés afin d’aider les chercheurs à construire des jeux de données adaptés à leurs besoins
  • Le prétraitement des fichiers MMCIF, l’utilisation de Redis et des fichiers de configuration basés sur Hydra permettent de mettre en place facilement l’environnement expérimental
  • Des scripts d’entraînement d’exemple (train.py, train_fsdp.py) et leurs configurations sont fournis

Open source et citation

  • Publié sous licence MIT, il peut être utilisé librement pour la recherche comme pour des usages commerciaux
  • Le code et les modèles incluent des contributions issues de plusieurs projets open source et collaborateurs ; pour plus de détails, voir ACKNOWLEDGEMENTS
  • En cas d’utilisation, citer l’article arXiv (Arxiv:2509.18480)

Conclusion

  • SimpleFold propose à l’industrie un nouveau paradigme : au lieu des architectures complexes sur lesquelles reposaient les modèles classiques de prédiction de structure protéique, il adopte une approche simple mais puissante
  • En particulier, la combinaison d’une architecture Transformer générique et d’un entraînement génératif laisse entrevoir de nombreuses applications créatives en sciences du vivant, découverte de médicaments et bioinformatique

1 commentaires

 
GN⁺ 2025-09-27
Avis Hacker News
  • Le point facile à rater ici, c’est qu’en réalité, le modèle « simple » n’a pas appris le repliement directement à partir de structures expérimentales. La majeure partie des données d’entraînement provient de prédictions de type AlphaFold, elles-mêmes issues de millions de structures protéiques générées par de très gros modèles complexes conçus autour des MSA. Autrement dit, on ne peut pas simplement jeter tous les biais inductifs et les outils MSA : il a bien fallu que quelqu’un construise et fasse tourner ces modèles pour produire les données d’entraînement

    • La leçon que j’en tire ici, c’est la simplicité et la scalabilité. En machine learning, on voit souvent apparaître des modules toujours plus complexes pour améliorer les performances, puis soudain une percée où un modèle simple rivalise avec les modèles complexes. Le fait que ce type d’architecture « simple » fonctionne déjà aussi bien par lui-même laisse penser qu’on pourrait peut-être aller encore plus loin en y réintroduisant de la complexité. Je me demande maintenant s’il serait possible de réinjecter les MSA, et jusqu’où cela pourrait aller. Si j’ai bien compris, un modèle génératif « brouillon » propose plusieurs hypothèses plausibles, puis des « vérificateurs » plus formels s’assurent du respect des lois physiques et géométriques. L’IA réduit un espace de recherche inimaginablement vaste, ce qui évite de gaspiller de coûteuses simulations là où elles ne servent à rien. À mesure que le réseau chargé des hypothèses s’améliore, tout le processus s’accélère. En repensant au passé, cela me rappelle les réseaux de courant rouge, les fonctions de transfert de plus en plus complexes, les chaînes de prétraitement compliquées d’avant les skip-forward layers, les objectifs de normalisation complexes d’avant ReLU, les réseaux GAN à objectifs composés d’avant la diffusion, ou encore les modèles multi-pass complexes d’avant les full-convolutional networks. De ce point de vue, cette recherche m’enthousiasme énormément, non pas parce que ce serait l’architecture optimale, mais justement parce que ça ne l’est probablement pas

    • Je ne sais pas si c’est si étrange. Presque toutes les choses simples ont été considérées comme complexes à un moment donné. C’est précisément ce qu’est l’émergence, et pour trouver une formule générale et simple, il faut généralement d’abord traverser toute la complexité. Il est évident que les phénomènes naturels eux-mêmes découlent en fait de règles relativement simples. C’est un peu comme essayer d’inférer à rebours les règles et les conditions initiales du Game of Life. Ceux qui disent que c’est facile ont clairement un excès de confiance. Mais il y a quand même très peu de gens qui croient réellement que P=NP

    • AlphaFold est un modèle validé par l’observation expérimentale de protéines repliées par diffraction aux rayons X

    • Oui. Pour ceux qui ne le savent pas, les MSA servent à généraliser vers de nouvelles séquences à partir des structures PDB existantes. Si on entraîne sur les résultats d’AlphaFold2, on intègre déjà cette généralisation dans les données, donc le modèle n’a plus besoin de posséder lui-même cette capacité. En gros, il peut se contenter de mémoriser. Cette conclusion simple semble avoir été négligée par les auteurs du papier

  • J’ai découvert le repliement des protéines à l’époque où, en résidence universitaire, l’énergie était presque gratuite et où les serveurs multimédias dormaient, grâce au projet Folding@Home(https://foldingathome.org). Je ne suis pas spécialiste, mais je me demande si, avec le matériel actuel, le repliement des protéines est vraiment beaucoup plus simple qu’avant, ou si cela ne s’applique qu’à certains problèmes précis. Le projet Folding@Home semble d’ailleurs toujours exister

    • Si je ne me trompe pas, Folding@Home était un solveur de simulation fondé sur la physique, tandis qu’AlphaFold et ses descendants, y compris celui dont on parle ici, relèvent de méthodes statistiques. Les méthodes statistiques coûtent beaucoup moins cher en calcul, mais comme elles s’appuient sur des repliements de protéines déjà connus, elles prédisent moins bien dès qu’on s’éloigne du type de protéines présent dans l’ensemble d’entraînement. Il y a donc un compromis entre vitesse et généralité, mais leurs performances sont devenues suffisamment bonnes pour qu’on puisse généralement obtenir la structure repliée de la protéine visée. Une prédiction qui était autrefois quasiment impossible est désormais intégrée au workflow courant

    • J’aimais aussi SETI@Home, et même sans comprendre à 100 % ce que produisaient les calculs, les effets visuels étaient suffisamment marquants pour que ce soit amusant

    • D’après un billet du blog F@H (lien), il reste important de connaître non seulement la forme finale repliée, mais aussi la dynamique du repliement. Les protéines prédites par ML constituent elles aussi des cibles importantes pour valider les simulations et comprendre les mécanismes en jeu

    • Folding@Home est toujours très actif et a produit de nombreuses découvertes remarquables au fil du temps (articles/résultats)

  • Le papier dit en substance : « notre approche est plus simple que les modèles state of the art ». En revanche, il ne met pas vraiment en avant le fait qu’elle est « nettement derrière l’état de l’art sur tous les indicateurs ». Publier un article n’est déjà pas facile, mais si on le met en preprint avec le nom d’une grande entreprise dessus, ça attire visiblement plus l’attention

  • Le dépôt GitHub lié dans le corps de ce billet vaut vraiment le détour (lien arXiv)

    • Rien qu’à lire le résumé, si je comprends bien, cela revient à dire : « il faut toujours de l’IA, mais beaucoup moins que dans les autres méthodes »

    • Je partage aussi le lien GitHub pour ceux que ça intéresse (apple/ml-simplefold)

  • Je me demande pourquoi Apple travaille sur le repliement des protéines

    • Apple a aussi un groupe de recherche en ML. Ils ne font pas uniquement des travaux très “Apple”, mais aussi divers sujets plus généraux d’optimisation et de recherche fondamentale (Apple Machine Learning Research)

    • Je n’en sais rien non plus. Mais j’aimerais bien postuler à un poste de R&D où l’on n’attend pas forcément un chiffre d’affaires direct. Peut-être que ce genre de projet sert aussi de banc d’essai pour tester et affiner leurs puces IA maison

    • Je pense que cela tient à l’inférence locale. Apple semble vouloir miniaturiser ce type de modèles state of the art afin de permettre une inférence rapide sur desktop. Le papier montre d’ailleurs des résultats d’inférence sur un M2 Max 64GB dans la Figure 1E. En réalité, c’est une excellente idée. Même une petite entreprise pharmaceutique pourrait franchir bien plus facilement de nombreux obstacles grâce à une inférence locale rapide. On pourrait aussi tester l’optimisation bayésienne ou le RL sur les séquences générées. En comparaison, AlphaFold demande pas mal de ressources. Et puis l’usage de l’alignement multiple de séquences reste lui-même un peu artificiel, les performances baissent quand il n’existe pas de protéines proches, et le prétraitement est très lourd. Le modèle ESM de Meta, il y a déjà quelques années, avait montré qu’on pouvait très bien s’en sortir sans alignement. AlphaFold n’a pas de magie particulière : c’est juste un problème seq2seq, donc beaucoup d’approches fonctionnent bien. Y compris les attention-free SSMs.

    • Pour vendre des ordinateurs, peut-être ? Il y a 20 ans encore, Apple organisait des sessions d’affiches scientifiques à la WWDC et cherchait à porter PyMol sur Mac. Les images de protéines dans le papier ont été faites avec PyMol, et plus de la moitié des figures de papiers scientifiques de ces 15 dernières années ont probablement été réalisées avec PyMol

    • Je ne sais pas si c’est la vraie raison, mais une bonne partie des projets « AI for science » relèvent en réalité aussi du marketing. Même sans bénéfice direct pour les produits de l’entreprise ni résultats vraiment concrets, ce genre de projet améliore sensiblement le « prestige de marque »

  • Depuis la publication d’AlphaFold, je me demande si les simulations classiques de dynamique moléculaire (MD) sont devenues inutiles dans le domaine du repliement des protéines. Les travaux de DESRES portent-ils encore directement sur le repliement, ou bien sur un tout autre champ de recherche ?

    • La MD traite du mouvement des atomes, alors qu’AlphaFold ne fournit qu’un instantané du résultat final. Autrement dit, AlphaFold ne traite pas la dynamique. L’essentiel, pour la MD, reste donc le mouvement

    • J’ai vérifié parce que je me demandais si les paramètres d’AlphaFold V3 n’étaient fournis qu’à certaines organisations, à usage non commercial uniquement, et pas accessibles à tous (paramètres V3), alors qu’AlphaFold V2, lui, peut être téléchargé par tout le monde (paramètres V2)

    • À l’origine, la MD n’a jamais vraiment été une méthode utilisable en pratique pour la prédiction de structure. Ce n’est pas tant qu’AlphaFold l’a rendue obsolète ; c’est plutôt que la MD est surtout adaptée à l’étude du repliement lui-même — le processus avant l’obtention de la structure finale, ou les mouvements systématiques après le repliement

  • Je me suis demandé ce que représentaient les images de protéines dans le papier : « Figure 1 Résultats de prédiction de SimpleFold… les résultats réels sont en émeraude clair, les prédictions en bleu sarcelle foncé ». Mais je me suis encore plus demandé pourquoi ils avaient choisi cette combinaison de couleurs

    • La figure a) montre le diagramme en ruban de la protéine 7QSW(https://www.ebi.ac.uk/pdbe/entry/pdb/7qsw), c’est-à-dire RubisCO(https://en.wikipedia.org/wiki/RuBisCO), une protéine végétale clé de la photosynthèse. Les couleurs servent à distinguer la prédiction de la vérité terrain. Si la différence est difficile à voir, c’est à la fois à cause du choix des couleurs, comme vous le dites, et parce que la prédiction et la structure réelle sont extrêmement proches. Si la prédiction avait été moins précise, on verrait des segments décalés dans l’espace 3D qui ne s’aligneraient pas correctement
  • J’aimerais bien qu’un spécialiste évalue ce que cette approche pourrait signifier pour la recherche sur le repliement des protéines. Cela semble être un travail très intéressant, mais j’ai du mal à mesurer son impact réel

    • Le modèle est plus simple dans sa représentation et utilise essentiellement seulement un transformer. On peut donc réutiliser directement toutes sortes d’outils et de théories conçus pour les transformers, et surtout le modèle est plus facile à faire monter en échelle. Plus important encore, cela montre qu’il n’y avait pas de magie dans AlphaFold. Plus que les détails d’architecture ou de méthode d’entraînement, l’essentiel consistait au fond à entraîner un grand modèle sur un grand dataset. Beaucoup de gens ayant testé AlphaFold en pratique ont observé qu’il se comportait un peu comme les LLM : très bon sur des entrées proches du dataset d’entraînement, mais avec très peu de généralisation réelle

    • Le modèle évoluera peut-être à l’avenir. On peut se référer à l’avis de certaines personnes (SimpleFold et l’avenir de la prédiction de structure des protéines). Mais la recherche prend toujours du temps, et il faut souvent attendre des mois ou des années pour mesurer l’impact réel. Les prévisions sur l’avenir restent limitées

  • Ce n’est pas totalement nouveau, mais il est très impressionnant de voir la tendance à la simplification progressive des modèles de repliement des protéines. Entre AF2 et AF3 déjà, la complexité du modèle avait diminué, et ce travail pousse encore plus loin cette tendance en appliquant la « bitter lesson »

    • Je me demande si AF3 n’a pas pu garantir ses performances justement parce que les données d’entraînement incluaient déjà des résultats AF2, donc déjà chargés d’un grand nombre de biais inductifs
  • La technique de flow matching présentée dans le papier est vraiment fascinante. Je l’ai découverte en étudiant dans le contexte de l’IA générative, et je trouve remarquable qu’une méthode empruntant à la thermodynamique et au mouvement brownien soit réutilisée de façon aussi naturelle pour résoudre un problème de repliement des protéines