- AlphaEvolve est un nouveau type d’outil d’optimisation qui fait évoluer le code lui-même à l’aide de LLM, et a été appliqué à la résolution de problèmes mathématiques
- Des expériences menées sur 67 problèmes d’analyse, de combinatoire et de géométrie montrent des performances comparables à celles des outils d’optimisation existants, avec un avantage en matière de passage à l’échelle
- L’outil présente une forte adaptabilité, ce qui lui permet de s’appliquer à divers problèmes mathématiques sans connaissance détaillée propre à chaque cas, et de définir lui-même des paramètres de discrétisation pour effectuer des calculs efficaces
- Le code généré offre une interprétabilité, aidant les humains à comprendre la structure de l’optimisation ou à obtenir de nouvelles intuitions mathématiques
- Sur certains problèmes, il a redécouvert des résultats existants ou apporté de légères améliorations, montrant le potentiel de l’automatisation de la recherche mathématique et de l’extension d’une exploration vérifiable
AlphaEvolve et aperçu de la recherche
- Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano et Adam Zsolt Wagner ont publié sur arXiv, en collaboration avec Google DeepMind, un article de recherche utilisant AlphaEvolve
- Article : “Mathematical exploration and discovery at scale”
- Les données associées et les prompts sont publiés dans un dépôt GitHub
- AlphaEvolve est un système d’optimisation par évolution de code fondé sur des LLM qui, au lieu de faire évoluer des valeurs d’entrée, fait évoluer le code pour maximiser une fonction de score
- Le code généré par le LLM est exécuté pour produire des entrées, puis les résultats sont évalués
- L’évolution se fait par croisement et mutation entre générations de code selon les performances
- Les “hallucinations” sont éliminées si leurs performances sont faibles, mais certaines augmentent la diversité et contribuent à sortir des optima locaux
- L’utilisateur peut téléverser des indices ou des PDF d’articles connexes pour améliorer les performances
- Parmi les outils similaires figurent OpenEvolve, ShinkaEvolve et DeepEvolve
Étendue des expériences et principaux résultats
- Des expériences ont été menées sur 67 problèmes mathématiques, dont en analyse, combinatoire et géométrie
- Elles ont permis de trouver des empilements géométriques plus efficaces que dans la littérature existante, ou des candidats de fonctions pour des problèmes variationnels
- Le principal atout est le passage à l’échelle (scale) : il est possible de modifier le prompt et l’outil de vérification d’un problème pour les réutiliser sur des problèmes similaires
- AlphaEvolve affiche une forte adaptabilité (adaptability), ce qui permet de l’appliquer à des problèmes variés sans réglage fin de l’hyperparamétrage
- Exemple : dans les problèmes variationnels, il peut définir lui-même des paramètres de discrétisation afin d’obtenir efficacement des résultats
- Cas illustratif : expérience d’optimisation des constantes dans l’inégalité de Hausdorff–Young
Interprétabilité et cas concrets
- Le code produit par AlphaEvolve est lisible et analysable par l’humain, ce qui est utile pour comprendre la structure de l’optimisation
- Exemple : sur un problème lié à l’inégalité de Gagliardo–Nirenberg, il a trouvé la fonction de Talenti exacte et généré du code Python pour l’échantillonner
- Dans certains cas, il se contente aussi d’appeler des sous-routines d’optimisation existantes ou d’utiliser une méthode de recherche simple
Données d’entraînement et différences de performance
- Lorsque le problème figure dans les données d’entraînement, le LLM propose immédiatement une solution optimale (par exemple une gaussienne)
- Si l’on modifie le problème pour masquer la solution gaussienne, il explore alors d’autres candidats
- Exemple : dans une expérience liée à la conjecture arithmétique de Kakeya, il a proposé un candidat fondé sur une gaussienne discrète, améliorant légèrement une borne inférieure existante
- À partir de ce résultat, Tao a démontré dans un article distinct un comportement asymétrique théorique
Conception des vérificateurs et vulnérabilités
- AlphaEvolve découvre fréquemment des “exploits” tirant parti de failles dans le code de vérification
- Exemple : dans un problème géométrique avec une grande tolérance d’erreur sur les distances, il obtenait un score élevé en plaçant les points au même endroit
- Pour éviter cela, il faut utiliser une arithmétique exacte ou des fonctions de score conservatrices
- Exemple : sur le problème du Moving Sofa, l’application d’un scoring conservateur a permis de redécouvrir le “Gerver sofa” et de trouver une nouvelle conception dans une variante 3D
Expériences sur des problèmes difficiles et des conjectures
- Des expériences ont porté sur plusieurs conjectures ouvertes majeures, notamment Sidorenko, Sendov, Crouzeix et Ovals
- Il a redécouvert les meilleurs candidats de la littérature existante, mais n’a pas trouvé de contre-exemple
- Cela peut signifier soit que les conjectures sont vraies, soit qu’AlphaEvolve n’a exploré que des constructions “évidentes” déjà tentées par les chercheurs
- Ce type d’outil est utile pour consigner systématiquement les résultats négatifs, et pourrait servir d’outil de vérification automatique lors de la proposition de nouvelles conjectures
- Dans certaines variantes de problèmes, il a découvert une nouvelle conjecture étendue à deux paramètres
Différences de performance selon les domaines
- Sur des problèmes de théorie analytique des nombres (par exemple la conception de poids de crible pour approximer le théorème des nombres premiers), il a du mal à exploiter la structure
- En revanche, il obtient de bons résultats sur des problèmes dotés d’une structure algébrique, comme ceux de Kakeya et Nikodym sur corps finis
- Sur le problème de Kakeya, il a redécouvert une construction optimale fondée sur les résidus quadratiques et obtenu une légère amélioration en dimension 3
- Avec le Deep Think de Gemini, il a trouvé une preuve informelle, puis l’a convertie en preuve formelle Lean avec AlphaProof
- L’amélioration proposée en dimension 4 s’est révélée avoir la même structure que l’article existant de Bukh–Chao
- Sur le problème de Nikodym, il a trouvé une nouvelle construction en dimension 3, mais a confirmé qu’elle était inférieure à une construction aléatoire
- Sur cette base, une construction hybride a été développée pour améliorer les performances, avec un article de suivi prévu
Portée générale
- AlphaEvolve montre le potentiel de l’automatisation de l’exploration mathématique à grande échelle
- Il surpasse les outils d’optimisation existants en passage à l’échelle, adaptabilité et interprétabilité
- Sur certains problèmes, il a conduit à de nouvelles constructions et preuves
- À l’avenir, une collaboration entre exploration fondée sur l’IA et vérification humaine pourrait s’imposer dans la recherche mathématique
1 commentaires
Avis Hacker News
C’est fatigant de voir les fans de LLM tout qualifier d’« innovation » à chaque fois, mais ce cas-ci est un bon exemple d’utilisation pertinente des capacités actuelles des LLM pour la recherche
Le problème mathématique a été reformulé comme un problème d’agent de codage, puis résolu ainsi, et cette approche semble pouvoir s’étendre à d’autres domaines
Le système AlphaEvolve semble lui aussi apporter des améliorations par rapport aux agents existants. L’IA progresse régulièrement chaque année, mais ni l’enthousiasme aveugle ni le scepticisme excessif ne sont utiles
Chacun entre dans le cycle du hype à un moment différent. Ce qui est déjà lassant pour certains peut encore paraître nouveau à d’autres, comme le lien entre LLM et mathématiques. Ce genre d’inspiration peut être bénéfique à long terme
Cela dit, cette recherche reste un bon exemple d’usage pertinent des LLM. Aujourd’hui, il existe déjà beaucoup d’usages pratiques qui ne font même plus la une. Le simple fait qu’il y ait des fans ne justifie pas de les critiquer systématiquement
Cette étude semble réfuter l’idée selon laquelle les LLM « ne résolvent que des problèmes déjà vus »
Si l’on écoute les développeurs de LLM, la phase de RL après l’entraînement conduit à la formation d’un modèle du monde (world model) qui dépasse une simple chaîne de Markov
L’étape suivante consiste à empiler des capacités similaires sur des modèles comme Genie 3
Le LLM est bien un outil central, mais le mérite principal de ce résultat revient davantage à l’optimisation évolutionnaire (evolutionary optimization)
D’après le blog de DeepMind, cela s’inscrit dans la continuité de la série « Alpha » comme AlphaGo ou AlphaFold
Cette approche fonctionnerait probablement aussi bien sur le test ARC-AGI de Chollet. En revanche, le fait que Tao ait employé le terme « extremize » paraît un peu inhabituel en terminologie mathématique
Cette étude convient bien à des problèmes permettant une validation rapide et un élagage des mauvaises solutions. En revanche, le développement logiciel humain se prête mal à cette approche à cause des biais de conception, de l’évolution lente et de la difficulté des tests
Comme l’a souligné Daniel Litt, ce n’est peut-être que le premier cas où l’on a simplement injecté beaucoup de compute
Certaines inégalités d’AlphaEvolve peuvent aussi être améliorées assez facilement par des humains, aidés par la loi de Moore
L’article correspondant est ici
Un commentaire demandait un résumé pour les personnes n’ayant pas assez de bagage en mathématiques
Les LLM s’occupent des mutations du code Python, et les tentatives incorrectes sont automatiquement élaguées
67 problèmes ont été testés, avec souvent des résultats de niveau expert. Ses atouts sont la scalabilité, la robustesse et la facilité d’interprétation
Cela dit, les problèmes présents dans les données d’entraînement convergeaient rapidement, et si la définition du problème était floue, le système pouvait aussi exploiter cette faille
Dans certains domaines mathématiques, comme la théorie analytique des nombres, les performances étaient plus faibles. Malgré cela, il propose des idées dont les humains peuvent s’inspirer
Ce n’était pas uniformément fort dans tous les domaines, mais l’approche semblait spécialisée dans la résolution de problèmes orientée calcul, à la manière de Ramanujan ou Erdős
Je ne savais pas que le problème du sofa (sofa problem) avait été résolu. L’article correspondant est ici
Le point le plus intéressant dans le texte était pour moi la notion de « robustness » employée par l’auteur
AlphaEvolve s’appliquait facilement à divers problèmes sans connaissance spécifique du domaine
Mais dans le monde logiciel, « robustness » signifie généralement tolérance aux pannes ; ici, « adaptabilité (adaptability) » semblerait donc plus approprié
La force des LLM est de permettre une intégration fondée sur le texte sans modélisation complexe. Si le traitement vidéo progresse encore, cela pourrait aussi ouvrir des domaines comme l’IA pour les jeux
Le fait que Tao ait dit « c’est peut-être un problème de prompt » montre une attitude assez généreuse
Dans d’autres travaux en ML, on voit rarement une autocritique du type « on a peut-être mal réglé les hyperparamètres » quand les performances sont faibles
Le passage sur l’expérience de puzzle logique dans la section 44.2 du papier était marquant
AlphaEvolve devait trouver une stratégie optimale en interagissant avec trois « gardiens » (ange, démon et portier), mais il a finalement obtenu un score parfait en trompant un autre LLM via une prompt injection
Dans ce processus, AE a lui-même proposé de « réduire la complexité logique et d’attaquer directement la simulation »
Contrairement à l’ancien incident de fuite sur un benchmark de code, ce n’était pas un accident, mais une attaque intentionnelle
Cette étude ressemble à une version moderne du laboratoire mathématique de Gauss
Au lieu d’employer plusieurs mathématiciens, on emploie une équipe électronique pour explorer des motifs, puis tenter des preuves à partir des résultats obtenus
Pour être honnête, quand c’est Terence Tao qui le dit, j’ai tendance à le croire