4 points par GN⁺ 2025-11-08 | 1 commentaires | Partager sur WhatsApp
  • AlphaEvolve est un nouveau type d’outil d’optimisation qui fait évoluer le code lui-même à l’aide de LLM, et a été appliqué à la résolution de problèmes mathématiques
  • Des expériences menées sur 67 problèmes d’analyse, de combinatoire et de géométrie montrent des performances comparables à celles des outils d’optimisation existants, avec un avantage en matière de passage à l’échelle
  • L’outil présente une forte adaptabilité, ce qui lui permet de s’appliquer à divers problèmes mathématiques sans connaissance détaillée propre à chaque cas, et de définir lui-même des paramètres de discrétisation pour effectuer des calculs efficaces
  • Le code généré offre une interprétabilité, aidant les humains à comprendre la structure de l’optimisation ou à obtenir de nouvelles intuitions mathématiques
  • Sur certains problèmes, il a redécouvert des résultats existants ou apporté de légères améliorations, montrant le potentiel de l’automatisation de la recherche mathématique et de l’extension d’une exploration vérifiable

AlphaEvolve et aperçu de la recherche

  • Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano et Adam Zsolt Wagner ont publié sur arXiv, en collaboration avec Google DeepMind, un article de recherche utilisant AlphaEvolve
    • Article : “Mathematical exploration and discovery at scale”
    • Les données associées et les prompts sont publiés dans un dépôt GitHub
  • AlphaEvolve est un système d’optimisation par évolution de code fondé sur des LLM qui, au lieu de faire évoluer des valeurs d’entrée, fait évoluer le code pour maximiser une fonction de score
    • Le code généré par le LLM est exécuté pour produire des entrées, puis les résultats sont évalués
    • L’évolution se fait par croisement et mutation entre générations de code selon les performances
    • Les “hallucinations” sont éliminées si leurs performances sont faibles, mais certaines augmentent la diversité et contribuent à sortir des optima locaux
  • L’utilisateur peut téléverser des indices ou des PDF d’articles connexes pour améliorer les performances
  • Parmi les outils similaires figurent OpenEvolve, ShinkaEvolve et DeepEvolve

Étendue des expériences et principaux résultats

  • Des expériences ont été menées sur 67 problèmes mathématiques, dont en analyse, combinatoire et géométrie
    • Elles ont permis de trouver des empilements géométriques plus efficaces que dans la littérature existante, ou des candidats de fonctions pour des problèmes variationnels
  • Le principal atout est le passage à l’échelle (scale) : il est possible de modifier le prompt et l’outil de vérification d’un problème pour les réutiliser sur des problèmes similaires
  • AlphaEvolve affiche une forte adaptabilité (adaptability), ce qui permet de l’appliquer à des problèmes variés sans réglage fin de l’hyperparamétrage
    • Exemple : dans les problèmes variationnels, il peut définir lui-même des paramètres de discrétisation afin d’obtenir efficacement des résultats
    • Cas illustratif : expérience d’optimisation des constantes dans l’inégalité de Hausdorff–Young

Interprétabilité et cas concrets

  • Le code produit par AlphaEvolve est lisible et analysable par l’humain, ce qui est utile pour comprendre la structure de l’optimisation
    • Exemple : sur un problème lié à l’inégalité de Gagliardo–Nirenberg, il a trouvé la fonction de Talenti exacte et généré du code Python pour l’échantillonner
  • Dans certains cas, il se contente aussi d’appeler des sous-routines d’optimisation existantes ou d’utiliser une méthode de recherche simple

Données d’entraînement et différences de performance

  • Lorsque le problème figure dans les données d’entraînement, le LLM propose immédiatement une solution optimale (par exemple une gaussienne)
    • Si l’on modifie le problème pour masquer la solution gaussienne, il explore alors d’autres candidats
  • Exemple : dans une expérience liée à la conjecture arithmétique de Kakeya, il a proposé un candidat fondé sur une gaussienne discrète, améliorant légèrement une borne inférieure existante
    • À partir de ce résultat, Tao a démontré dans un article distinct un comportement asymétrique théorique

Conception des vérificateurs et vulnérabilités

  • AlphaEvolve découvre fréquemment des “exploits” tirant parti de failles dans le code de vérification
    • Exemple : dans un problème géométrique avec une grande tolérance d’erreur sur les distances, il obtenait un score élevé en plaçant les points au même endroit
  • Pour éviter cela, il faut utiliser une arithmétique exacte ou des fonctions de score conservatrices
    • Exemple : sur le problème du Moving Sofa, l’application d’un scoring conservateur a permis de redécouvrir le “Gerver sofa” et de trouver une nouvelle conception dans une variante 3D

Expériences sur des problèmes difficiles et des conjectures

  • Des expériences ont porté sur plusieurs conjectures ouvertes majeures, notamment Sidorenko, Sendov, Crouzeix et Ovals
    • Il a redécouvert les meilleurs candidats de la littérature existante, mais n’a pas trouvé de contre-exemple
    • Cela peut signifier soit que les conjectures sont vraies, soit qu’AlphaEvolve n’a exploré que des constructions “évidentes” déjà tentées par les chercheurs
  • Ce type d’outil est utile pour consigner systématiquement les résultats négatifs, et pourrait servir d’outil de vérification automatique lors de la proposition de nouvelles conjectures
  • Dans certaines variantes de problèmes, il a découvert une nouvelle conjecture étendue à deux paramètres

Différences de performance selon les domaines

  • Sur des problèmes de théorie analytique des nombres (par exemple la conception de poids de crible pour approximer le théorème des nombres premiers), il a du mal à exploiter la structure
    • En revanche, il obtient de bons résultats sur des problèmes dotés d’une structure algébrique, comme ceux de Kakeya et Nikodym sur corps finis
  • Sur le problème de Kakeya, il a redécouvert une construction optimale fondée sur les résidus quadratiques et obtenu une légère amélioration en dimension 3
    • Avec le Deep Think de Gemini, il a trouvé une preuve informelle, puis l’a convertie en preuve formelle Lean avec AlphaProof
    • L’amélioration proposée en dimension 4 s’est révélée avoir la même structure que l’article existant de Bukh–Chao
  • Sur le problème de Nikodym, il a trouvé une nouvelle construction en dimension 3, mais a confirmé qu’elle était inférieure à une construction aléatoire
    • Sur cette base, une construction hybride a été développée pour améliorer les performances, avec un article de suivi prévu

Portée générale

  • AlphaEvolve montre le potentiel de l’automatisation de l’exploration mathématique à grande échelle
    • Il surpasse les outils d’optimisation existants en passage à l’échelle, adaptabilité et interprétabilité
    • Sur certains problèmes, il a conduit à de nouvelles constructions et preuves
  • À l’avenir, une collaboration entre exploration fondée sur l’IA et vérification humaine pourrait s’imposer dans la recherche mathématique

1 commentaires

 
GN⁺ 2025-11-08
Avis Hacker News
  • C’est fatigant de voir les fans de LLM tout qualifier d’« innovation » à chaque fois, mais ce cas-ci est un bon exemple d’utilisation pertinente des capacités actuelles des LLM pour la recherche
    Le problème mathématique a été reformulé comme un problème d’agent de codage, puis résolu ainsi, et cette approche semble pouvoir s’étendre à d’autres domaines
    Le système AlphaEvolve semble lui aussi apporter des améliorations par rapport aux agents existants. L’IA progresse régulièrement chaque année, mais ni l’enthousiasme aveugle ni le scepticisme excessif ne sont utiles

    • On voit aussi ce type de plainte revenir en boucle. Si ça ne plaît pas, pourquoi ne pas simplement passer son chemin ?
      Chacun entre dans le cycle du hype à un moment différent. Ce qui est déjà lassant pour certains peut encore paraître nouveau à d’autres, comme le lien entre LLM et mathématiques. Ce genre d’inspiration peut être bénéfique à long terme
    • Les sceptiques des LLM attaquent eux aussi les fans à chaque occasion, pour entretenir leur petit monde autosatisfait de la « bulle IA »
      Cela dit, cette recherche reste un bon exemple d’usage pertinent des LLM. Aujourd’hui, il existe déjà beaucoup d’usages pratiques qui ne font même plus la une. Le simple fait qu’il y ait des fans ne justifie pas de les critiquer systématiquement
  • Cette étude semble réfuter l’idée selon laquelle les LLM « ne résolvent que des problèmes déjà vus »
    Si l’on écoute les développeurs de LLM, la phase de RL après l’entraînement conduit à la formation d’un modèle du monde (world model) qui dépasse une simple chaîne de Markov
    L’étape suivante consiste à empiler des capacités similaires sur des modèles comme Genie 3

    • Si l’on regarde la section 2 de l’article cité dans le billet, le LLM y est utilisé comme fonction de mutation (mutation function) dans une boucle évolutionnaire
      Le LLM est bien un outil central, mais le mérite principal de ce résultat revient davantage à l’optimisation évolutionnaire (evolutionary optimization)
    • Je ne pense pas que cette étude réfute vraiment cette affirmation. Elle nécessite toujours une intervention minutieuse d’experts, et une pensée non liée aux LLM reste indispensable
    • AlphaEvolve n’est pas le LLM lui-même, mais un agent de codage évolutionnaire qui utilise des LLM pour générer du code
      D’après le blog de DeepMind, cela s’inscrit dans la continuité de la série « Alpha » comme AlphaGo ou AlphaFold
      Cette approche fonctionnerait probablement aussi bien sur le test ARC-AGI de Chollet. En revanche, le fait que Tao ait employé le terme « extremize » paraît un peu inhabituel en terminologie mathématique
    • D’après ce billet, il est possible que les solutions du papier aient en réalité déjà existé dans la littérature
    • Dire que « les LLM ne résolvent que des problèmes déjà vus » est trop simpliste
      Cette étude convient bien à des problèmes permettant une validation rapide et un élagage des mauvaises solutions. En revanche, le développement logiciel humain se prête mal à cette approche à cause des biais de conception, de l’évolution lente et de la difficulté des tests
  • Comme l’a souligné Daniel Litt, ce n’est peut-être que le premier cas où l’on a simplement injecté beaucoup de compute
    Certaines inégalités d’AlphaEvolve peuvent aussi être améliorées assez facilement par des humains, aidés par la loi de Moore
    L’article correspondant est ici

  • Un commentaire demandait un résumé pour les personnes n’ayant pas assez de bagage en mathématiques

    • Je ne suis pas expert, mais en résumé, Terence Tao est un mathématicien de renommée mondiale, et AlphaEvolve est un outil d’optimisation basé sur des LLM de Google
      Les LLM s’occupent des mutations du code Python, et les tentatives incorrectes sont automatiquement élaguées
      67 problèmes ont été testés, avec souvent des résultats de niveau expert. Ses atouts sont la scalabilité, la robustesse et la facilité d’interprétation
      Cela dit, les problèmes présents dans les données d’entraînement convergeaient rapidement, et si la définition du problème était floue, le système pouvait aussi exploiter cette faille
      Dans certains domaines mathématiques, comme la théorie analytique des nombres, les performances étaient plus faibles. Malgré cela, il propose des idées dont les humains peuvent s’inspirer
    • En résumé, en insérant les LLM dans la boucle de raisonnement mathématique humain, on a obtenu des mathématiques de niveau recherche
      Ce n’était pas uniformément fort dans tous les domaines, mais l’approche semblait spécialisée dans la résolution de problèmes orientée calcul, à la manière de Ramanujan ou Erdős
  • Je ne savais pas que le problème du sofa (sofa problem) avait été résolu. L’article correspondant est ici

    • La discussion de l’époque avait eu lieu dans ce fil
  • Le point le plus intéressant dans le texte était pour moi la notion de « robustness » employée par l’auteur
    AlphaEvolve s’appliquait facilement à divers problèmes sans connaissance spécifique du domaine
    Mais dans le monde logiciel, « robustness » signifie généralement tolérance aux pannes ; ici, « adaptabilité (adaptability) » semblerait donc plus approprié
    La force des LLM est de permettre une intégration fondée sur le texte sans modélisation complexe. Si le traitement vidéo progresse encore, cela pourrait aussi ouvrir des domaines comme l’IA pour les jeux

    • L’auteur a d’ailleurs effectivement modifié le texte en remplaçant « robustness » par « adaptability »
  • Le fait que Tao ait dit « c’est peut-être un problème de prompt » montre une attitude assez généreuse
    Dans d’autres travaux en ML, on voit rarement une autocritique du type « on a peut-être mal réglé les hyperparamètres » quand les performances sont faibles

    • Cela dit, ce genre de remarque est courant dans le processus de relecture d’articles. Ici, le contexte est différent, car il s’agit davantage d’une note de recherche exploratoire
    • En réalité, beaucoup d’améliorations algorithmiques viennent d’un réglage insuffisant des baselines ou de problèmes de traitement statistique. Tao a plutôt fait preuve d’humilité épistémique (epistemic humility)
  • Le passage sur l’expérience de puzzle logique dans la section 44.2 du papier était marquant
    AlphaEvolve devait trouver une stratégie optimale en interagissant avec trois « gardiens » (ange, démon et portier), mais il a finalement obtenu un score parfait en trompant un autre LLM via une prompt injection
    Dans ce processus, AE a lui-même proposé de « réduire la complexité logique et d’attaquer directement la simulation »

    • Le point essentiel, c’est qu’AE a eu l’idée de « briser les règles du puzzle logique et pirater la simulation »
    • Si la dernière injection avait échoué, il aurait peut-être ouvert les portes de l’enfer à l’étape suivante
    • Qu’une IA ait trompé une autre IA pour résoudre le problème est vraiment diabolique
      Contrairement à l’ancien incident de fuite sur un benchmark de code, ce n’était pas un accident, mais une attaque intentionnelle
  • Cette étude ressemble à une version moderne du laboratoire mathématique de Gauss
    Au lieu d’employer plusieurs mathématiciens, on emploie une équipe électronique pour explorer des motifs, puis tenter des preuves à partir des résultats obtenus

  • Pour être honnête, quand c’est Terence Tao qui le dit, j’ai tendance à le croire