AlphaEvolve : l’agent de codage basé sur Gemini qui étend son influence à de multiples domaines
(deepmind.google)- AlphaEvolve est un agent de codage basé sur Gemini qui, parti de la conception d’algorithmes avancés, étend désormais son champ d’application aux problèmes ouverts en mathématiques et en informatique, à l’optimisation de l’infrastructure de Google, ainsi qu’à des enjeux scientifiques et industriels
- En génomique, il a amélioré DeepConsensus et réduit de 30 % les erreurs de détection de variants ; dans les réseaux électriques, il a contribué à faire passer de 14 % à plus de 88 % le taux de découverte de solutions réalisables au problème d’AC Optimal Power Flow
- Dans les sciences de la Terre, il a automatisé l’optimisation du modèle Earth AI et amélioré de 5 % la précision globale de prédiction des risques liés à 20 catégories de catastrophes naturelles, dont les incendies de forêt, les inondations et les tornades ; en physique quantique, il a proposé sur le processeur quantique Willow des circuits quantiques avec un taux d’erreur 10 fois inférieur à la référence précédente
- En mathématiques, il a contribué avec Terence Tao à résoudre un problème d’Erdős, amélioré les bornes inférieures du Traveling Salesman Problem et des Ramsey Numbers, et a aussi été utilisé pour des modèles de neurosciences interprétables, la microéconomie, la cryptographie, les données synthétiques et les mesures d’atténuation pour la sûreté de l’IA
- Dans l’infrastructure Google, il a été utilisé pour la conception de la prochaine génération de TPU, les politiques de remplacement de cache, les heuristiques de compaction LSM-tree de Google Spanner et l’optimisation de compilateurs ; côté usages commerciaux, il a permis à Klarna de doubler sa vitesse d’entraînement, à FM Logistic d’améliorer l’efficacité des trajets de 10,4 %, et à Schrödinger d’accélérer d’environ 4 fois l’entraînement et l’inférence de MLFF
Impact sociétal et durabilité
-
Génomique
- AlphaEvolve a été utilisé pour améliorer DeepConsensus, le modèle de correction d’erreurs de séquençage ADN développé par Google Research, réduisant de 30 % les erreurs de détection de variants
- Cette amélioration aide les scientifiques de PacBio à analyser les données génétiques de façon plus précise et à moindre coût
- Aaron Wenger de PacBio a déclaré que la solution trouvée par AlphaEvolve améliore de manière significative la précision des équipements de séquençage et pourrait permettre aux chercheurs de découvrir, grâce à des données de meilleure qualité, des mutations pathogènes jusqu’ici restées cachées
-
Optimisation des réseaux électriques
- AlphaEvolve a été appliqué au problème de l’AC Optimal Power Flow
- Il a contribué à faire passer de 14 % à plus de 88 % le taux auquel un modèle entraîné de Graph Neural Network (GNN) trouve des solutions réalisables à ce problème
- Ce résultat réduit fortement la nécessité d’étapes de post-traitement coûteuses sur les réseaux électriques
-
Sciences de la Terre
- AlphaEvolve est utilisé pour transformer des données géospatiales complexes en analyses plus fiables et exploitables
- En automatisant l’optimisation du modèle Earth AI, il a amélioré de 5 % la précision globale des prévisions de risques de catastrophes naturelles, agrégées sur 20 catégories dont les incendies de forêt, les inondations et les tornades
Avancées à la frontière de la recherche
-
Physique quantique
- Les optimisations d’AlphaEvolve permettent d’exécuter des simulations moléculaires complexes sur le processeur quantique Willow de Google
- Il a proposé des circuits quantiques avec un taux d’erreur 10 fois inférieur à celui de la référence d’optimisation conventionnelle précédente, contribuant immédiatement à la première démonstration expérimentale de ce type en calcul quantique
- Ce résultat montre qu’AlphaEvolve pourrait ouvrir la voie à un futur où il trouvera des algorithmes dépassant les capacités des ordinateurs classiques
-
Mathématiques
- AlphaEvolve a contribué, aux côtés de mathématiciens comme Terence Tao, à résoudre un problème d’Erdős
- Terence Tao a indiqué que des outils comme AlphaEvolve améliorent fortement l’intuition, notamment pour les problèmes d’optimisation, en testant rapidement des contre-exemples potentiels à des inégalités ou en confirmant des intuitions sur des objets extrémaux, ce qui facilite ensuite la recherche de preuves rigoureuses
- AlphaEvolve a battu des records en améliorant les bornes inférieures de problèmes mathématiques classiques comme le Traveling Salesman Problem et les Ramsey Numbers
-
Autres domaines de recherche
- Les capacités de découverte autonome d’AlphaEvolve stimulent des innovations parallèles dans de nombreux domaines
- Il a été utilisé pour la découverte de modèles de neurosciences interprétables, la démonstration de nouvelles bornes de marché en microéconomie et les avancées sur des composants de réseaux neuronaux
- Il a aussi été appliqué à la cryptographie pour la confidentialité des utilisateurs, à la génération de données synthétiques et à des mesures clés d’atténuation pour la sûreté des modèles d’IA de frontière
- Un exemple d’optimisation par AlphaEvolve d’une instance du « Tammes problem » et d’autres solutions potentielles à des problèmes supplémentaires sont visibles dans la Gallery publique
Amélioration de l’infrastructure IA
- AlphaEvolve est devenu un composant clé de l’infrastructure Google, au-delà des tests pilotes
- Il est utilisé comme outil régulier pour optimiser la conception de la prochaine génération de TPU
- Il a découvert des politiques de remplacement de cache plus efficaces, réalisant en seulement deux jours un travail qui nécessitait auparavant plusieurs mois d’efforts intensifs par des humains
- Jeff Dean a déclaré qu’AlphaEvolve a commencé à optimiser les couches les plus basses du matériel qui fait tourner la pile IA, en proposant des conceptions de circuits contre-intuitives mais efficaces, directement intégrées dans le silicium TPU de nouvelle génération
- AlphaEvolve a amélioré les heuristiques de compaction de Log-Structured Merge-tree de Google Spanner, avec un gain d’efficacité à la clé
- Cette optimisation a réduit de 20 % la write amplification, c’est-à-dire le ratio entre les données écrites en stockage et la demande initiale
- AlphaEvolve a aussi fourni des insights sur une nouvelle stratégie d’optimisation de compilateur qui réduit d’environ 9 % l’espace de stockage utilisé par les logiciels
Extension des usages commerciaux
- Avec Google Cloud, AlphaEvolve est proposé à des entreprises commerciales dans plusieurs secteurs
- Dans les services financiers, Klarna a utilisé AlphaEvolve pour optimiser l’un de ses grands modèles transformer, doublant la vitesse d’entraînement tout en améliorant la qualité du modèle
- Dans la fabrication de semi-conducteurs, Substrate a appliqué AlphaEvolve à son framework de lithographie computationnelle, multipliant la vitesse d’exécution et rendant possibles des simulations avancées de semi-conducteurs à plus grande échelle
- Dans la logistique, FM Logistic a optimisé des problèmes complexes de routage comme le Traveling Salesman Problem, améliorant de 10,4 % l’efficacité des trajets par rapport à des solutions déjà fortement optimisées et économisant plus de 15 000 km de déplacements par an
- Dans la publicité et le marketing, WPP a utilisé AlphaEvolve pour affiner des composants de modèles d’IA et traiter des données de campagne complexes et de grande dimension, améliorant la précision de 10 % par rapport à une optimisation manuelle compétitive
- Dans les sciences des matériaux computationnelles et les sciences de la vie, Schrödinger a appliqué AlphaEvolve et obtenu une accélération d’environ 4 fois à la fois pour l’entraînement et l’inférence des Machine Learned Force Fields (MLFF)
- Gabriel Marques de Schrödinger a expliqué qu’une inférence MLFF plus rapide réduit les cycles de R&D pour la découverte de médicaments, la conception de catalyseurs et le développement de matériaux, avec un impact commercial concret en permettant de sélectionner des candidats moléculaires en quelques jours plutôt qu’en plusieurs mois
Perspectives
- Au cours de l’année écoulée, AlphaEvolve s’est rapidement imposé comme un système généraliste polyvalent
- Il montre que les prochaines percées pourraient être portées par des algorithmes capables d’apprendre, d’évoluer et de s’optimiser par eux-mêmes
- Google DeepMind veut étendre les capacités d’AlphaEvolve et l’appliquer à un éventail plus large de défis externes
1 commentaires
Avis sur Hacker News
Cela me rappelle le « Don't fall into the anti-AI hype » d’Antirez [0]
En une phrase : ces modèles de base sont vraiment excellents pour optimiser des espaces de problèmes à très haut niveau mais très bien définis, du type « rendre les multiplications de matrices plus rapides ». Dans le cas d’Antirez, c’était « rendre Redis plus rapide »
Les réactions se sont partagées entre « ça ne marchera jamais pour mon travail » et « ça a fait en une heure ce qui m’aurait pris des mois », et je pense que les deux sont vraies. C’est réjouissant de voir Antirez continuer à obtenir des résultats [1], mais je pense aussi qu’on peut considérer que le travail de la plupart des gens — riche en savoir tacite, centré sur des systèmes humains et défini de façon floue — est difficile à traiter pour les LLM, ou n’est peut-être tout simplement pas ce pour quoi ils sont faits
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
Bientôt, toutes les réunions seront enregistrées et transcrites, puis stockées dans un endroit bien indexé que les agents pourront interroger lorsqu’ils tomberont sur une ambiguïté. S’ils peuvent poser la question aujourd’hui, ils pourront aussi chercher eux-mêmes la réponse quand cet environnement existera. En fait, avec un Notion ou un Confluence bien documenté, ils le font déjà ; le problème, c’est que très peu d’organisations sont dans ce cas
Faire du renforcement sur « l’identification de l’ambiguïté » sera plus difficile que pour des algorithmes de performance, mais pas impossible, et c’est déjà en cours selon moi. Ce n’est plus qu’une question de temps
Ils sont faibles pour inventer de nouveaux algorithmes non conventionnels, et ont souvent tendance à introduire des raccourcis ridiculement court-termistes. Pour l’instant, ce sont encore des outils, pas des artisans maîtres de leurs outils. Cela va évoluer peu à peu, et les niches où des algorithmes rares gardent l’avantage vont se réduire
Il est vraiment difficile de savoir, en moyenne, lequel des deux l’emporte
Les PDG de l’IA adorent tenir de grands discours sur le fait que l’IA va guérir le cancer, mais dans les faits, DeepMind semble être le seul à s’attaquer activement à ce type de problèmes de recherche
OpenAI et Anthropic donnent plutôt l’impression de courir après le chiffre d’affaires des entreprises et celui du code
Les employés de Google sont-ils satisfaits d’utiliser des agents de codage Gemini plutôt que Claude Code ou Codex ? Ce n’est pas sarcastique, je suis vraiment curieux
Il reste encore des choses à régler côté UI/UX/outillage, l’intégration aux systèmes de gestion de versions, et des problèmes plus profonds difficiles à évoquer, mais je pense que l’essentiel des plaintes tient davantage à la vitesse du changement qu’aux capacités réelles
Ce qui est intéressant, c’est que plusieurs personnes influentes en interne disent fermement préférer le modèle Flash au modèle Pro. Que ce soit vrai ou non, cela montre qu’on est arrivé à un stade où le modèle « meilleur » n’est pas forcément le plus utile, et où un modèle plus rapide combiné à un meilleur harnais peut constituer un meilleur compromis
Il y a des timeouts constants, des modes d’échec étranges, et le fait qu’il faille démarrer un nouveau chat pour changer de mode. Cela dit, ça semble davantage être un problème de l’extension que du modèle Gemini lui-même
Si on met de côté l’aspect extension VS Code et qu’on ne regarde que la résolution concrète des problèmes, les trois modèles premium sont d’excellents agents de codage pour mon usage
Gemini n’est peut-être pas le meilleur agent de codage, mais il peut être très bon pour d’autres tâches
Par exemple, ils oublient complètement comment appeler les outils, perdent beaucoup de temps, puis finissent par abandonner, ou ignorent totalement les consignes de style de code dans des fichiers du type AGENTS.md
Mon expérience avec Gemma 4 en local était similaire. Après un ou deux appels d’outils, il se met à les appeler n’importe comment. Rien qu’hier, je l’ai vu redéfinir un outil comme read_file(start, end) en read_file(start, number_of_bytes), sans même envisager la possibilité qu’il se trompe
Si l’IA améliore elle-même, ou du moins l’architecture sur laquelle elle tourne, alors on se rapproche de la singularité comme certains le disent
En dehors de la génération de données synthétiques ou des tests de modèles, existe-t-il d’autres cas où l’IA a été utilisée pour améliorer les LLM ?
Un transformer plus efficace ne fait que réduire le coût d’exécution
Pour qu’on puisse dire « l’IA améliore l’IA », il faudrait qu’une génération d’IA conçoive une génération suivante fondamentalement plus compétente qu’elle, pas simplement plus rapide ou moins chère ; il faudrait être au niveau où un cerveau reptilien conçoit de façon autonome un cerveau de mammifère
Même branché à un harnais intelligent comme AlphaEvolve, je ne pense pas que les LLM aient ce genre de créativité. Sauf, peut-être, si l’architecture de la génération suivante se cache de façon évidente dans une combinaison de composants que les LLM peuvent être amenés à prédire
La voie la plus probable, c’est plutôt encore quelques étapes d’innovation humaine vers l’AGI, puis l’émergence d’une IA capable d’innovation autonome, et non simplement de génération combinatoire basée sur des prompts
Il pourrait y avoir des contraintes suffisamment fortes pour rendre la singularité impossible, ou un horizon temporel tellement long que cela ne soit pas exploitable en pratique, non ?
Tous les grands laboratoires d’IA mènent d’importants projets d’agents de recherche, en particulier pour l’amélioration de l’IA, et je m’attends à ce qu’une bonne partie d’entre eux sorte de la phase expérimentale cette année
L’an prochain, ils commenceront réellement à produire beaucoup de travail, et je pense qu’on verra alors le premier grand changement d’architecture réellement valable co-inventé par l’IA
Combien de fois va-t-on encore entendre parler du problème d’Erdős :) Au début, cela ressemble à une grande réussite de l’humanité, mais avec le temps, le sujet revient sans cesse
Pendant ce temps, Gemini CLI est cassé depuis des mois
https://github.com/google-gemini/gemini-cli/issues/22141
J’aimerais que Google se concentre sur la sortie officielle des modèles Gemini 3.x, et fournisse assez de capacité pour qu’on n’ait pas à se battre en permanence avec les erreurs 429
J’ai souvent l’impression qu’on nous dit de ne pas développer d’applications pour clients professionnels avec l’API Vertex. C’est d’autant plus frustrant que les modèles étaient vraiment excellents, notamment pour l’analyse de documents
Tous les articles Evolve présentent des résultats très impressionnants, mais en regardant les informations publiées, j’ai l’impression que l’attention se concentre sur les LLM et l’IA
Or, les résultats rapportés proviennent presque toujours d’environnements extrêmement bien conçus pour faire fonctionner au mieux les LLM et les algorithmes évolutifs
Cet article en est un bon exemple et vaut la lecture
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
C’est une solution incroyablement simple pour améliorer des algorithmes. J’aurais aimé avoir ça il y a quelques années quand je faisais de l’activation engineering : https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
Comment peut-on accéder à AlphaEvolve ?
Le problème que j’ai remarqué avec Claude, c’est que même sur des tâches simples, il gonfle excessivement le code et les livrables, et parfois ça ne fonctionne même pas
Gemini trouve assez bien un équilibre en fournissant des solutions fonctionnelles avec juste la quantité de code nécessaire et un minimum de complexité, ce qui les rend plus faciles à maintenir
Ces derniers temps, je ne me tourne vers Claude que pour le code frontend, surtout du HTML. Même là, il produit beaucoup trop de CSS, au point que cela représente environ 60 % de la taille du fichier, mais j’accepte quand même cette inflation parce que le résultat paraît un peu plus soigné