1 points par GN⁺ 1 시간 전 | 1 commentaires | Partager sur WhatsApp
  • AlphaEvolve est un agent de codage basé sur Gemini qui, parti de la conception d’algorithmes avancés, étend désormais son champ d’application aux problèmes ouverts en mathématiques et en informatique, à l’optimisation de l’infrastructure de Google, ainsi qu’à des enjeux scientifiques et industriels
  • En génomique, il a amélioré DeepConsensus et réduit de 30 % les erreurs de détection de variants ; dans les réseaux électriques, il a contribué à faire passer de 14 % à plus de 88 % le taux de découverte de solutions réalisables au problème d’AC Optimal Power Flow
  • Dans les sciences de la Terre, il a automatisé l’optimisation du modèle Earth AI et amélioré de 5 % la précision globale de prédiction des risques liés à 20 catégories de catastrophes naturelles, dont les incendies de forêt, les inondations et les tornades ; en physique quantique, il a proposé sur le processeur quantique Willow des circuits quantiques avec un taux d’erreur 10 fois inférieur à la référence précédente
  • En mathématiques, il a contribué avec Terence Tao à résoudre un problème d’Erdős, amélioré les bornes inférieures du Traveling Salesman Problem et des Ramsey Numbers, et a aussi été utilisé pour des modèles de neurosciences interprétables, la microéconomie, la cryptographie, les données synthétiques et les mesures d’atténuation pour la sûreté de l’IA
  • Dans l’infrastructure Google, il a été utilisé pour la conception de la prochaine génération de TPU, les politiques de remplacement de cache, les heuristiques de compaction LSM-tree de Google Spanner et l’optimisation de compilateurs ; côté usages commerciaux, il a permis à Klarna de doubler sa vitesse d’entraînement, à FM Logistic d’améliorer l’efficacité des trajets de 10,4 %, et à Schrödinger d’accélérer d’environ 4 fois l’entraînement et l’inférence de MLFF

Impact sociétal et durabilité

  • Génomique

    • AlphaEvolve a été utilisé pour améliorer DeepConsensus, le modèle de correction d’erreurs de séquençage ADN développé par Google Research, réduisant de 30 % les erreurs de détection de variants
    • Cette amélioration aide les scientifiques de PacBio à analyser les données génétiques de façon plus précise et à moindre coût
    • Aaron Wenger de PacBio a déclaré que la solution trouvée par AlphaEvolve améliore de manière significative la précision des équipements de séquençage et pourrait permettre aux chercheurs de découvrir, grâce à des données de meilleure qualité, des mutations pathogènes jusqu’ici restées cachées
  • Optimisation des réseaux électriques

    • AlphaEvolve a été appliqué au problème de l’AC Optimal Power Flow
    • Il a contribué à faire passer de 14 % à plus de 88 % le taux auquel un modèle entraîné de Graph Neural Network (GNN) trouve des solutions réalisables à ce problème
    • Ce résultat réduit fortement la nécessité d’étapes de post-traitement coûteuses sur les réseaux électriques
  • Sciences de la Terre

Avancées à la frontière de la recherche

Amélioration de l’infrastructure IA

  • AlphaEvolve est devenu un composant clé de l’infrastructure Google, au-delà des tests pilotes
  • Il est utilisé comme outil régulier pour optimiser la conception de la prochaine génération de TPU
  • Il a découvert des politiques de remplacement de cache plus efficaces, réalisant en seulement deux jours un travail qui nécessitait auparavant plusieurs mois d’efforts intensifs par des humains
  • Jeff Dean a déclaré qu’AlphaEvolve a commencé à optimiser les couches les plus basses du matériel qui fait tourner la pile IA, en proposant des conceptions de circuits contre-intuitives mais efficaces, directement intégrées dans le silicium TPU de nouvelle génération
  • AlphaEvolve a amélioré les heuristiques de compaction de Log-Structured Merge-tree de Google Spanner, avec un gain d’efficacité à la clé
  • Cette optimisation a réduit de 20 % la write amplification, c’est-à-dire le ratio entre les données écrites en stockage et la demande initiale
  • AlphaEvolve a aussi fourni des insights sur une nouvelle stratégie d’optimisation de compilateur qui réduit d’environ 9 % l’espace de stockage utilisé par les logiciels

Extension des usages commerciaux

  • Avec Google Cloud, AlphaEvolve est proposé à des entreprises commerciales dans plusieurs secteurs
  • Dans les services financiers, Klarna a utilisé AlphaEvolve pour optimiser l’un de ses grands modèles transformer, doublant la vitesse d’entraînement tout en améliorant la qualité du modèle
  • Dans la fabrication de semi-conducteurs, Substrate a appliqué AlphaEvolve à son framework de lithographie computationnelle, multipliant la vitesse d’exécution et rendant possibles des simulations avancées de semi-conducteurs à plus grande échelle
  • Dans la logistique, FM Logistic a optimisé des problèmes complexes de routage comme le Traveling Salesman Problem, améliorant de 10,4 % l’efficacité des trajets par rapport à des solutions déjà fortement optimisées et économisant plus de 15 000 km de déplacements par an
  • Dans la publicité et le marketing, WPP a utilisé AlphaEvolve pour affiner des composants de modèles d’IA et traiter des données de campagne complexes et de grande dimension, améliorant la précision de 10 % par rapport à une optimisation manuelle compétitive
  • Dans les sciences des matériaux computationnelles et les sciences de la vie, Schrödinger a appliqué AlphaEvolve et obtenu une accélération d’environ 4 fois à la fois pour l’entraînement et l’inférence des Machine Learned Force Fields (MLFF)
  • Gabriel Marques de Schrödinger a expliqué qu’une inférence MLFF plus rapide réduit les cycles de R&D pour la découverte de médicaments, la conception de catalyseurs et le développement de matériaux, avec un impact commercial concret en permettant de sélectionner des candidats moléculaires en quelques jours plutôt qu’en plusieurs mois

Perspectives

  • Au cours de l’année écoulée, AlphaEvolve s’est rapidement imposé comme un système généraliste polyvalent
  • Il montre que les prochaines percées pourraient être portées par des algorithmes capables d’apprendre, d’évoluer et de s’optimiser par eux-mêmes
  • Google DeepMind veut étendre les capacités d’AlphaEvolve et l’appliquer à un éventail plus large de défis externes

1 commentaires

 
GN⁺ 1 시간 전
Avis sur Hacker News
  • Cela me rappelle le « Don't fall into the anti-AI hype » d’Antirez [0]
    En une phrase : ces modèles de base sont vraiment excellents pour optimiser des espaces de problèmes à très haut niveau mais très bien définis, du type « rendre les multiplications de matrices plus rapides ». Dans le cas d’Antirez, c’était « rendre Redis plus rapide »
    Les réactions se sont partagées entre « ça ne marchera jamais pour mon travail » et « ça a fait en une heure ce qui m’aurait pris des mois », et je pense que les deux sont vraies. C’est réjouissant de voir Antirez continuer à obtenir des résultats [1], mais je pense aussi qu’on peut considérer que le travail de la plupart des gens — riche en savoir tacite, centré sur des systèmes humains et défini de façon floue — est difficile à traiter pour les LLM, ou n’est peut-être tout simplement pas ce pour quoi ils sont faits
    [0] https://antirez.com/news/158
    [1] https://antirez.com/news/164

    • Honnêtement, je n’y crois plus vraiment. Les modèles commencent à assez bien gérer l’ambiguïté, et Claude Code me pose désormais des questions quand quelque chose n’est pas clair
      Bientôt, toutes les réunions seront enregistrées et transcrites, puis stockées dans un endroit bien indexé que les agents pourront interroger lorsqu’ils tomberont sur une ambiguïté. S’ils peuvent poser la question aujourd’hui, ils pourront aussi chercher eux-mêmes la réponse quand cet environnement existera. En fait, avec un Notion ou un Confluence bien documenté, ils le font déjà ; le problème, c’est que très peu d’organisations sont dans ce cas
      Faire du renforcement sur « l’identification de l’ambiguïté » sera plus difficile que pour des algorithmes de performance, mais pas impossible, et c’est déjà en cours selon moi. Ce n’est plus qu’une question de temps
    • Claude et les autres m’ont été très utiles pour implémenter rapidement des algorithmes auxquels j’avais pensé. En revanche, il faut poser beaucoup de questions de contrôle et vérifier le code
      Ils sont faibles pour inventer de nouveaux algorithmes non conventionnels, et ont souvent tendance à introduire des raccourcis ridiculement court-termistes. Pour l’instant, ce sont encore des outils, pas des artisans maîtres de leurs outils. Cela va évoluer peu à peu, et les niches où des algorithmes rares gardent l’avantage vont se réduire
    • Au final, on a l’impression que ça se joue entre deux cas : « impressionnant, ça a amélioré l’efficacité de 1 % » ou « j’ai stupidement perdu une heure à déboguer une API hallucinée »
      Il est vraiment difficile de savoir, en moyenne, lequel des deux l’emporte
    • Et si la recherche assistée par l’IA faisait franchir à l’IA le cap au-delà des LLM ? Vous pensez que c’est impossible ?
    • Dire que « les LLM ne peuvent pas gérer un travail riche en savoir tacite, centré sur des systèmes humains et défini de façon floue » risque de paraître extrêmement myope vers 2030
  • Les PDG de l’IA adorent tenir de grands discours sur le fait que l’IA va guérir le cancer, mais dans les faits, DeepMind semble être le seul à s’attaquer activement à ce type de problèmes de recherche
    OpenAI et Anthropic donnent plutôt l’impression de courir après le chiffre d’affaires des entreprises et celui du code

    • Google peut s’autofinancer avec son trésor de guerre, mais OpenAI et Anthropic doivent tendre la main aux investisseurs
  • Les employés de Google sont-ils satisfaits d’utiliser des agents de codage Gemini plutôt que Claude Code ou Codex ? Ce n’est pas sarcastique, je suis vraiment curieux

    • Oui. Le modèle est bon et rapide, et les outils internes ont désormais rattrapé une bonne partie du retard
      Il reste encore des choses à régler côté UI/UX/outillage, l’intégration aux systèmes de gestion de versions, et des problèmes plus profonds difficiles à évoquer, mais je pense que l’essentiel des plaintes tient davantage à la vitesse du changement qu’aux capacités réelles
      Ce qui est intéressant, c’est que plusieurs personnes influentes en interne disent fermement préférer le modèle Flash au modèle Pro. Que ce soit vrai ou non, cela montre qu’on est arrivé à un stade où le modèle « meilleur » n’est pas forcément le plus utile, et où un modèle plus rapide combiné à un meilleur harnais peut constituer un meilleur compromis
    • Si vous parlez de l’extension Gemini pour VS Code, elle est lamentable comparée à Claude Code ou Codex. Je ne comprends pas comment elle peut être exploitée dans cet état
      Il y a des timeouts constants, des modes d’échec étranges, et le fait qu’il faille démarrer un nouveau chat pour changer de mode. Cela dit, ça semble davantage être un problème de l’extension que du modèle Gemini lui-même
      Si on met de côté l’aspect extension VS Code et qu’on ne regarde que la résolution concrète des problèmes, les trois modèles premium sont d’excellents agents de codage pour mon usage
    • Le codage n’est pas l’unique usage de Gemini ni de ces modèles. Et cet article ne parle pas de codage
      Gemini n’est peut-être pas le meilleur agent de codage, mais il peut être très bon pour d’autres tâches
    • Le mois dernier, Steve Yegge a laissé entendre que non : https://xcancel.com/Steve_Yegge/status/2043747998740689171
    • En discutant avec des gens chez Google, la plupart semblaient mécontents des agents Gemini internes, et avaient l’impression que cela s’était nettement dégradé récemment
      Par exemple, ils oublient complètement comment appeler les outils, perdent beaucoup de temps, puis finissent par abandonner, ou ignorent totalement les consignes de style de code dans des fichiers du type AGENTS.md
      Mon expérience avec Gemma 4 en local était similaire. Après un ou deux appels d’outils, il se met à les appeler n’importe comment. Rien qu’hier, je l’ai vu redéfinir un outil comme read_file(start, end) en read_file(start, number_of_bytes), sans même envisager la possibilité qu’il se trompe
  • Si l’IA améliore elle-même, ou du moins l’architecture sur laquelle elle tourne, alors on se rapproche de la singularité comme certains le disent
    En dehors de la génération de données synthétiques ou des tests de modèles, existe-t-il d’autres cas où l’IA a été utilisée pour améliorer les LLM ?

    • Que l’IA se rende elle-même plus compétente et qu’elle optimise le logiciel utilisé pour l’entraînement et l’inférence de l’IA, ce sont deux choses aussi différentes que des pommes et des oranges
      Un transformer plus efficace ne fait que réduire le coût d’exécution
      Pour qu’on puisse dire « l’IA améliore l’IA », il faudrait qu’une génération d’IA conçoive une génération suivante fondamentalement plus compétente qu’elle, pas simplement plus rapide ou moins chère ; il faudrait être au niveau où un cerveau reptilien conçoit de façon autonome un cerveau de mammifère
      Même branché à un harnais intelligent comme AlphaEvolve, je ne pense pas que les LLM aient ce genre de créativité. Sauf, peut-être, si l’architecture de la génération suivante se cache de façon évidente dans une combinaison de composants que les LLM peuvent être amenés à prédire
      La voie la plus probable, c’est plutôt encore quelques étapes d’innovation humaine vers l’AGI, puis l’émergence d’une IA capable d’innovation autonome, et non simplement de génération combinatoire basée sur des prompts
    • Oui. Quand AlphaEvolve a été présenté l’an dernier, un ancien modèle Gemini a amélioré des kernels utilisés pour entraîner la génération actuelle de modèles, et a rendu l’exécution de l’entraînement 1 % plus rapide. Ce n’est pas énorme, mais cela reste un résultat
    • Le plus viral récemment, c’est sans doute https://github.com/karpathy/autoresearch
    • L’auto-amélioration n’implique pas forcément la singularité, non ?
      Il pourrait y avoir des contraintes suffisamment fortes pour rendre la singularité impossible, ou un horizon temporel tellement long que cela ne soit pas exploitable en pratique, non ?
    • Personnellement, je pense que le point à surveiller concernant le fait que « l’IA s’améliore elle-même », c’est 2027
      Tous les grands laboratoires d’IA mènent d’importants projets d’agents de recherche, en particulier pour l’amélioration de l’IA, et je m’attends à ce qu’une bonne partie d’entre eux sorte de la phase expérimentale cette année
      L’an prochain, ils commenceront réellement à produire beaucoup de travail, et je pense qu’on verra alors le premier grand changement d’architecture réellement valable co-inventé par l’IA
  • Combien de fois va-t-on encore entendre parler du problème d’Erdős :) Au début, cela ressemble à une grande réussite de l’humanité, mais avec le temps, le sujet revient sans cesse

    • Il ne reste qu’environ 700 problèmes d’Erdős ouverts, donc une fois qu’ils seront tous résolus, on pourra enfin souffler
  • Pendant ce temps, Gemini CLI est cassé depuis des mois
    https://github.com/google-gemini/gemini-cli/issues/22141

  • J’aimerais que Google se concentre sur la sortie officielle des modèles Gemini 3.x, et fournisse assez de capacité pour qu’on n’ait pas à se battre en permanence avec les erreurs 429
    J’ai souvent l’impression qu’on nous dit de ne pas développer d’applications pour clients professionnels avec l’API Vertex. C’est d’autant plus frustrant que les modèles étaient vraiment excellents, notamment pour l’analyse de documents

    • Vous êtes sur l’offre gratuite ? J’ai vu beaucoup plus de 429 sur l’offre gratuite
  • Tous les articles Evolve présentent des résultats très impressionnants, mais en regardant les informations publiées, j’ai l’impression que l’attention se concentre sur les LLM et l’IA
    Or, les résultats rapportés proviennent presque toujours d’environnements extrêmement bien conçus pour faire fonctionner au mieux les LLM et les algorithmes évolutifs
    Cet article en est un bon exemple et vaut la lecture
    Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
    https://arxiv.org/abs/2601.21096

  • C’est une solution incroyablement simple pour améliorer des algorithmes. J’aurais aimé avoir ça il y a quelques années quand je faisais de l’activation engineering : https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
    Comment peut-on accéder à AlphaEvolve ?

    • C’est juste un billet de frime. En gros : devenez une entreprise à 1 milliard de dollars ou partez
  • Le problème que j’ai remarqué avec Claude, c’est que même sur des tâches simples, il gonfle excessivement le code et les livrables, et parfois ça ne fonctionne même pas
    Gemini trouve assez bien un équilibre en fournissant des solutions fonctionnelles avec juste la quantité de code nécessaire et un minimum de complexité, ce qui les rend plus faciles à maintenir
    Ces derniers temps, je ne me tourne vers Claude que pour le code frontend, surtout du HTML. Même là, il produit beaucoup trop de CSS, au point que cela représente environ 60 % de la taille du fichier, mais j’accepte quand même cette inflation parce que le résultat paraît un peu plus soigné