2 points par GN⁺ 2026-01-10 | 1 commentaires | Partager sur WhatsApp
  • Le problème d’Erdős n°728 a récemment été résolu presque de manière autonome par des outils d’IA, marquant une nouvelle étape dans l’automatisation de la recherche en mathématiques
  • Le problème était à l’origine une question sur la factorisation en nombres premiers des coefficients binomiaux posée en 1975 par Erdős, Graham, Ruzsa, Strauss, et il est longtemps resté difficile à traiter clairement en raison de conditions ambiguës
  • ChatGPT a généré une preuve sous des contraintes ajustées, puis Aristotle l’a formalisée en preuve formelle Lean en corrigeant automatiquement les erreurs
  • Plusieurs participants l’ont ensuite réécrite en langage naturel avec ChatGPT et ont amélioré de manière itérative une version renforçant les liens avec la littérature et la structure narrative
  • Terence Tao estime que ce processus montre le potentiel de la capacité de l’IA à rédiger et corriger rapidement des preuves pour transformer la manière même d’écrire des articles de recherche

Le problème d’Erdős n°728 résolu par l’IA

  • L’application récente d’outils d’IA a apporté de nouveaux progrès dans la résolution de problèmes d’Erdős, et le problème n°728 a été résolu presque de manière autonome par l’IA
    • Après une première tentative, une version corrigée intégrant les retours a permis d’aboutir
    • Le résultat n’a pas été reproduit à l’identique dans la littérature existante ; seuls des résultats proches par des méthodes similaires y figurent
  • Ce cas montre que, ces derniers mois, les capacités de l’IA en résolution de problèmes mathématiques se sont réellement améliorées
    • Par le passé, l’IA avait déjà été créditée de la résolution de problèmes d’Erdős, mais la plupart de ces résultats se sont ensuite révélés déjà présents dans la littérature
  • Dans ce cas précis, l’énoncé original d’Erdős avait été présenté sous une forme incorrecte, et ce n’est que récemment qu’il a été reconstruit sous la forme voulue
    • Cela expliquerait le manque de travaux antérieurs sur le sujet dans la littérature

Histoire du problème et premières approches

  • En 1975, Erdős, Graham, Ruzsa, Strauss ont étudié la factorisation en nombres premiers du coefficient binomial (2n choose n) et ont posé plusieurs problèmes connexes
    • L’un d’eux demandait s’il existe une infinité de a, b, n satisfaisant la condition a!b! | n!(a+b−n)! et a+b > n + C log n
    • Cependant, plusieurs éléments, dont la taille de C (petite ou grande), étaient formulés de manière ambiguë
    Publicité
  • Il y a quelques mois, l’équipe AlphaProof a trouvé une solution simple au problème, mais celle-ci ne correspondait pas à l’esprit du problème visé, ce qui a conduit à ajouter la contrainte a,b ≤ (1−ε)n
    • Même après une recherche bibliographique assistée par IA, très peu de travaux pertinents ont été trouvés

Collaboration entre ChatGPT et Aristotle

  • Le 4 janvier, ChatGPT a généré une preuve pour le cas de petit C sous les contraintes ajustées
    • Cette preuve a ensuite été formalisée en preuve formelle Lean par Aristotle
    • En réexaminant le texte original, il a toutefois été confirmé que l’article initial traitait déjà le cas du petit C
  • Un autre participant a converti la preuve Lean en langage naturel avec ChatGPT, puis a produit une version améliorée au fil d’échanges supplémentaires
    • Cette version comblait certaines lacunes de la démonstration, mais conservait encore une tournure maladroite typique de l’IA et un manque de références à la littérature
    • Malgré cela, elle a atteint un niveau suffisamment lisible pour comprendre l’idée centrale

Réécriture à grande échelle et résultat amélioré

  • Grâce à des prompts supplémentaires, ChatGPT a généré une preuve étendue jusqu’au cas de grand C
    • Il subsistait quelques erreurs, mais Aristotle les a corrigées automatiquement et a achevé une preuve vérifiée par Lean
    Publicité
  • Un troisième participant a compressé la preuve Lean, puis un autre, au terme d’une longue conversation avec ChatGPT, a
    • réécrit le tout sous la forme d’un article abouti, avec des liens à la littérature et une structure narrative renforcés
    • Le résultat a été jugé moins marqué par l’aspect typique d’un texte généré par IA, et d’une qualité proche de celle d’un article de recherche
    • Tao indique avoir relu ce texte sur le forum consacré aux problèmes d’Erdős

Comment l’IA transforme la rédaction des articles de recherche

  • Tao estime que, dans l’article final, les parties essentielles doivent encore être rédigées par des humains, mais
    • l’association de l’IA et de Lean a, selon lui, considérablement accéléré la rédaction et la correction des preuves
  • Jusqu’ici, rendre un article agréable à lire demandait beaucoup de temps, et
    • les révisions à la suite des retours des relecteurs se limitaient souvent à des modifications locales
  • Désormais, la combinaison de la génération et de la révision de texte par l’IA avec la vérification offerte par les outils de preuve formelle permet
    • de produire rapidement de nouvelles versions d’un article avec différents niveaux de précision et de narration
    Publicité
  • Au-delà d’un unique « article officiel », l’existence de nombreuses versions auxiliaires générées par l’IA
    • ouvre la possibilité d’apporter des points de vue variés et une valeur supplémentaire

Réactions de la communauté

  • Certains utilisateurs ont décrit la valeur ajoutée des documents générés par l’IA comme la capacité à voir les choses sous un autre angle
  • D’autres mathématiciens ont souligné la nécessité de mesurer l’originalité des résultats produits par l’IA ou d’évaluer leur similarité avec la littérature existante
    • Par exemple, une proposition consiste à mesurer quantitativement cette similarité en comparant la longueur des preuves formelles Lean
  • Un autre commentaire avance que l’IA peut réécrire un article de manière globale, comme dans un refactoring de code, ce qui
    • pousserait les chercheurs à se concentrer davantage sur la conception de la structure générale des documents
  • Certains se sont montrés sceptiques quant à la possibilité que l’IA remplace le rôle des mathématiciens, mais
    • d’autres y voient une nouvelle opportunité de collaboration et d’élargissement de la réflexion

1 commentaires

 
GN⁺ 2026-01-10
Réactions sur Hacker News
  • Je travaille chez Harmonic, et je voudrais corriger quelques malentendus au sujet d’Aristotle
    Aristotle exploite activement des techniques d’IA de pointe, y compris la modélisation du langage
    Si on lui fournit une preuve informelle en anglais, il a de fortes chances de la traduire en Lean si cette preuve est correcte. C’est donc un signal fort que la preuve en anglais est solide
    Une fois formalisée en Lean, il n’y a plus de doute sur la validité de la preuve. C’est le cœur de notre approche — si une recherche pilotée par l’IA trouve une réponse, l’exactitude du résultat est garantie, quelle que soit sa complexité

    • Je me demande comment vous vérifiez que la preuve traduite en Lean est bien la formalisation correcte du problème. Dans d’autres domaines, l’IA générative produit facilement des mensonges plausibles, donc je me demande si cela peut aussi arriver ici
    • Je me demande s’il existe des tentatives d’appliquer cette technique à la vérification logicielle
      Rust utilise un ensemble fixe de règles pour garantir la sûreté mémoire, mais ces règles sont simples et restrictives. Si un système comme Aristotle pouvait être intégré au compilateur, et qu’il laissait automatiquement passer le code lorsqu’une preuve de correction est possible, ce serait vraiment formidable
    • À chaque nouveau LLM, j’ai du mal à savoir s’il s’agit d’un vrai progrès ou simplement de benchmark hacking, et je pense que la formalisation des démonstrations mathématiques est un bon indicateur de progrès réel
      Je me demande combien de temps il faudra avant que Harmonic puisse formaliser la majorité des mathématiques écrites par des humains. Le concurrent Christian Szegedy dit que ce sera possible d’ici la fin de l’année
    • Vous avez dit qu’une preuve anglaise correcte a de fortes chances d’être traduite en Lean, mais je me demande si cela varie selon la difficulté propre à chaque domaine des mathématiques. À ma connaissance, de nombreux domaines de recherche restent difficiles à formaliser même pour les humains
    • La prémisse « si l’énoncé a été correctement formalisé » semble être une hypothèse assez forte. Comme on l’a vu récemment avec l’affaire Navier-Stokes, la formalisation elle-même n’est pas simple
  • D’après l’explication de Terence Tao, un humain faisait circuler les résultats entre deux outils d’IA, et l’IA jouait le rôle de bouche-trou dans les lacunes trouvées par l’humain
    Cela ressemble davantage à une collaboration entre humain et IA qu’à une résolution totalement autonome. En d’autres termes, un expert mène la danse et l’IA assiste

    • Oui, je comprends qu’en pratique, il y a eu interaction entre Aristotle, ChatGPT et un utilisateur très compétent
    • J’ai entendu dire que ce n’était pas Tao ni la communauté qui avaient directement trouvé les lacunes, mais plutôt un vérificateur automatique de preuves. J’ai plutôt l’impression d’un ratio 90 % IA / 10 % humain
    • L’auteur a donné une explication détaillée sur Reddit — post Reddit
    • Pour comprendre le niveau d’expertise et d’effort humain impliqué, je recommande de lire le fil du forum sur le problème d’Erdős
    • À noter que ce site a été créé par le mathématicien Thomas Bloom, et que ChatGPT a aidé pour la configuration technique (citation de la FAQ)
  • Recomposer des preuves existantes ou les combiner d’une manière nouvelle est un processus ennuyeux ou complexe pour les humains, mais l’IA peut le faire à une vitesse surhumaine
    Cette approche pourrait ouvrir un potentiel énorme même avant l’AGI. On dirait qu’une époque arrive où les mathématiciens utiliseront l’IA comme outil pour s’attaquer à des problèmes aussi difficiles que les problèmes du millénaire

    • Je pense qu’il n’y a pas de frontière nette entre recomposer des preuves existantes et créer des mathématiques entièrement nouvelles
    • Comme les mathématiques sont logiques, j’imagine qu’il existe déjà beaucoup d’algorithmes pour ce type d’exploration, donc cela ne ressemble pas à un simple problème de recherche
    • Je suis d’accord sur la partie recomposition de preuves existantes. Vérifier ce que produit un LLM reste un travail fastidieux, mais c’est toujours mieux que de tout faire à la main
      La vraie valeur des LLM réside dans leur capacité à proposer de nouvelles perspectives sur des sujets exprimables en langage
    • J’appelle ce phénomène du « refactoring scientifique ». Par exemple, l’IA peut automatiser des expériences consistant à modifier une constante puis à redérouler tout le raisonnement
    • Si une IA capable de démontrer des théorèmes complexes n’est pas une AGI, alors je me demande bien ce qui le serait
  • En lisant le billet explicatif de la personne qui a réellement résolu le problème, ce qui m’a frappé, c’est qu’ils ont obtenu le résultat avec seulement quelques prompts, sans énorme pipeline
    Les modèles récents consomment bien plus de ressources de calcul, donc cela ressemble plutôt à une borne inférieure de performance qu’à une limite supérieure

  • Terence Tao a créé une page wiki intitulée « AI contributions to Erdős problems »
    D’après la page GitHub et ce post sur Mathstodon, ce résultat (problème 728) est le premier « élément vert » de cette page, c’est-à-dire le premier cas effectivement résolu par l’IA

    • Fait intéressant, la plupart des preuves formalisées par l’IA dans la section 6 du wiki ont été achevées au cours des derniers mois. La suite s’annonce prometteuse
  • Je me demande si même les experts de domaines complexes comme la physique ou les mathématiques discutent avec des IA pour obtenir de l’aide

    • J’ai un doctorat en mathématiques pures et je travaille maintenant dans la data science. L’IA m’aide beaucoup pour la revue de littérature ou pour réviser rapidement des maths qui me sont moins familières
      Si je classe par domaine, son utilité décroît dans l’ordre suivant : programmation > ML appliqué > statistiques/maths appliquées > maths pures
    • Je ne suis pas physicien, mais grâce à l’IA, je passe beaucoup moins de temps à chercher les formules ou articles dont j’ai besoin. En revanche, il faut toujours vérifier les résultats
    • En tant que chercheur sur les modèles de deep learning et de nouvelles architectures d’attention, ChatGPT est très utile pour la recherche d’articles et l’exploration d’idées connexes
    • En tant qu’amateur de maths, les LLM me donnent des retours sur mes tentatives ou me redirigent vers des solutions existantes. Pour les maths comme loisir, c’est un outil assez plaisant
    • Je fais de la recherche en géométrie algébrique, et en dehors de la recherche bibliographique, cela ne m’a pas encore beaucoup aidé. Il y a de gros écarts selon les modèles
  • On peut essayer Aristotle directement dès maintenant — https://aristotle.harmonic.fun/

    • Je me demande aussi s’ils testent l’IA sur le dataset formal-conjectures de DeepMind
    • La documentation indique « uvx aristotlelib@latest aristotle », mais en réalité il faut écrire « uvx --from aristotlelib@latest aristotle »
      De plus, le lien vers la page personnelle de Stanford est incorrect (il faut retirer www)
    • C’est suffisamment intéressant pour mériter un fil HN séparé. Si j’étais CEO, je publierais moi-même un post de présentation (lien de référence)
  • Ce résultat concerne un théorème sur les entiers, un domaine bien pris en charge par l’infrastructure Mathlib
    Les définitions utilisées ne sont pas non plus complexes, donc ce type de preuve a de bonnes chances de réussir. Cela reste néanmoins une réussite vraiment impressionnante

  • C’est un exemple qui montre le potentiel d’une approche d’IA spécialisée au-delà des LLM
    L’article sur Aristotle est disponible sur arXiv:2510.01346
    Utiliser une architecture Transformer ne fait pas automatiquement de tout un LLM — si elle n’est pas entraînée sur des données linguistiques, on ne peut pas l’appeler un LLM

    • J’ai l’impression que la confusion vient du fait que beaucoup de gens utilisent « LLM » et « GenAI » comme s’ils étaient interchangeables
    • Vous parliez d’une « approche non-LLM », mais en réalité ChatGPT n’a-t-il pas été utilisé ?
    • Si, en pratique ChatGPT a bien été utilisé
    • D’après l’article, les trois étapes impliquent toutes des LLM de grande taille basés sur des Transformers
      1. Monte Carlo Graph Search assure les fonctions de politique et de valeur
      2. Le système de raisonnement informel utilise du chain of thought
      3. AlphaGeometry utilise lui aussi un modèle de langage neuro-symbolique
        Autrement dit, toutes les étapes reposent sur des LLM
  • En 2026, l’IA semble devoir s’attaquer à de plus en plus de problèmes mathématiques non résolus
    Ce cas n’était pas totalement autonome, mais après le feedback humain, l’IA est presque arrivée à une résolution par elle-même
    À mon avis, le débat « les LLM ne sont que des perroquets stochastiques » est désormais terminé. La vraie discussion va désormais porter sur la manière de les mettre en pratique

    • Je pense qu’en 2026, il y aura des progrès explosifs en mathématiques
    • Ce résultat est probablement un remix de preuves similaires présentes dans les données d’entraînement, mais cette capacité de remix est elle-même puissante
    • Une vérification indépendante reste nécessaire. Il est difficile de faire confiance aux seules affirmations d’une entreprise