2 points par GN⁺ 2026-03-25 | 1 commentaires | Partager sur WhatsApp
  • GPT-5.4 Pro a résolu un problème de type Ramsey lié aux hypergraphes en collaboration avec Kevin Barreto et Liam Price
  • L’auteur du problème, Will Brian, a vérifié l’exactitude de la solution, et l’intégralité des échanges ainsi que le document explicatif final de l’IA ont été rendus publics
  • La solution élimine l’inefficacité des constructions de borne inférieure existantes et présente une structure symétrique de la borne supérieure, atteignant ainsi une cohérence rare en théorie de Ramsey
  • Par la suite, plusieurs modèles ont résolu le même problème dans le cadre FrontierMath: Open Problems, ce qui a confirmé sa validité comme outil d’évaluation des capacités de raisonnement mathématique de l’IA
  • Ce résultat est considéré comme un exemple montrant que l’IA peut contribuer de manière concrète à la résolution de problèmes mathématiques ouverts

Résolution d’un problème de type Ramsey sur les hypergraphes

  • GPT-5.4 Pro a résolu un problème de type Ramsey difficile lié aux hypergraphes en collaboration avec Kevin Barreto et Liam Price
    • L’auteur du problème, Will Brian, a vérifié l’exactitude de la solution
    • L’intégralité des échanges pendant la résolution ainsi que le document explicatif final de GPT-5.4 Pro ont été publiés
  • Brian estime que cette solution supprime l’inefficacité des constructions de borne inférieure existantes et met en évidence la complexité et la structure symétrique de la construction de borne supérieure
    • Le fait que borne inférieure et borne supérieure coïncident de manière cohérente permet d’atteindre un niveau de cohérence rare pour un problème de théorie de Ramsey
    • Il prévoit de mettre ce résultat en forme dans un article, avec possiblement des travaux supplémentaires dérivés des idées de l’IA
  • Par la suite, Epoch AI a finalisé le framework de test FrontierMath: Open Problems et a appliqué le même problème à plusieurs modèles
    • Les modèles Opus 4.6 (max), Gemini 3.1 Pro et GPT-5.4 (xhigh) ont eux aussi réussi à résoudre le problème
    • Cela montre que l’environnement FrontierMath est pertinent pour évaluer les capacités de raisonnement mathématique des modèles d’IA

Définition du problème

  • Le problème porte sur l’amélioration de la borne inférieure d’une suite (H(n)), apparue dans l’étude de la convergence simultanée d’ensembles de séries infinies
    • Dire qu’un hypergraphe ((V, \mathcal H)) contient une partition de taille (n) signifie qu’il existe (D \subseteq V), (\mathcal P \subseteq \mathcal H) tels que (|D| = n), et que chaque élément de (D) appartient à exactement un élément de (\mathcal P)
    • (H(n)) est défini comme le nombre maximal de sommets (k) d’un hypergraphe sans sommet isolé et ne contenant aucune partition de taille strictement supérieure à (n)
  • La borne inférieure connue de (H(n)) est probablement sous-optimale, et l’on pense qu’elle peut être améliorée grâce à une nouvelle construction d’hypergraphe
    • L’objectif est de trouver un algorithme satisfaisant (H(n) \ge c \cdot k_n) (avec (c > 1))
    • (k_n) est défini par la récurrence (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})

Étapes de construction du problème

  • Étape Warm-up

    • Construire un hypergraphe pour des valeurs de (n) pour lesquelles une solution est déjà connue
    • Conditions : (|V| ≥ 64), (|H| ≤ 20), aucune partition de taille supérieure à 20
  • Étape Single Challenge

    • Trouver un hypergraphe, sous les mêmes contraintes, pour des valeurs de (n) pour lesquelles aucune solution connue n’existe
    • Conditions : (|V| ≥ 66), (|H| ≤ 20), aucune partition de taille supérieure à 20
  • Étape Full Problem

    • Demande un algorithme général fonctionnant pour toutes les valeurs de (n)
    • Pour une entrée (n), il doit générer un hypergraphe satisfaisant (H(n) ≥ c \cdot k_n)
    • Pour (n ≤ 100), l’exécution doit être possible en moins de 10 minutes sur un ordinateur portable standard

Évaluation par les mathématiciens

  • Les mathématiciens familiers de ce problème sont de l’ordre d’une dizaine, dont beaucoup de chercheurs du domaine
  • Le nombre de mathématiciens ayant réellement tenté de le résoudre est estimé à 5 à 10
  • Le temps estimé pour qu’un expert le résolve est de 1 à 3 mois
  • Une résolution est jugée d’un niveau publiable dans une revue scientifique spécialisée
  • En raison de la richesse du problème, sa résolution a de fortes chances d’ouvrir de nouvelles pistes de recherche mathématique
  • Dans les conditions énoncées, la probabilité que le problème soit résoluble est estimée entre 95 et 99 %

1 commentaires

 
GN⁺ 2026-03-25
Réactions sur Hacker News
  • Je suis surpris de voir autant de gens affirmer que les LLM ne peuvent pas avoir de véritable créativité
    Dire simplement « c’est impossible parce que ce n’était pas dans les données d’entraînement » ne suffit pas. Il existe déjà de nombreux contre-exemples
    Dans ce cas, il faut expliquer pourquoi on pense que certaines nouvelles tâches sont possibles et d’autres non
    Si l’on admet que la « nouveauté » se situe sur un continuum, je me demande où l’on trace la ligne et quel type de preuve ferait changer d’avis

    • Pour répondre moi-même à la question, il existe aussi des arguments logiques sur les limites fondamentales des LLM
      1. Ils apprennent sur des données humaines, donc ils imitent les limites humaines
      2. Ils n’apprennent pas de l’expérience
        Mais il y a aussi des objections. J’ai abandonné le premier argument après avoir vu un modèle obtenir une médaille d’or aux Olympiades de mathématiques
        Et avec l’ajout de RL et de mémoire, la seconde limite semble aussi pouvoir être surmontée
        Peut-être que les grands LLM peuvent eux aussi internaliser l’information à la manière des humains
        Exemple connexe : article de blog de METR
    • Les LLM peuvent fondamentalement générer n’importe quoi. En revanche, ils ne comprennent pas ce qu’ils produisent
      Les humains définissent la « vraie nouveauté » de façon trop grandiose — par exemple une formule pour les supraconducteurs ou la découverte d’un nouveau médicament
      Pourtant, une nouvelle façon de faire ses lacets est aussi, « formellement », une nouveauté
      Les LLM peuvent résoudre d’innombrables petits problèmes de ce genre, mais ce n’est pas forcément une innovation significative au point d’impressionner les humains
    • Je développais un utilitaire sur macOS pour « voir à travers » les fenêtres d’applications, et Claude Code m’a suggéré de ne pas utiliser ScreenCaptureKit
      Il l’a refusé à juste titre pour des raisons de surcharge de performance et a proposé une approche complètement différente
      Ce n’était pas un problème extraordinairement nouveau, mais la solution créative m’a vraiment surpris
      Image du projet
    • Si les LLM peuvent résoudre de nouveaux problèmes de multiplication, c’est parce qu’ils ont vu pendant l’entraînement énormément d’exemples de multiplications et appris une stratégie abstraite compressée
      Ce n’est pas une simple mémorisation : ils ont internalisé une opération généralisée dans les circuits internes du réseau neuronal
    • La plupart des inventions sont le résultat d’une interpolation entre trois idées existantes. Et ce type de système fait cela très bien
  • Je pensais que je ne croirais à l’IA capable de résoudre seule des problèmes difficiles que lorsque je le verrais, mais si ce résultat est réel, j’ai l’impression d’être devenu un vrai converti
    J’aimerais voir davantage de cas, mais le monde devient vraiment nouveau et passionnant

    • Les problèmes de concours de maths ou de programmation ont des règles claires et une vérification facile, donc ils sont faciles à apprendre
      En revanche, dans des domaines où la définition est floue, comme la qualité du code, les hallucinations augmentent
      Comme il n’existe pas de fonction de valeur apprise de manière autonome comme avec AlphaGo, le RL seul a ses limites
    • Plutôt qu’un « monde nouveau et passionnant », on entre peut-être dans une ère de recyclage sans fin
      L’IA produira sans arrêt du contenu « correct », mais la véritable émotion disparaîtra
      Les bonnes choses que les humains échangeaient se raréfient, tandis que les mauvaises semblent seulement amplifiées
    • Les LLM ne sont que des remixeurs. Ils se contentent de prédire des combinaisons de caractères qui ont déjà existé, sans créer par eux-mêmes des schémas totalement nouveaux
    • Je me demande pourquoi on prend la « résolution de problèmes difficiles » comme critère pour l’IA
      La plupart des humains n’y arrivent pas non plus, alors que l’IA excelle déjà dans le travail cognitif général
      Avec un tel critère, on se rapproche plutôt d’une définition de l’AGI ou de l’ASI
    • Des VC connus ont qualifié DeepSeek de « modèle surdoué » parce qu’il aurait résolu un problème d’électromagnétisme de niveau introduction, mais cela semble exagéré
      Il faudrait savoir de quel problème il s’agissait exactement et obtenir une validation par des experts
  • J’ai l’impression que l’hypothèse de base selon laquelle l’humain serait spécial reste encore trop forte
    On réfléchit rarement au fait que l’explication « ça finit par marcher à force d’essais » peut aussi s’appliquer aux humains
    Même dans des communautés qui valorisent la pensée scientifique, l’exceptionnalisme humain est profondément ancré

    • Les humains ont la capacité de raisonner sans expérience avec seulement 20 watts. C’est clairement quelque chose de spécial
    • Même cet accomplissement n’a de sens que parce que des humains ont posé le problème et collaboré avec l’IA pour le vérifier
      L’IA n’est pas capable de se fixer elle-même des objectifs ni de reconnaître ses propres accomplissements
      On a peut-être dépensé des ressources immenses pour n’obtenir qu’une avancée mathématique mineure
    • Dire que les humains sont spéciaux n’est pas une simple croyance, c’est un fait empirique étudié par les neurosciences et les sciences cognitives
      Je suis fonctionnaliste, mais je ne pense pas que ce qui « ressemble à de l’intelligence » chez les LLM soit une véritable intelligence
    • Pour comprendre ce qui rend les humains uniques, on peut consulter la théorie de l’Orchestrated Objective Reduction
    • Ce n’est pas que l’humain soit spécial, c’est que les modèles statistiques sont presque incapables de sortir du cadre
  • L’intégralité de la conversation avec GPT‑5.4 Pro ainsi que le rapport de résultats sont publics
    Transcription complète / Résumé des résultats

    • Je suis curieux de connaître le contenu réel du fichier solution template fourni
      Et la façon dont l’utilisateur a mis à jour l’utilisation des tokens en cours de route pour étendre le contexte est intéressante
  • Le fait qu’Opus 4.6 ait consommé environ 250 000 tokens me fait imaginer le nombre de tokens comme un indicateur de difficulté du problème
    Ça me fait rire de me dire que le refactoring React que j’ai fait aujourd’hui représentait la moitié de la difficulté d’un problème mathématique ouvert

    • Ça ressemble à une blague, mais les mathématiques sont par essence un domaine très fermé, donc c’est peut-être réellement le cas
      Certains problèmes n’ont été tentés que par 5 à 10 personnes dans le monde
      Comme un logiciel inachevé faute de motivation, un problème mathématique peut rester non résolu simplement parce que trop peu de gens l’ont essayé
      Malgré tout, le fait que l’IA ait résolu ce genre de problème reste quasi miraculeux
    • La gestion du contexte est importante. Gaspiller des tokens fait baisser les performances
      Plus le contexte grossit, plus le coût augmente, et les fournisseurs peuvent aussi relever leurs tarifs
    • En comparant les sorties d’Opus 4.6 et de GPT‑5.4 Pro, j’ai trouvé intéressant que le premier montre davantage de tentatives de vérification variées et de cheminement de pensée
    • En maths, une variable prend un token, alors qu’en logiciel on utilise beaucoup plus de tokens à cause de la lisibilité
    • Le nombre de tokens n’est pas un indicateur de complexité. Les problèmes centrés sur les données consomment bien plus de tokens que les problèmes de raisonnement pur
  • Les capacités de l’IA sont déterminées par la fonction de coût sur laquelle elle est entraînée
    Au fond, l’intelligence est le processus qui consiste à minimiser une fonction de coût complexe
    Dans les domaines comme les maths ou le code, où la vérification automatique est possible, des approches comme RLVR progresseront rapidement
    Mais dans les domaines où les récompenses sont sociales ou où l’incertitude est forte, les progrès pourraient être plus lents

    • Il existe un contre-argument selon lequel certains problèmes ne peuvent pas être exprimés par une fonction de coût
      Par exemple, l’introduction des nombres complexes peut être vue comme le résultat d’une optimisation de représentation
  • Des experts métier sont en train d’enseigner aux LLM leur façon de résoudre les problèmes
    Au final, les LLM finissent par imiter leurs schémas de pensée pour résoudre les problèmes

  • Je pense qu’il existe beaucoup de problèmes qu’on peut résoudre en rééchantillonnant des preuves existantes
    Là où un humain deviendrait fou face à une recherche répétitive, une machine peut persévérer sans relâche
    Ce n’est pas un progrès majeur, mais elle peut jouer le rôle consistant à transformer une conjecture en théorème

    • La question, c’est de savoir si cette preuve est significative. La plupart du temps, ce sera probablement juste une répétition à l’intérieur du paradigme existant
      Les cas qui ouvrent une perspective entièrement nouvelle sont rares
      Cela peut n’être qu’un gaspillage de tokens
    • Je pense que toute découverte est le résultat d’une synthèse combinatoire. Presque rien ne vient d’un néant absolu
    • Dans ce cas, comment faudrait-il concevoir un benchmark pour évaluer la « vraie nouveauté » ?
  • La page Open Problems d’Epoch recense 15 problèmes avec une classification par difficulté
    Celui qui a été résolu cette fois est classé moderately interesting, donc dans la partie la plus facile de l’échelle
    Malgré cela, il est impressionnant que le problème ait été public avant sa résolution
    Je me demande à quelle vitesse les 3 autres problèmes du même niveau seront résolus à leur tour

    • À mes yeux, le simple fait qu’un LLM résolve n’importe quel problème ouvert relève déjà de la science-fiction devenue réelle
  • Le titre est quelque peu trompeur
    Le vrai titre est « A Ramsey-style Problem on Hypergraphs », et ce n’est pas seulement GPT‑5.4 qui l’a résolu, mais plusieurs modèles récents
    Cela reste malgré tout une très belle réussite