- GPT-5.4 Pro a résolu un problème de type Ramsey lié aux hypergraphes en collaboration avec Kevin Barreto et Liam Price
- L’auteur du problème, Will Brian, a vérifié l’exactitude de la solution, et l’intégralité des échanges ainsi que le document explicatif final de l’IA ont été rendus publics
- La solution élimine l’inefficacité des constructions de borne inférieure existantes et présente une structure symétrique de la borne supérieure, atteignant ainsi une cohérence rare en théorie de Ramsey
- Par la suite, plusieurs modèles ont résolu le même problème dans le cadre FrontierMath: Open Problems, ce qui a confirmé sa validité comme outil d’évaluation des capacités de raisonnement mathématique de l’IA
- Ce résultat est considéré comme un exemple montrant que l’IA peut contribuer de manière concrète à la résolution de problèmes mathématiques ouverts
Résolution d’un problème de type Ramsey sur les hypergraphes
- GPT-5.4 Pro a résolu un problème de type Ramsey difficile lié aux hypergraphes en collaboration avec Kevin Barreto et Liam Price
- L’auteur du problème, Will Brian, a vérifié l’exactitude de la solution
- L’intégralité des échanges pendant la résolution ainsi que le document explicatif final de GPT-5.4 Pro ont été publiés
- Brian estime que cette solution supprime l’inefficacité des constructions de borne inférieure existantes et met en évidence la complexité et la structure symétrique de la construction de borne supérieure
- Le fait que borne inférieure et borne supérieure coïncident de manière cohérente permet d’atteindre un niveau de cohérence rare pour un problème de théorie de Ramsey
- Il prévoit de mettre ce résultat en forme dans un article, avec possiblement des travaux supplémentaires dérivés des idées de l’IA
- Par la suite, Epoch AI a finalisé le framework de test FrontierMath: Open Problems et a appliqué le même problème à plusieurs modèles
- Les modèles Opus 4.6 (max), Gemini 3.1 Pro et GPT-5.4 (xhigh) ont eux aussi réussi à résoudre le problème
- Cela montre que l’environnement FrontierMath est pertinent pour évaluer les capacités de raisonnement mathématique des modèles d’IA
Définition du problème
- Le problème porte sur l’amélioration de la borne inférieure d’une suite (H(n)), apparue dans l’étude de la convergence simultanée d’ensembles de séries infinies
- Dire qu’un hypergraphe ((V, \mathcal H)) contient une partition de taille (n) signifie qu’il existe
(D \subseteq V), (\mathcal P \subseteq \mathcal H) tels que (|D| = n), et
que chaque élément de (D) appartient à exactement un élément de (\mathcal P)
- (H(n)) est défini comme le nombre maximal de sommets (k) d’un hypergraphe sans sommet isolé et ne contenant aucune partition de taille strictement supérieure à (n)
- La borne inférieure connue de (H(n)) est probablement sous-optimale, et l’on pense qu’elle peut être améliorée grâce à une nouvelle construction d’hypergraphe
- L’objectif est de trouver un algorithme satisfaisant (H(n) \ge c \cdot k_n) (avec (c > 1))
- (k_n) est défini par la récurrence (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})
Étapes de construction du problème
-
Étape Warm-up
- Construire un hypergraphe pour des valeurs de (n) pour lesquelles une solution est déjà connue
- Conditions : (|V| ≥ 64), (|H| ≤ 20), aucune partition de taille supérieure à 20
-
Étape Single Challenge
- Trouver un hypergraphe, sous les mêmes contraintes, pour des valeurs de (n) pour lesquelles aucune solution connue n’existe
- Conditions : (|V| ≥ 66), (|H| ≤ 20), aucune partition de taille supérieure à 20
-
Étape Full Problem
- Demande un algorithme général fonctionnant pour toutes les valeurs de (n)
- Pour une entrée (n), il doit générer un hypergraphe satisfaisant (H(n) ≥ c \cdot k_n)
- Pour (n ≤ 100), l’exécution doit être possible en moins de 10 minutes sur un ordinateur portable standard
Évaluation par les mathématiciens
- Les mathématiciens familiers de ce problème sont de l’ordre d’une dizaine, dont beaucoup de chercheurs du domaine
- Le nombre de mathématiciens ayant réellement tenté de le résoudre est estimé à 5 à 10
- Le temps estimé pour qu’un expert le résolve est de 1 à 3 mois
- Une résolution est jugée d’un niveau publiable dans une revue scientifique spécialisée
- En raison de la richesse du problème, sa résolution a de fortes chances d’ouvrir de nouvelles pistes de recherche mathématique
- Dans les conditions énoncées, la probabilité que le problème soit résoluble est estimée entre 95 et 99 %
1 commentaires
Réactions sur Hacker News
Je suis surpris de voir autant de gens affirmer que les LLM ne peuvent pas avoir de véritable créativité
Dire simplement « c’est impossible parce que ce n’était pas dans les données d’entraînement » ne suffit pas. Il existe déjà de nombreux contre-exemples
Dans ce cas, il faut expliquer pourquoi on pense que certaines nouvelles tâches sont possibles et d’autres non
Si l’on admet que la « nouveauté » se situe sur un continuum, je me demande où l’on trace la ligne et quel type de preuve ferait changer d’avis
Mais il y a aussi des objections. J’ai abandonné le premier argument après avoir vu un modèle obtenir une médaille d’or aux Olympiades de mathématiques
Et avec l’ajout de RL et de mémoire, la seconde limite semble aussi pouvoir être surmontée
Peut-être que les grands LLM peuvent eux aussi internaliser l’information à la manière des humains
Exemple connexe : article de blog de METR
Les humains définissent la « vraie nouveauté » de façon trop grandiose — par exemple une formule pour les supraconducteurs ou la découverte d’un nouveau médicament
Pourtant, une nouvelle façon de faire ses lacets est aussi, « formellement », une nouveauté
Les LLM peuvent résoudre d’innombrables petits problèmes de ce genre, mais ce n’est pas forcément une innovation significative au point d’impressionner les humains
Il l’a refusé à juste titre pour des raisons de surcharge de performance et a proposé une approche complètement différente
Ce n’était pas un problème extraordinairement nouveau, mais la solution créative m’a vraiment surpris
Image du projet
Ce n’est pas une simple mémorisation : ils ont internalisé une opération généralisée dans les circuits internes du réseau neuronal
Je pensais que je ne croirais à l’IA capable de résoudre seule des problèmes difficiles que lorsque je le verrais, mais si ce résultat est réel, j’ai l’impression d’être devenu un vrai converti
J’aimerais voir davantage de cas, mais le monde devient vraiment nouveau et passionnant
En revanche, dans des domaines où la définition est floue, comme la qualité du code, les hallucinations augmentent
Comme il n’existe pas de fonction de valeur apprise de manière autonome comme avec AlphaGo, le RL seul a ses limites
L’IA produira sans arrêt du contenu « correct », mais la véritable émotion disparaîtra
Les bonnes choses que les humains échangeaient se raréfient, tandis que les mauvaises semblent seulement amplifiées
La plupart des humains n’y arrivent pas non plus, alors que l’IA excelle déjà dans le travail cognitif général
Avec un tel critère, on se rapproche plutôt d’une définition de l’AGI ou de l’ASI
Il faudrait savoir de quel problème il s’agissait exactement et obtenir une validation par des experts
J’ai l’impression que l’hypothèse de base selon laquelle l’humain serait spécial reste encore trop forte
On réfléchit rarement au fait que l’explication « ça finit par marcher à force d’essais » peut aussi s’appliquer aux humains
Même dans des communautés qui valorisent la pensée scientifique, l’exceptionnalisme humain est profondément ancré
L’IA n’est pas capable de se fixer elle-même des objectifs ni de reconnaître ses propres accomplissements
On a peut-être dépensé des ressources immenses pour n’obtenir qu’une avancée mathématique mineure
Je suis fonctionnaliste, mais je ne pense pas que ce qui « ressemble à de l’intelligence » chez les LLM soit une véritable intelligence
L’intégralité de la conversation avec GPT‑5.4 Pro ainsi que le rapport de résultats sont publics
Transcription complète / Résumé des résultats
Et la façon dont l’utilisateur a mis à jour l’utilisation des tokens en cours de route pour étendre le contexte est intéressante
Le fait qu’Opus 4.6 ait consommé environ 250 000 tokens me fait imaginer le nombre de tokens comme un indicateur de difficulté du problème
Ça me fait rire de me dire que le refactoring React que j’ai fait aujourd’hui représentait la moitié de la difficulté d’un problème mathématique ouvert
Certains problèmes n’ont été tentés que par 5 à 10 personnes dans le monde
Comme un logiciel inachevé faute de motivation, un problème mathématique peut rester non résolu simplement parce que trop peu de gens l’ont essayé
Malgré tout, le fait que l’IA ait résolu ce genre de problème reste quasi miraculeux
Plus le contexte grossit, plus le coût augmente, et les fournisseurs peuvent aussi relever leurs tarifs
Les capacités de l’IA sont déterminées par la fonction de coût sur laquelle elle est entraînée
Au fond, l’intelligence est le processus qui consiste à minimiser une fonction de coût complexe
Dans les domaines comme les maths ou le code, où la vérification automatique est possible, des approches comme RLVR progresseront rapidement
Mais dans les domaines où les récompenses sont sociales ou où l’incertitude est forte, les progrès pourraient être plus lents
Par exemple, l’introduction des nombres complexes peut être vue comme le résultat d’une optimisation de représentation
Des experts métier sont en train d’enseigner aux LLM leur façon de résoudre les problèmes
Au final, les LLM finissent par imiter leurs schémas de pensée pour résoudre les problèmes
Je pense qu’il existe beaucoup de problèmes qu’on peut résoudre en rééchantillonnant des preuves existantes
Là où un humain deviendrait fou face à une recherche répétitive, une machine peut persévérer sans relâche
Ce n’est pas un progrès majeur, mais elle peut jouer le rôle consistant à transformer une conjecture en théorème
Les cas qui ouvrent une perspective entièrement nouvelle sont rares
Cela peut n’être qu’un gaspillage de tokens
La page Open Problems d’Epoch recense 15 problèmes avec une classification par difficulté
Celui qui a été résolu cette fois est classé moderately interesting, donc dans la partie la plus facile de l’échelle
Malgré cela, il est impressionnant que le problème ait été public avant sa résolution
Je me demande à quelle vitesse les 3 autres problèmes du même niveau seront résolus à leur tour
Le titre est quelque peu trompeur
Le vrai titre est « A Ramsey-style Problem on Hypergraphs », et ce n’est pas seulement GPT‑5.4 qui l’a résolu, mais plusieurs modèles récents
Cela reste malgré tout une très belle réussite