Expérience récente avec ChatGPT 5.5 Pro
(gowers.wordpress.com)- Tim Gowers affirme avoir obtenu, avec ChatGPT 5.5 Pro, un résultat de recherche de niveau doctorat en combinatoire en environ une heure, en estimant que son propre apport mathématique a été quasiment nul
- ChatGPT 5.5 Pro a proposé en 17 min 5 s une construction donnant une borne supérieure quadratique nécessairement optimale pour le diamètre d’un ensemble ayant une taille de sumset donnée dans un problème de théorie additive des nombres posé par Mel Nathanson
- Il a ensuite résolu de la même manière un problème de sumset restreint, et a même produit un argument améliorant la borne exponentielle existante d’Isaac Rajagopal en une dépendance polynomiale, ce qui a semblé à Rajagopal presque certainement correct
- L’idée clé consistait à remplacer, dans la construction de Rajagopal, les composantes en progression géométrique par une construction fondée sur des ensembles h-dissociés, afin de reproduire les motifs de tailles de sumset requis à l’intérieur d’intervalles de taille polynomiale
- Les résultats produits par l’IA semblent d’un niveau publiable, mais plutôt qu’une publication en revue ou un dépôt sur arXiv, il pourrait falloir un dépôt séparé où des mathématiciens humains certifient leur exactitude ; les critères de formation des chercheurs débutants pourraient aussi évoluer vers la démonstration de ce qu’ils savent faire en collaborant avec des LLM et que les LLM seuls ne savent pas faire
Les LLM transforment la résolution de problèmes en combinatoire
- Les grands modèles de langage semblent déjà capables de résoudre des problèmes de niveau recherche, et auraient notamment résolu plusieurs problèmes publiés sur le site des problèmes d’Erdős de Thomas Bloom
- Les premiers succès des LLM consistaient souvent à retrouver des réponses déjà présentes dans la littérature ou à tirer des conclusions qui découlaient facilement de résultats connus, mais il devient désormais plus plausible qu’un LLM découvre un argument simple passé à côté des humains
- Comme une part importante des mathématiques humaines consiste elle aussi à combiner des connaissances et des techniques de preuve existantes, le réconfort consistant à dire que les LLM ne font que « combiner des connaissances existantes » reste limité
- En combinatoire, les articles qui introduisent de nouveaux paramètres combinatoires soulèvent naturellement plusieurs problèmes ; autrefois, c’était une bonne source de problèmes ouverts pour les jeunes chercheurs, mais le nouveau critère devient désormais de savoir s’ils sont assez difficiles pour qu’un LLM ne puisse pas les résoudre
Le problème de Nathanson et le premier résultat
- Gowers a fait essayer à ChatGPT 5.5 Pro des problèmes figurant dans l’article de Mel Nathanson, Diversity, Equity and Inclusion for Problems in Additive Number Theory
- Nathanson est présenté comme quelqu’un qui s’est intéressé très tôt à des problèmes et théorèmes devenus populaires plus tard, ce qui l’a conduit à écrire des manuels influents et publiés au bon moment
- Le cœur du sujet porte sur le sumset d’un ensemble d’entiers, les sumsets obtenus par additions répétées, et les tailles possibles de sumset pour un nombre d’éléments donné
- Pour un nombre d’éléments donné, les tailles possibles de sumset ne prennent pas toujours toutes les valeurs entre le minimum et le maximum, et on ne dispose toujours pas d’une description complète
- Nathanson a donné une borne supérieure sur le diamètre (diameter) nécessaire pour construire un ensemble ayant un nombre d’éléments et une taille de sumset donnés, et a demandé si cette borne pouvait être améliorée
- Après avoir réfléchi pendant 17 min 5 s, ChatGPT 5.5 Pro a proposé une construction donnant une borne supérieure quadratique nécessairement optimale
- Quand Gowers lui a demandé de réécrire cela sous la forme d’un fichier LaTeX au style habituel d’un preprint de mathématiques, ChatGPT a fourni cette version 2 min 23 s plus tard, et Gowers a passé son temps à vérifier la validité de l’argument
Ensembles de Sidon et extension aux sumsets restreints
- L’argument de Nathanson comme celui de ChatGPT reposent tous deux sur l’idée d’utiliser ensemble des ensembles de Sidon et des progressions arithmétiques pour construire un ensemble de taille donnée avec un sumset de taille donnée
- Un ensemble de Sidon est ici pris dans le sens simplifié d’un ensemble dont le sumset a une taille maximale
- Pour des ajustements fins, on peut ajouter un point supplémentaire près d’une progression arithmétique, et en réglant plusieurs paramètres on obtient des ensembles des tailles voulues
- Nathanson a présenté un argument inductif dans le Theorem 5 de cet article, mais une fois développé, il ressemble en pratique à une structure utilisant un ensemble de Sidon formé de puissances de 2
- L’amélioration apportée par ChatGPT vient de l’utilisation d’un ensemble de Sidon plus efficace, et le fait qu’on puisse trouver des ensembles de Sidon de diamètre quadratique est bien connu
- Gowers a ensuite testé un problème proche où l’on considère non plus la taille du sumset mais celle du sumset restreint (restricted sumset), et ChatGPT a obtenu le résultat de la même manière sans difficulté particulière
- Un document réunissant les deux résultats dans une seule note sans redondance est disponible ici
Le cas de degré général et l’amélioration de l’article de Rajagopal
- Gowers a aussi demandé ce que ChatGPT pouvait faire dans le cas plus général
- Il était au départ bien moins optimiste, car les preuves précédentes dépendaient essentiellement du résultat d’Erdős et Szemerédi, c’est-à-dire du fait qu’on connaisse exactement les tailles à construire
- L’article de Nathanson mentionne un article d’Isaac Rajagopal, étudiant au MIT, dans lequel Rajagopal démontre une dépendance exponentielle pour chaque degré fixé
- Pour Rajagopal, la véritable difficulté n’était pas de « ne pas connaître l’ensemble des tailles possibles »
- Son argument fournit une description complète dans les cas suffisamment grands
- Pour montrer une dépendance polynomiale à degré fixé, il suffit de supposer les cas suffisamment grands
- La vraie difficulté est que la construction d’un ensemble ayant une taille de sumset donnée est bien plus complexe, et que lorsque le degré augmente, le degré du polynôme augmente aussi, ce qui exige davantage de paramètres
- La tâche confiée à ChatGPT n’était pas de résoudre le problème depuis zéro, mais de resserrer l’argument de Rajagopal
- Le déroulement a été le suivant
- Au bout de 16 min 41 s, il a proposé un argument améliorant la borne existante, passant d’une fonction exponentielle à une forme exponentielle plus faible pour toute constante positive arbitraire
- La mise en forme en preprint a demandé 47 min 39 s supplémentaires
- Gowers l’a envoyé à Nathanson, qui l’a transmis à Rajagopal, et celui-ci a jugé le résultat plausible
- ChatGPT comme Rajagopal ont tous deux émis certaines hypothèses sur ce qu’il faudrait pour pousser plus loin jusqu’à une borne polynomiale, et Gowers a demandé à ChatGPT d’essayer
- 13 min 33 s plus tard, ChatGPT a répondu qu’il était optimiste quant à l’existence d’un tel argument, mais qu’il fallait vérifier quelques énoncés techniques
- Après demande de vérification, il a terminé cet examen 9 min 12 s plus tard, puis on lui a redemandé une rédaction au format preprint
- 31 min 40 s plus tard, le preprint était prêt, et le document est publié ici
- Rajagopal l’a considéré comme presque certainement correct, non seulement ligne par ligne, mais aussi au niveau des idées
Où placer les résultats mathématiques produits par l’IA ?
- S’il s’agissait d’un résultat produit par un humain, il semblerait publiable ; le qualifier d’AI slop paraît donc inapproprié
- En revanche, le publier dans une revue ne semble pas avoir beaucoup de sens
- Le résultat peut être diffusé gratuitement
- Personne n’a besoin d’en tirer un « mérite »
- Cela dit, Rajagopal mérite largement le crédit pour avoir construit le cadre sur lequel ChatGPT a pu s’appuyer
- arXiv est compris comme ayant une politique qui n’accepte pas les contenus rédigés par l’IA, ce qui est jugé raisonnable
- Il pourrait être nécessaire de disposer d’un dépôt séparé pour les résultats produits par l’IA
- Une procédure de validation n’incluant que des résultats dont l’exactitude a été certifiée par des mathématiciens humains pourrait être souhaitable
- Mieux encore, il pourrait s’agir de résultats formalisés avec un assistant de preuve
- Le fait qu’il s’agisse de réponses à des questions soulevées dans des articles écrits par des humains pourrait aussi servir de critère
- Il serait problématique qu’une telle procédure de validation crée une charge de travail massive, et confier à nouveau cette tâche à l’IA comporte des risques évidents
- Pour le moment, ces résultats restent accessibles via des liens publics et, comme la capacité des LLM à faire de la recherche bibliographique s’est améliorée, il est possible qu’une personne cherchant à savoir si le problème de Nathanson a été résolu puisse les retrouver
Évaluation d’Isaac Rajagopal et contexte technique
-
Contribution essentielle de ChatGPT
- ChatGPT a amélioré une borne spécifique, la faisant passer d’une dépendance exponentielle à une dépendance polynomiale avec seulement quelques prompts
- La première amélioration consistait en une modification relativement routinière du travail de Rajagopal, mais l’amélioration polynomiale était particulièrement impressionnante
- L’idée proposée par ChatGPT était originale et ingénieuse, du genre dont Rajagopal aurait été fier s’il l’avait trouvée lui-même après une ou deux semaines de réflexion
- ChatGPT a trouvé l’idée et l’a démontrée en moins d’une heure, en utilisant une méthode proche de la propre preuve de Rajagopal
-
Contexte du problème
- Ce problème de borne est étroitement lié à celui sur lequel Rajagopal avait travaillé dans le cadre du programme Duluth REU (Research Experience for Undergrads)
- L’objet central est l’ensemble des tailles possibles de sommes d’ensembles itérées, et l’étendue minimale nécessaire pour toutes les réaliser à partir d’ensembles d’entiers ayant un certain nombre d’éléments
- Rajagopal avait explicité l’été dernier la caractérisation de l’ensemble des valeurs possibles dans les cas suffisamment grands
- Il a construit des ensembles réalisant toutes les tailles qu’il n’avait pas pu exclure comme impossibles, et la borne correspondante peut donc être obtenue en optimisant cette construction
-
Remplacement d’une construction de taille exponentielle
- La construction originale de Rajagopal consistait à combiner plusieurs petits ensembles de composants faciles à analyser
- Certains composants prenaient la forme de progressions géométriques selon des paramètres multiples, et leurs éléments croissaient exponentiellement avec ces paramètres
- Par l’intermédiaire de Tim, Rajagopal a demandé à ChatGPT s’il existait des ensembles ayant des tailles de sommes d’ensembles similaires à celles de ces progressions géométriques, tout en gardant des éléments bornés polynomialement
- ChatGPT a construit des ensembles qui se comportent comme s’ils « comprimaient la moitié d’une progression géométrique dans un intervalle polynomial »
- Cela ressemble à une construction contre-intuitive
Ensembles Bₕ, ensembles dissociés et idée de construction de ChatGPT
-
Rôle des ensembles Bₕ
- Pour un ordre donné, on appelle ensemble Bₕ un ensemble sans relation additive, hormis les solutions triviales où une somme n’est qu’une permutation de l’autre
- Dans un ensemble Bₕ de taille fixée, la sélection d’éléments avec répétition correspond exactement aux éléments de la somme d’ensembles itérée
- Un comptage par « stars and bars » montre qu’il s’agit de la taille maximale possible d’une somme d’ensembles itérée parmi les ensembles de même taille
- Un ensemble de Sidon est, dans cette perspective, un ensemble B₂
-
Propriétés reproduites par la progression géométrique
- Un certain ensemble en progression géométrique est un ensemble Bₕ, mais pas un ensemble B d’ordre supérieur
- Les relations gênantes prennent la forme de relations additives d’un type particulier
- Dans un ensemble, la taille de la somme d’ensembles devient une fonction linéaire du paramètre, et dans un autre une fonction quadratique
- ChatGPT a trouvé de nouveaux ensembles satisfaisant ces quatre propriétés, tout en ayant des éléments tous de taille polynomiale par rapport au paramètre
-
Usage d’ensembles h-dissociés
- La construction de ChatGPT utilise des ensembles h-dissociés
- Un ensemble h-dissocié n’admet que des solutions triviales pour les relations additives jusqu’à un ordre borné
- On peut construire des ensembles h-dissociés dont la taille est approximativement celle du paramètre et dont le diamètre est polynomial
- Ce type de construction remonte aux constructions de Singer (1938) et de Bose–Chowla (1963) utilisant des corps finis, comme expliqué dans l’Appendix 1
-
L’intuition de ne contenir que la moitié des relations
- Les deux ensembles construits par ChatGPT contiennent environ la moitié de certaines relations additives par rapport à leurs analogues en progression géométrique
- En même temps, grâce à la propriété h-dissociée, ils n’ont presque pas d’autres relations de faible ordre
- Ils reproduisent ainsi le motif nécessaire des tailles de sommes d’ensembles tout en restant dans un intervalle polynomial
- Pour Rajagopal, l’idée de ChatGPT d’utiliser des ensembles h-dissociés pour contrôler les relations jusqu’à un certain ordre semblait extrêmement habile et totalement originale
Correspondance entre la preuve de ChatGPT et celle de Rajagopal
- La preuve de ChatGPT ressemble beaucoup à la preuve originale de Rajagopal, où les composants en progression géométrique sont remplacés par les nouveaux composants de ChatGPT
- La construction finale combine les nouveaux ensembles pour plusieurs valeurs d’ordre, puis y ajoute un autre ensemble formé d’une somme d’ensembles d’une progression arithmétique et d’un point unique
- Intuitivement, comme les nouveaux ensembles produisent de grandes sommes d’ensembles et la progression arithmétique de petites, leur combinaison semble devoir permettre d’obtenir toutes les tailles intermédiaires
- La preuve réelle est assez complexe et occupe la Section 4 du papier de Rajagopal ainsi que l’ensemble du preprint de ChatGPT
- À titre de comparaison, on voit facilement que la borne inférieure positive en question est au moins de l’ordre d’une certaine puissance du degré, mais sa valeur exacte reste inconnue
- Rajagopal a dit avoir été surpris que le problème soumis par Tim à ChatGPT 5.5 Pro mène, par hasard, à son propre article arXiv
Implications pour la recherche en mathématiques et la formation doctorale
- Le résultat trouvé par ChatGPT en deux heures est jugé du niveau d’un chapitre tout à fait raisonnable d’une thèse de doctorat en combinatoire
- Ce n’était pas un résultat surprenant puisqu’il s’appuyait fortement sur l’idée d’Isaac, mais c’en était une extension non triviale
- Pour qu’un doctorant trouve la même extension, il aurait probablement fallu beaucoup de temps pour assimiler l’article de Rajagopal, repérer les points non optimaux possibles et se familiariser avec les diverses techniques algébriques employées
- La formation à la recherche consistant à donner à de jeunes doctorants des problèmes ouverts relativement « accessibles » pourrait devenir plus difficile
- Si les LLM peuvent résoudre des « problèmes accessibles », alors le seuil minimal pour contribuer aux mathématiques se déplace de « un résultat que personne n’a encore démontré et que quelqu’un juge intéressant » vers « un résultat qu’un LLM ne peut pas démontrer »
- Comme même les débutants peuvent utiliser des LLM, la véritable tâche pourrait être de démontrer, en collaboration avec un LLM, ce qu’un LLM seul ne peut pas faire
- Gowers a récemment mené plusieurs collaborations avec des LLM et estime qu’il en a tiré des contributions utiles, même si elles ne relèvent pas encore d’idées bouleversant le domaine
Différences selon les domaines et évolutions à venir
- Il n’est pas certain que ce changement se généralise autant à d’autres domaines des mathématiques
- La combinatoire a une forte tendance à être centrée sur les problèmes
- Elle part souvent de la question pour raisonner à rebours, ou raisonne vers l’avant tout en gardant fortement cette question en tête
- Dans d’autres domaines, il peut être plus important de partir d’un éventail d’idées pour voir vers quoi elles mènent, dans une logique de raisonnement vers l’avant
- Dans ces domaines, il faut savoir distinguer les observations intéressantes de celles qui ne le sont pas, et on ne sait pas encore clairement dans quelle mesure les LLM sont bons pour cela
- Le rythme de progression des LLM est si rapide que toute évaluation actuelle a de fortes chances d’être dépassée en quelques mois
- La manière de faire de la recherche en mathématiques, en particulier d’initier de nouveaux chercheurs, risque donc d’être fortement bouleversée
- Une personne commençant un doctorat l’an prochain ne le terminera au plus tôt qu’en 2029, et d’ici là la signification même de la recherche mathématique pourrait avoir changé au point d’être méconnaissable
Évolution des raisons de faire des mathématiques
- Il dit recevoir régulièrement des e-mails demandant s’il est encore pertinent de faire de la recherche en mathématiques comme carrière
- Le fait de se confronter à des problèmes mathématiques garde une grande valeur, mais l’époque où l’on pouvait espérer voir son nom associé pour toujours à un théorème ou à une définition précise approche peut-être de sa fin
- Si l’objectif de faire des mathématiques est une forme d’immortalité, il faut comprendre que cela pourrait ne plus rester possible très longtemps
- En expérience de pensée, si un mathématicien menait une longue conversation avec un LLM, jouait un rôle de guide utile, mais que le travail technique et les idées centrales venant à résoudre un grand problème étaient entièrement produits par le LLM, il est douteux qu’on considère cela comme une réalisation majeure de ce mathématicien
- Résoudre un problème dont on connaît déjà la réponse peut certes être satisfaisant, mais cela ne suffit pas comme raison d’y consacrer plusieurs années de sa vie
- Une meilleure raison est de résoudre des problèmes difficiles tout en acquérant, dans son domaine d’expertise, une compréhension du processus même de résolution de problèmes
- Quelqu’un qui a déjà résolu lui-même des problèmes difficiles sera probablement aussi meilleur pour en résoudre avec l’aide de l’IA
- Un peu comme un bon développeur fait mieux du vibe coding qu’une personne moins compétente
- Ou comme une personne qui maîtrise bien l’arithmétique de base utilise mieux une calculatrice, notamment pour remarquer plus facilement quand une réponse semble étrange
- Les mathématiques sont une compétence fortement transférable, et cela vaut aussi pour les mathématiques au niveau de la recherche
- Même si la recherche mathématique ne procure plus forcément les mêmes récompenses qu’aux générations précédentes, elle pourrait très bien préparer au monde qui vient
Contenu technique des annexes
-
Annexe 1 : construction d’un ensemble h-dissocié
- L’objectif est de construire un ensemble h-dissocié dont le diamètre est approximativement de niveau polynomial
- Cette construction est une très légère variante de celle de Bose–Chowla (1963), et Rajagopal indique l’avoir apprise dans cet article
- Le lemme 3.1 du preprint de ChatGPT utilise une autre construction, moins efficace, fondée sur la moment curve
- La construction utilise un nombre premier, un corps fini, un générateur d’une extension de corps fini, et une méthode d’association de chaque élément à une expression en puissances donnée
- On peut réinterpréter les relations additives de degré borné comme des relations entre puissances du générateur
- En raison du degré de l’extension et des propriétés du générateur, elles ne satisfont aucun polynôme non nul de faible degré ; les polynômes des deux côtés doivent donc être identiques
- Par conséquent, les relations additives en question sont uniquement les relations triviales, et l’ensemble est h-dissocié
- Si nécessaire, on peut retirer quelques éléments pour réduire l’ensemble à la taille souhaitée
-
Annexe 2 : structure détaillée de la construction de ChatGPT
- On choisit des constantes fixes, puis on utilise deux ensembles produits par ChatGPT
- La construction d’un ensemble atteignant la taille voulue combine quatre types de composants
- un type qui choisit deux paramètres
- deux types qui choisissent deux paramètres pour chaque valeur de degré
- un ensemble qui ajuste le nombre total d’éléments
- L’une des raisons pour lesquelles cette construction est complexe est qu’il faut produire un nombre suffisant d’ensembles distincts
- Pour cela, on fait varier conjointement des paramètres d’une région et des paramètres d’une autre région
- Si l’on supprime l’un des paramètres en laissant les autres inchangés, il devient impossible de produire suffisamment d’ensembles
- La construction de Nathanson pour le degré 2 combine un ensemble de Sidon, une progression arithmétique et une valeur supplémentaire ; elle a une structure plus simple qui produit les ensembles nécessaires en faisant varier, dans une certaine plage, la taille de la progression arithmétique et la valeur ajoutée
- La construction de l’annexe 1 permet d’obtenir, pour chaque degré, un ensemble h-dissocié de diamètre polynomial
- Lorsqu’on combine plusieurs composants, on utilise une structure de type réseau munie de vecteurs de base
- Cette construction garantit une identité de produit de fonctions génératrices, de manière analogue au lemme 4.9 de Rajagopal
- Conformément au lemme 2.3 standard du preprint de ChatGPT, cette construction peut être transportée vers un sous-ensemble d’un intervalle d’entiers via un isomorphisme de Freiman d’un certain ordre
- La construction complète fonctionne pour des cas suffisamment grands
-
Annexe 3 : correspondance entre l’article de Rajagopal et le preprint de ChatGPT
- La section 4.2 de l’article de Rajagopal utilise une construction plus simple pour fabriquer des ensembles atteignant certaines valeurs données
- Ces ensembles sont des sous-ensembles d’un intervalle dont les éléments sont de taille polynomiale, ce qui est observé dans la section 5 du preprint de ChatGPT
- La section 4.3 de l’article de Rajagopal réalise la construction centrale qui combine plusieurs composants, et correspond aux sections 2, 3, 4 et 6 du preprint de ChatGPT
- La section 4.3.1 de l’article de Rajagopal fournit une vue d’ensemble de cette partie qui comporte de nombreux éléments mobiles
- La section 4.3.2 de l’article de Rajagopal explique comment les composants sont combinés, et Rajagopal appelle cela une disjoint union
- Elle introduit les fonctions génératrices comme outil de tenue de registres pour suivre la taille de l’union des ensembles, ce qui correspond aux sections 2 et 4 du preprint de ChatGPT
- La section 4.3.3 de l’article de Rajagopal calcule les fonctions génératrices de chaque ensemble composant, et comprend le lemme 4.15 et le lemme 4.17
- Cela correspond à la section 3 et à la section 6.1 du preprint de ChatGPT ; dans le preprint de ChatGPT, une fonction génératrice est calculée dans le lemme 3.3 et l’autre dans le lemme 3.4
- Une fois les fonctions génératrices calculées, le reste de la preuve est presque identique dans l’article de Rajagopal et dans le preprint de ChatGPT
- La section 4.3.4 de l’article de Rajagopal montre que, lorsqu’on fait varier les ensembles construits, les valeurs de la taille de l’union prennent toutes les valeurs possibles
- Le point essentiel est que l’ensemble des valeurs possibles forme un intervalle unique et contient tous les nombres inférieurs ou égaux à une certaine valeur de référence
1 commentaires
Commentaires sur Hacker News
Cela correspond à peu près à ma propre expérience après avoir brièvement utilisé 5.5 Pro. Pour la première fois, j’ai eu l’impression d’avoir affaire à un LLM qu’on peut pousser à résoudre correctement des problèmes ennuyeux mais bien définis
Il fait encore beaucoup d’erreurs et il faut l’orienter de façon très stricte, mais contrairement aux autres modèles, il est plutôt bon pour suivre son propre raisonnement et se corriger lui-même
Le problème, c’est le coût. Il consomme des tokens comme un fou et le prix par token est élevé, et si on utilise des flux de sous-agents pour résoudre de gros problèmes avec une grande précision, cela coûte encore plus cher
Sur les problèmes de grande ampleur, il peut aussi devenir beaucoup plus lent à cause des limites de contexte. Il doit retrouver le contexte pour chaque sous-partie, et pour préserver la précision il faut soit effacer le contexte avant de passer à la petite partie suivante, soit lancer davantage d’agents
Pour quelque chose comme une démonstration mathématique, où le contexte supplémentaire nécessaire pour comprendre le problème et la preuve est réduit et où le problème est “important”, cela peut convenir, mais il y a clairement des limites dès qu’il s’agit de vérifier l’exactitude du code dans une grosse base de code ou de valider des hypothèses subtiles
Donc, à moins d’être l’une des rares personnes chanceuses à pouvoir utiliser 5.5 Pro sans limite, il faudra sans doute encore un peu de temps avant que les capacités impressionnantes de ce type de modèle ne s’intègrent au quotidien des programmeurs
C’est un long texte qui mêle des passages très techniques de mathématiques et des passages philosophiques, mais le point particulièrement marquant est que la formation des doctorants en début de thèse est devenue plus difficile
Avant, on pouvait leur faire commencer sur des problèmes de recherche relativement abordables, mais si les LLM peuvent résoudre ces “problèmes abordables”, cette option disparaît
Le seuil minimal pour contribuer aux mathématiques n’est plus “quelque chose d’intéressant que personne n’a encore démontré”, mais “quelque chose que les LLM ne parviennent pas à démontrer”
Cela dit, la formation doit toujours commencer par les bases. Tout le monde commence par apprendre l’addition de petits entiers, et les calculatrices savent le faire sans erreur depuis très longtemps
Comme dans les autres parties du texte, c’est en résolvant soi-même des problèmes difficiles qu’on acquiert une intuition sur le processus même de résolution, et ceux qui ont déjà résolu des problèmes difficiles sauront probablement mieux exploiter l’IA
Le code sert à fabriquer des choses pour lesquelles des gens paient, donc on peut livrer plus vite avec l’IA et rester employé, mais je ne sais pas si on peut voir les mathématiques de la même manière
Si un LLM fait tout le travail technique et produit les idées principales pendant que le mathématicien se contente de l’orienter utilement, il est douteux qu’on considère cela comme une grande réussite du mathématicien
En entreprise aussi, quand des personnes confient le travail à un LLM, le résultat n’est pas toujours mauvais et peut parfois être acceptable, mais ce n’est pas leur travail
Au final, l’auteur ne connaît ni ne comprend mieux ce travail que les autres, ne se l’approprie pas et ne peut pas vraiment l’expliquer. Il n’est littéralement qu’un point de passage, ce qui fait disparaître sa valeur
Si les LLM résolvent la “recherche facile”, ce processus devient plus difficile
Un jeune lion apprend à chasser plus tard en se battant et en jouant avec d’autres jeunes lions ; si TikTok surgit soudain et qu’ils ne jouent plus, leur première chasse sera bien plus difficile
Il est aussi vrai qu’on peut livrer plus vite et gagner de l’argent grâce à l’IA, mais c’est une autre question que celle de devenir un bon développeur. Si on ne devient pas un bon développeur, on reste simplement un mauvais vibe coder
Le passage intéressant chez Baez est la question de savoir d’où vient la valeur de la pensée et des idées profondes
Si cette valeur vient surtout de la rareté, c’est-à-dire du fait qu’il est difficile d’avoir certaines idées, alors l’automatisation de la production d’idées peut faire s’effondrer cette valeur
Mais si la valeur vient de l’utilité des idées, c’est-à-dire des bénéfices qu’elles apportent, alors l’histoire est différente. Produire plus de meilleures idées pourrait au contraire être préférable
Les mathématiciens devront peut-être s’adapter à un passage d’une économie de la rareté à une économie de l’abondance
https://gowers.wordpress.com/2026/05/08/a-recent-experience-...
Ensuite les purs bâtisseurs de théories, dont Conway est emblématique ; ils s’intéressent davantage aux théories et aux idées qu’aux théorèmes, et cherchent à étendre le territoire des mathématiques
Enfin les mathématiciens appliqués, qui voient les mathématiques comme un moyen au service d’une fin et veulent résoudre avec elles des problèmes extérieurs aux mathématiques
Le premier groupe, les résolveurs de problèmes, semble le plus immédiatement menacé par l’IA. Cela dit, pour l’instant l’IA est meilleure pour résoudre des problèmes que pour formuler de nouvelles conjectures
Le deuxième groupe, les bâtisseurs de théories, est menacé à plus long terme. Jusqu’ici, la capacité de l’IA à produire des idées mathématiques nouvelles et intéressantes reste limitée, et personne ne sait vraiment comment l’entraîner à cela
Le troisième groupe pourrait être celui qui tirera le plus de bénéfices de l’IA. Si l’IA répond à leurs questions mathématiques, ils peuvent passer moins de temps sur les mathématiques elles-mêmes et se concentrer davantage sur les problèmes extérieurs qu’ils voulaient résoudre grâce aux mathématiques
Pendant ce temps, Wiles et Perelman sont restés loin d’Internet et ont résolu de vrais problèmes
En tant que professeur de physique, j’utilise souvent Gemini pour relire des articles, et c’est un outil puissant
Il a repéré des erreurs administratives comme l’oubli de l’unité imaginaire dans une expression complexe, que je n’avais pas trouvées pendant plusieurs jours, et il signale aussi souvent des liens entre concepts et idées que j’avais ratés
Mais il commet aussi souvent des erreurs conceptuelles, que je peux détecter parce que je connais bien le sujet. Par exemple, il confond à répétition l’exponentielle d’un bivecteur et l’exponentielle du pseudoscalaire dans l’algèbre de Clifford en 3D
Je veux bien croire que ChatGPT 5.5 Pro peut produire un article publiable, mais d’après ce que j’ai vu avec Gemini jusqu’ici, mieux vaut considérer les LLM comme des étudiants extrêmement efficaces capables de lire instantanément des articles et des livres, mais qui ont encore besoin de beaucoup d’encadrement
En outre, il n’y a aucune raison de penser que les progrès des LLM, qui il y a seulement 3 ou 4 ans ne savaient même pas résoudre de façon fiable des mathématiques de niveau lycée, vont s’arrêter bientôt
Le benchmark CritPt est composé de problèmes de physique de niveau recherche non publiée, donc cela vaut la peine de le suivre
https://critpt.com/
Même les modèles de pointe sont encore loin de résoudre ces problèmes, mais les progrès sont rapides. o3 high était à 1,5 % il y a 1,5 an, GPT 5.4 xhigh à 23,4 %, GPT-5.5 xhigh à 27,1 % et GPT-5.5 Pro xhigh à 30,6 %
https://artificialanalysis.ai/evaluations/critpt
Je retombe moi aussi sans cesse dans ce piège
C’est aussi l’une des raisons pour lesquelles c’est agaçant de devoir gérer manuellement la mémoire du LLM avec des prompts personnalisés et des instructions
Je n’ai pas encore vraiment testé les fonctions de mémoire à long terme, mais elles me semblent encore moins fiables que les prompts. En 1 ou 2 ans, trop de choses changent, et cette “mémoire” devra probablement être reconstruite plusieurs fois
Sans attente préalable, on est obligé de tout prendre au pied de la lettre, et à ce moment-là on se remet entièrement à la merci de la machine
On mobilise ses fondamentaux pour faire un sanity check d’agents trop pressés, et on essaie aussi d’inculquer ces fondamentaux aux autres pour qu’ils puissent faire pareil
Au fond, cela donne l’impression que c’est la seule manière de faire fonctionner l’ensemble, à moins qu’un jour les entreprises ne basculent vers des modèles locaux plus petits mais abordables
Il y a une chance sur deux qu’ils aient raison ou qu’ils vous précipitent du haut d’une falaise, mais le voyage est toujours emballé comme une magnifique expérience cinq étoiles
Quand on repère une erreur et qu’on la signale au LLM, cela empire souvent. Le LLM veut faire plaisir, s’excuse et change de direction
Quand cela arrive, je sauvegarde ou j’annule généralement la session et je repars de zéro, ou bien je change radicalement d’orientation
Pour moi, Gemini est le LLM le plus imprévisible, et globalement GPT est celui qui me convient le mieux
Récemment, Gemini a donné deux réponses différentes à la même question. C’était un test : j’ai volontairement ouvert un nouveau chat et collé exactement le même prompt
En programmation, les capacités de raisonnement n’aident pas tant que ça. Les explications du LLM sont très haut niveau et ont formellement l’air justes
À cause des LLM, je fais au contraire davantage de recherches sur Google. Au final, quelqu’un produit quelque chose que je dois d’abord vérifier moi-même avant d’appuyer sur le bouton, et ce n’est qu’un peu plus tard que je découvre si ce bouton brillant fonctionne ou m’emmène en enfer
Si un mathématicien a une longue conversation avec un LLM, l’oriente utilement, mais que tout le travail technique et les idées principales viennent du LLM, savoir si cela constitue une grande réussite du mathématicien est un choix culturel
Il est naturel que cela paraisse étrange dans la culture mathématique actuelle, mais dans d’autres domaines, ou pour beaucoup de gens, on pourrait déjà considérer qu’il y a là une grande réussite humaine
Tant que la collaboration humain-IA produit les meilleurs résultats, il y a une contribution humaine significative, et un expert profond doublé d’un dresseur habile de LLM peut apporter une contribution majeure
Le vrai changement arrivera quand une IA pure battra à la fois les humains et les collaborations humain-IA
En mathématiques aussi, l’humain peut guider le LLM sur la bonne voie et l’orienter vers tel problème plutôt qu’un autre, donc il mérite dans une certaine mesure des éloges
L’équipe qui a construit la voiture, la personne qui a pris soin du cheval ou l’équipe qui a construit l’IA méritent peut-être davantage de crédit, mais nous avons tendance à nous intéresser surtout à la personne la plus visible
Si une image fait rire les gens, la personne qui a saisi le prompt ne mérite sans doute pas la majeure partie du crédit pour la production, mais elle peut être reconnue pour l’idée initiale et pour le goût qui lui a permis de choisir un résultat précis parmi plusieurs brouillons
Si un mathématicien obtient grâce au LLM un résultat étonnant que le LLM a “fait”, on peut considérer qu’il mérite une partie du crédit pour le prompt et l’orientation
Mais la question est alors de savoir si cette première personne peut encore être qualifiée d’artiste ou de comédien ; de même, ce mathématicien reste-t-il encore un mathématicien, ou devient-il autre chose ?
Il suffirait de le récompenser comme on récompense les autres mathématiciens. Certes, cela ferait probablement beaucoup de mathématiciens milliardaires, donc la récompense serait importante
La phrase disant que “si le but de faire des mathématiques est d’obtenir une certaine forme d’immortalité, cela pourrait ne plus être possible très longtemps” m’a un peu attristé
L’introduction du film regorge d’étudiants arpentant le campus du MIT et de tout ce que l’enseignement supérieur promet en matière de statut et d’avenir
En réalisant combien de choses pourraient être transférées à l’IA, j’ai ressenti une tristesse semblable
[0] - https://youtu.be/0lsUsWdkk0Y?si=TJl7f_b1RcWcDqF8&t=278
La pensée suivante a été : “Dans quoi suis-je bon ?”, ce qui incluait au moins “Dans quoi pourrais-je devenir de niveau mondial ?” ou “Dans quoi pourrais-je devenir vraiment très bon ?”
Je n’ai jamais cru qu’obtenir une forme d’immortalité mathématique en trouvant un résultat auquel on donnerait mon nom et qui me survivrait suffirait, mais si j’avais pensé cela, cette mauvaise nouvelle m’aurait peut-être frappé de la même manière
En revanche, à la marge, je ne suis pas d’accord avec le présupposé. Peu importe le nombre d’assistants de preuve ou de clusters de calcul utilisés : l’équipe ou la personne qui démontrera l’hypothèse de Riemann deviendra célèbre. Au moins dans le monde des mathématiques
Beaucoup visaient probablement les applications pratiques indirectes allant des mathématiques à la physique puis à l’ingénierie, ou bien le faisaient simplement pour la beauté des mathématiques et le plaisir intellectuel
L’IA pourra peut-être capter aussi les applications pratiques, mais les autres dimensions resteront accessibles
En tant que doctorant, ce texte m’a attristé. J’ai toujours cru que mon travail parlerait au-delà de moi-même, au-delà du temps limité qui m’est donné dans cette expérience cosmique
Ce sentiment d’immortalité était un petit bonus immatériel que j’espérais en me lançant en doctorat, mais à cause de l’IA je me sens moi-même moins précieux
Cela vaut la peine de faire ce travail parce qu’on peut le faire. J’espère que vous le faites parce que vous l’aimez, et parce que vous aimez le mystère
J’espère que vous profiterez de chaque instant où vous pouvez le faire, et que vous trouverez de la joie dans l’immense chance d’exercer ce type d’activité, contrairement à tant de gens prisonniers de travaux qui ne leur apportent aucune satisfaction
C’est parfois ennuyeux, mais parfois incroyablement gratifiant en soi
Mais il ne faut pas travailler pour la possibilité d’une gloire éternelle. Cela n’existe plus
Il n’existe pas de défi plus grand
En tant que maître de conférences en informatique théorique en Europe de l’Est, j’envie toujours un peu les grands noms des mathématiques qui ont facilement accès à des modèles de raisonnement longs et coûteux
Avec les budgets universitaires actuels, payer Pro est tout simplement irréaliste ici. Les budgets sont fléchés et les paiements logiciels entrent rarement dans les bonnes cases
En pratique, il faut demander un nouveau financement, espérer que son règlement autorise de grosses dépenses logicielles et ne pas tomber sur un évaluateur anti-IA. Et cette procédure prend au moins un an
Comme si cela ne suffisait pas, Microsoft a récemment durci l’usage personnel et académique de Copilot, ce qui a aussi bloqué l’accès à Claude Opus
ChatGPT 5.5 Plus ne m’a pas semblé suffisant pour creuser en profondeur de nouveaux sujets de recherche, et je l’ai essayé moi-même
Il a fallu deux ans pour mettre ce service en place, et il ne propose que gpt-oss-120b, donc tout le monde continue malgré tout à utiliser d’autres services
Mais au moins, certains administrateurs peuvent parsemer le mot “IA” un peu partout sur le site de l’université, et disposent d’un prétexte pour refuser les demandes d’abonnement en disant qu’“il y a déjà de l’IA”
Il y a l’exemple des bottes achetées par les pauvres et par les riches. Les bottes des pauvres s’usent et doivent être remplacées sans cesse, tandis que celles des riches, de meilleure qualité, durent des années
Avec le temps, les pauvres finissent par dépenser davantage en bottes
En restant économe, cela revient généralement assez peu cher
Même si l’université ne paie pas, j’imagine que vous pourriez avoir envie de le financer pour vos propres objectifs
Ce n’est pas pour critiquer ; je me demande simplement si ce coût est totalement hors d’atteinte pour la plupart des chercheurs de votre région
Il y a une dizaine d’années, à la réunion conjointe AMS-MAA de Seattle, j’ai vu Tim Gowers donner une conférence dans laquelle il prédisait que, dans 100 ans, les humains ne feraient plus de recherche mathématique. Je me demande s’il a revu son calendrier depuis
À l’époque, je pensais que l’outil crucial qui manquait était une recherche en langage naturel fonctionnant comme MathOverflow : on décrirait un problème ou une idée avec ses propres mots, et l’outil retrouverait des références pertinentes même en dehors de notre expérience ou de notre vocabulaire
Être un mathématicien brillant ne signifie pas qu’on a raison. En fait, les mathématiciens ont souvent des théories assez étranges
L’écrasante majorité des étudiants qui entrent dans l’enseignement supérieur cet automne ne pourront, même s’ils font de la recherche, contribuer de façon importante à la science que dans 4 ou 5 ans. Si l’on prend le moment où un doctorat entre vraiment dans sa phase active, on est plutôt à 6 ou 7 ans
Quand on regarde le niveau des modèles il y a 5 à 7 ans, la menace existentielle pour le doctorat n’apparaissait même pas sur le radar. Ceux qui terminent leur thèse aujourd’hui sont la première génération capable d’exploiter réellement ces outils
Si les étudiants qui veulent devenir chercheurs se sentent désormais vaincus et abandonnent, ou s’ils se contentent de déléguer entièrement le travail aux modèles d’IA, alors il y aura un problème
Le financement des postes doctoraux pose la même question. Si l’on passe d’un financement destiné à “former des chercheurs” à un financement destiné à “obtenir des résultats”, l’argent qui allait aux doctorants risque de se déplacer vers les ressources de calcul
Cyniquement, certains chercheurs pourraient produire bien plus d’articles en dépensant l’argent en calcul qu’en formant des étudiants pendant plusieurs années
Époque fascinante, mais l’incertitude est énorme. J’ai de la peine pour les étudiants qui doivent décider maintenant de ce qu’ils vont faire
Dans les disciplines les plus souples en particulier, on peut déjà acheter une thèse de doctorat et un bon historique de publications
Et si l’on n’est pas dans le monde académique mais dans l’industrie, on peut aussi acheter des promotions. Si un employeur donne un budget IA à tous ses salariés, il suffit de doubler discrètement ce budget avec son propre argent jusqu’à obtenir une promotion, puis d’arrêter ensuite tout en profitant du salaire plus élevé
On voit qu’ils peuvent mener des recherches qu’ils ne pouvaient pas faire auparavant
On voit aussi que l’usage de l’IA affaiblit dans une certaine mesure la capacité à écrire le code soi-même, mais je le vois un peu comme le fait de construire des modèles de machine learning avec scikit-learn ou Pytorch
Les détails de bas niveau sont abstraits et on ne peut plus faire grand-chose sans l’IA, mais cette recherche existe réellement grâce à la personne, et elle n’aurait pas eu lieu avec l’IA seule
Cet argent ressemble davantage à une ligne budgétaire ajoutée en bout de course, et ce n’est pas une cible suffisamment attractive pour être siphonnée au profit de dépenses plus coûteuses ou d’autres procédures