1 points par GN⁺ 2025-10-20 | 1 commentaires | Partager sur WhatsApp
  • Un chercheur d’OpenAI a annoncé que GPT-5 avait réglé un problème lié à Erdős ; l’annonce a été rapidement retirée après des critiques de la communauté et de personnalités de l’industrie
  • Cette revendication employait des termes pouvant être interprétés comme une preuve effective d’un défi mathématique non résolu depuis des décennies trouvée de manière autonome par l’IA
  • En réalité, GPT-5 s’est surtout contenté de redécouvrir des travaux de recherche existants, sans apporter de nouvelle solution à un véritable problème non résolu
  • L’épisode a alimenté les inquiétudes de l’industrie concernant la baisse de crédibilité d’OpenAI et la tendance à annoncer des performances IA non vérifiées en les surestimant
  • En pratique, la vraie force de GPT-5 réside dans son rôle d’assistant pour l’exploration et la structuration de la littérature scientifique

Bilan de l’affaire

  • Récemment, un chercheur d’OpenAI a annoncé sur X (anciennement Twitter) une avancée majeure : GPT-5 aurait « résolu 10 problèmes d’Erdős non résolus » et fait des progrès sur 11 autres
  • Cette annonce a été comprise comme signifiant que GPT-5 avait dérivé de manière indépendante une preuve mathématique pour un difficile problème de théorie des nombres
  • Plusieurs chercheurs d’OpenAI ont publié des messages similaires, laissant entendre que cette IA serait capable d’une découverte scientifique innovante

Vérification communautaire et controverse

  • Thomas Bloom, le mathématicien qui gère le site Erdosproblems.com, a immédiatement réfuté ces déclarations, expliquant que les problèmes marqués « open » sur son site ne sont en fait pas des problèmes non résolus
    • Ces problèmes sont simplement des cas que Bloom lui-même n’avait pas encore résolus ou pour lesquels il n’avait pas pu vérifier les travaux existants
    • GPT-5 n’a fait que retrouver des résultats déjà publiés, sans découvrir de nouvelle solution mathématique
  • Dès que ce point est devenu public, les chercheurs d’OpenAI ont supprimé ou modifié leurs publications
  • La communauté et des figures influentes, notamment Demis Hassabis, PDG de DeepMind, ont qualifié cela de « situation embarrassante », et Yann LeCun (Meta AI) a aussi souligné qu’OpenAI s’était laissé emporter par sa propre propagande
  • Les chercheurs ont reconnu leur erreur et ont réexpliqué le rôle réel de GPT-5

Problème de confiance et critiques dans l’industrie

  • Cet épisode a renforcé l’idée qu’OpenAI aurait des lacunes en matière de crédibilité et de contrôle de la vérification des faits
    • En particulier, la montée des attentes exagérées dans l’industrie de l’IA et l’engouement spéculatif autour des actions liées au secteur renforcent les craintes d’annonces de performances non vérifiées
  • Des doutes sont également apparus sur l’intégrité interne des organisations : pourquoi des chercheurs de premier plan ont-ils publié des affirmations spectaculaires sans vérification préalable

Résultats réels et rôle de l’IA en mathématiques

  • Concrètement, GPT-5 prouve son utilité comme assistant pour rechercher des articles et ressources de recherche sur des problèmes mathématiques complexes et à terminologie variée
  • Le mathématicien Terence Tao estime que l’IA devrait davantage réduire le temps de revues de littérature à grande échelle et de recherches répétées que fournir la « solution à des problèmes ouverts récents »
    • Quelques cas de progression indépendante existent, mais pour l’instant la force de GPT-5 reste la recherche et l’organisation automatisées des publications
  • À l’avenir, l’IA générative pourrait contribuer à accélérer et automatiser le travail mathématique
    • Néanmoins, la validation par des experts, la classification et l’intégration des résultats restent indispensables

Conclusion

  • Cet épisode est exemplaire à la fois des limites réelles et du potentiel industriel de l’IA générative, ainsi que des risques liés à la surenchère dans l’annonce de résultats de recherche
  • En définitive, **GPT-5 n’apparaît pas comme une percée novatrice pour des problèmes mathématiques non résolus, mais comme un outil auxiliaire capable d’aider au classement et à l’organisation des matériaux de recherche

1 commentaires

 
GN⁺ 2025-10-20
Commentaire Hacker News
  • Pour être juste envers l’équipe d’OpenAI, si on regarde le contexte, je pense que la situation n’est pas si malveillante que ça.
    Le tweet supprimé disait que « GPT-5 avait résolu 10 problèmes d’Erdős (jusqu’alors non résolus) et qu’il y avait aussi eu des progrès sur 11 autres, des problèmes restés non résolus pendant des décennies ».
    Si ce tweet avait été publié seul, j’aurais pensé qu’il prêtait à confusion, mais en réalité c’était un quote tweet.
    Le premier tweet cité (https://x.com/MarkSellke/status/1979226538059931886) disait en substance « on pousse ça encore plus loin ».
    Et dans le second tweet original cité par celui-ci (https://x.com/SebastienBubeck/status/1977181716457701775), il était expliqué que GPT-5 excellait dans la recherche bibliographique et avait « résolu » le problème Erdős #339, encore classé comme ouvert, en retrouvant qu’il avait en fait déjà été résolu il y a 20 ans.
    Si on lit ce fil dans l’ordre :

    • SebastienBubeck : « GPT-5 est très bon en recherche bibliographique, au point de retrouver une solution déjà existante et ainsi “résoudre” un problème qu’on pensait encore ouvert. »

    • MarkSellke : « il en a maintenant fait 10 de plus »

    • kevinweil : « regardez ce résultat incroyable qu’on a obtenu ! »
      Au final, c’est surtout un problème lié au format des quote tweets : comme kevinweil citait un message qui en citait un autre, il a raté le point de départ du sujet — à savoir qu’il s’agissait de retrouver une solution déjà existante — et, du point de vue du lecteur, la structure ne pouvait qu’induire en erreur.
      Ce genre d’erreur me semble tout à fait compréhensible, et je trouve la controverse un peu excessive.

    • Sur le fait que Weil n’a pas suffisamment pris en compte le contexte du quote tweet qu’il a publié, Weil lui-même a explicitement reconnu avoir mal compris le post de Sellke (visible ici : https://x.com/kevinweil/status/1979270343941591525).
      Sellke parlait de « classé comme problème ouvert », tandis que Weil a parlé de « problèmes jusque-là non résolus ».

    • La première personne disait en gros : « il a “résolu” un problème en découvrant qu’il avait déjà été résolu il y a 20 ans », tandis que la seconde disait : « il a résolu 10 problèmes d’Erdős jusque-là non résolus ».
      J’ai l’impression que l’expression « jusque-là non résolus » ne correspond pas vraiment au contexte réel.

    • Je me demande si je ne comprends pas mal quelque chose.
      Ça ressemble à ce qui s’était passé il y a quelques mois quand DeepMind avait publié un article disant qu’il faisait mieux que le SOTA en multiplication matricielle.
      À l’époque, il était dit que Gemini avait trouvé une nouvelle méthode d’optimisation, mais juste après l’annonce, des mathématiciens avaient immédiatement signalé qu’elle figurait déjà dans la littérature il y a 30 ou 40 ans, avec en plus une forte probabilité que ce contenu fasse partie des données d’entraînement de Gemini.

    • À propos de l’idée que « GPT-5 est très bon en recherche bibliographique et a “résolu” un problème pour lequel il existait déjà une solution » :
      je pense que c’est un biais du survivant.
      En pratique, GPT-5 échoue souvent même sur des recherches relativement simples.
      Il faut déjà bien connaître le sujet ou effectuer soi-même une vérification directe pour savoir si les résultats sont corrects.
      Ça me donne l’impression de voir quelqu’un lancer un dé 1 000 fois et publier un message à chaque double six.
      De la même façon, ça ne ferait pas de moi le meilleur lanceur de dés du monde.

  • Mention du fait que le mathématicien Thomas Bloom, qui gère erdosproblems.com, avait immédiatement réfuté cela.
    Il insistait sur le fait que cela ne voulait pas dire « non résolu » (unsolved), mais plutôt « je ne connais pas la réponse » (open).
    Je trouve étrange qu’un mathématicien définisse « open » de cette manière.
    Je n’appellerais pas une question d’exercice dont j’ignore la réponse une « open question ».

  • Réfutation de l’idée que « GPT-5 est utile comme outil d’assistance pour la revue de littérature ».
    En réalité, j’ai l’impression qu’il produit surtout des résultats extrêmement plausibles… mais faux.
    Les gens qui s’en satisfont doivent avoir une vie bien plus simple que la mienne.
    Moi, je passe des heures à fouiller des bibliothèques et des ressources pour retrouver des articles de maths appliquées à l’ingénierie, puis, en dernier recours, j’en viens à espérer quelque chose d’un chatbot.
    Mais au final, le résultat est bizarre, je dois passer encore du temps à tout revérifier, et il ne me reste que la déception de me dire : « ça ne peut pas être vrai ».
    J’ai aussi l’impression de ne pas être le seul à vivre ça.

    • Quand je fais souvent des recherches bibliographiques approfondies, GPT invente des sources sans fondement — des hallucinations — dans environ 50 % des cas.
      Sur des revues de haut niveau, le taux d’hallucination est d’environ 5 %.
      Parmi les 50 % de vraies sources, la moitié correspond à des articles que je connais déjà, et l’autre moitié à des articles qui me sont inconnus.
      Le vrai point fort, c’est qu’il arrive parfois à retrouver des articles qui sont autrement difficiles à trouver, y compris avec Google Scholar.
      On peut notamment tomber sur des travaux pertinents issus d’autres disciplines, ou sur des résumés peu cités et d’autres sources très variées.
      Même si 75 % des résultats globaux sont inutiles ou hallucinés, les 25 % restants apportent tellement de valeur que cela reste réellement très utile.

    • Dire que ce n’est « pas du tout utile » semble exagéré.
      GPT peut passer au crible 500 000 mots en quelques minutes et fournir un résumé, une réponse détaillée et les sources associées à chaque affirmation.
      Bien sûr, il ne faut jamais faire confiance aveuglément au résumé, et toute information importante doit être vérifiée en cliquant sur les sources.
      Malgré cela, cela reste un très bon outil de recherche et un gros booster de productivité.

    • Je ne me souviens plus du nom, mais il existe un principe de ce genre.
      Quand les gens lisent un article de presse sur un sujet qu’ils connaissent, ils voient immédiatement toutes les failles et se disent : « comment ça a pu être publié ? »
      alors que pour les sujets qu’ils ne connaissent pas, ils y croient sans esprit critique.
      J’ai l’impression qu’il y a un phénomène de croyance aveugle similaire autour de ChatGPT.

    • En réalité, au lieu d’essayer de forcer l’usage de chatbots comme GPT-5 pour la recherche ou la revue bibliographique, il aurait peut-être mieux valu utiliser un moteur de recherche sémantique vraiment puissant.
      Dès qu’on demande à un chatbot de résumer ou de répondre, le risque d’hallucination apparaît.
      En revanche, avec une recherche documentaire fondée sur des embeddings LLM, il n’y a aucun risque que le résultat lui-même soit halluciné, et ce serait peut-être une meilleure méthode pour trouver des articles que même Google ou Bing ne repèrent pas.
      Après, il existe peut-être déjà des services de ce type que je ne connais simplement pas, donc il faut garder cela à l’esprit.

    • Si certains s’intéressent aux outils de revue bibliographique, je présente une plateforme publique d’organisation de littérature que j’ai créée pour des amis en master et doctorat.
      Elle utilise un modèle hiérarchique mixte pour structurer les recherches à grande échelle et les réseaux de citations.
      Exemple d’utilisation : https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all

  • Il est particulièrement mauvais, d’un point de vue d’image, que cette affaire OpenAI ait éclaté la même semaine où DeepMind montrait de vraies avancées en utilisant l’IA contre le cancer.
    Ça m’a rappelé une phrase d’un ancien manager : « ne sois pas la personne qui rend nécessaire une nouvelle politique ».
    OpenAI va probablement devoir revoir sa politique de communication.

  • J’imagine que les employés d’OpenAI connaissent assez bien les capacités réelles de leurs propres modèles, mais même si ce n’était pas le cas, je pense qu’il faut toujours rester prudent face à n’importe quelle affirmation sur Internet.
    C’est ce genre de culture qui a fini par créer l’environnement actuel de battage excessif autour de l’IA.

    • Cela me rappelle la célèbre phrase : « Il est difficile de faire comprendre quelque chose à quelqu’un quand son salaire dépend du fait qu’il ne le comprenne pas. »
  • Ce que cette affaire révèle, c’est la triste vérité qu’OpenAI n’investit pas sérieusement dans les problèmes mathématiques non résolus.

    • Je trouve que c’est un saut logique.
      Une grande organisation comme OpenAI a forcément plusieurs équipes de recherche dans différents départements qui expérimentent dans des directions variées.

    • J’ai eu l’impression qu’OpenAI avait vraiment franchi un cap absurde le jour où l’entreprise a commencé à s’orienter vers la publicité et le contenu adulte.
      Le marché ne semble pas encore avoir intégré ce fait.

    • Je ne jugerais pas aussi facilement l’ensemble de l’organisation sur la base d’une annonce erronée faite par un seul employé.

  • Il ne serait pas surprenant que des employés d’OpenAI soient encouragés à faire ce type d’annonces dans un langage marketing.
    Ce n’est pas la première fois : il y a déjà eu des cas où l’on affirmait auparavant que GPT-5 avait « résolu » quelque chose (voir https://x.com/SebastienBubeck/status/1970875019803910478).
    On voit de plus en plus de cas où GPT-5 semble effectivement capable de résoudre des petits problèmes mathématiques ouverts, de niche, du niveau de ceux qu’un doctorant peut régler en un ou deux jours.
    L’ampleur réelle de cet impact n’est pas encore pleinement prise en compte.

  • Le conseil « ne fais pas trop confiance à ce que tu fabriques toi-même » me manque.

  • L’expression de Yann LeCun, « Hoisted by their own GPTards », m’a marqué.

    • Yann est intelligent et connaît le domaine jusque dans ses fondements, c’est certain, mais j’ai l’impression qu’il y a chez lui ces derniers temps une tendance négative, et plusieurs exemples où ses positions publiques se sont vite révélées erronées.
      Lors d’une présentation avec de jeunes chercheurs, il avait affirmé deux choses avec force :

      1. les LLM ne savent pas résoudre des problèmes de maths : ils donnent juste une impression de plausibilité, mais s’effondrent sur les problèmes vérifiables ;
      2. les LLM ne savent pas élaborer de plans.
        Pourtant, un an plus tard, l’IA sait désormais utiliser des outils, obtenir des médailles à l’IMO, et faire de la planification fondée sur des agents.
        Une autre de ses affirmations était que les LLM accumulent les erreurs à mesure que la conversation s’allonge et finissent par produire des absurdités ; or, avec le long contexte et les combinaisons avec le RL, on a vu récemment beaucoup de cas où cela a été pratiquement surmonté.
        Même si quelqu’un est un génie, je pense qu’il faut tout de même prendre son opinion individuelle avec un certain recul.
    • Peut-être que j’ai raté le contexte, mais je suis surpris que Yann ait utilisé un mot dérivé de « retard ».
      D’ordinaire, j’associerais plutôt ce genre de langage à quelqu’un comme Elon Musk.
      Je me demande dans quel contexte exact c’était.

  • Après le scandale de financement circulaire à plusieurs centaines de milliards de dollars, plus rien ne me surprend vraiment quand je lis quelque chose sur l’industrie de l’IA ou sur le battage artificiel qui l’entoure.