L’analyse d’o1 par Terence Tao

(mathstodon.xyz)

2 points par GN⁺ 2024-09-15 | 1 commentaires | Partager sur WhatsApp

Le mathématicien Terence Tao a testé o1, le nouveau modèle de la famille GPT d’OpenAI, sur des tâches de recherche en mathématiques et estime qu’il est plus compétent que les modèles précédents, mais encore insuffisant pour les problèmes de recherche de pointe
Face à une question mathématique ambiguë, il a identifié le théorème pertinent, le théorème de Cramer, et a produit une réponse satisfaisante, en nette amélioration par rapport aux réponses hallucinées des GPT précédents
Sur un problème difficile d’analyse complexe, il n’est parvenu à une solution correcte qu’avec beaucoup d’indices et de guidage, ce qui montre que la génération de l’idée clé reste faible
Dans l’expérience de formalisation avec Lean, la décomposition du problème était raisonnable, mais les informations sur Lean et Mathlib étaient obsolètes, laissant subsister des erreurs de code et des problèmes de fiabilité dans les appels à la bibliothèque
Tao estime que l’IA peut d’abord remplir des sous-tâches fastidieuses et vérifiables et, une fois combinée à des assistants de preuve formelle, améliorer fortement la productivité de la recherche mathématique

Évaluation globale de GPT-o1

GPT-o1, le nouveau modèle de la famille GPT d’OpenAI, effectue une étape initiale de raisonnement avant l’exécution du LLM
Tao a eu accès à une version prototype et a précisé dans des réponses ultérieures avoir principalement expérimenté avec le modèle actuellement appelé preview version
Globalement, il est plus compétent que les itérations précédentes, mais il peine encore sur les tâches de recherche mathématique les plus avancées

Expérience 1 : question mathématique ambiguë et théorème de Cramer

La première expérience reprenait une expérience menée par le passé
La requête était une question mathématique formulée de manière ambiguë, qui nécessitait de trouver dans la littérature le théorème approprié, le théorème de Cramer, pour pouvoir la résoudre
Les GPT précédents mentionnaient certains concepts liés, mais les détails relevaient de réponses absurdes proches de l’hallucination
Le nouveau modèle a identifié le théorème de Cramer et a fourni une réponse que Tao juge entièrement satisfaisante

Expérience 2 : problème difficile d’analyse complexe

La deuxième expérience consistait à soumettre au nouveau modèle un problème difficile d’analyse complexe pour lequel Tao avait auparavant demandé à GPT-4 de l’aider à rédiger une preuve
Le résultat était meilleur que celui du modèle précédent, mais en deçà des attentes
- Avec beaucoup d’indices et de guidage, il pouvait parvenir à une solution correcte et bien rédigée
- Il n’a pas réussi à générer lui-même l’idée conceptuelle clé
- Il a aussi commis des erreurs non triviales
Tao compare cette expérience à la supervision de la « simulation statique d’un doctorant moyen, sans être totalement incompétent »
Comme le modèle précédent ressemblait davantage à la « simulation statique d’un doctorant réellement incompétent », ce nouveau modèle est considéré comme une amélioration
Avec une ou deux améliorations supplémentaires des performances et une intégration avec des outils comme des packages de calcul formel et des assistants de preuve, il pourrait atteindre le niveau d’une « simulation statique d’un doctorant compétent »
À ce niveau, il pourrait devenir très utile même pour des tâches de niveau recherche

Expérience 3 : tâche de formalisation avec Lean

La troisième expérience consistait à demander au nouveau modèle de commencer, dans Lean, à dériver une forme du théorème des nombres premiers à partir d’une autre forme de ce théorème
La demande ne portait pas sur la preuve elle-même, mais sur la décomposition du problème en sous-lemmes et la formalisation de leurs énoncés
Les résultats étaient prometteurs
- Le modèle a bien compris la tâche
- Il a effectué une première décomposition raisonnable du problème
Les limites étaient également nettes
- Ses données d’entraînement manquent d’informations récentes sur Lean et les bibliothèques mathématiques
- Le code contenait plusieurs erreurs
Tao estime qu’un modèle de ce niveau, affiné spécifiquement pour Lean et Mathlib et intégré à un IDE, pourrait être très utile dans des projets de formalisation

Expériences de recherche sémantique et de génération de stratégies créatives

En 2010, Tao n’avait pas réussi à trouver le bon terme pour « multiplicative integral » et avait posé une question sur MathOverflow, obtenant une réponse satisfaisante d’un expert humain
Lorsqu’il a posé la même question à o1, celui-ci a renvoyé une réponse parfaite
Cependant, le billet MathOverflow en question a pu faire partie des données d’entraînement du modèle, ce qui pourrait ne pas constituer une évaluation précise de sa capacité de recherche sémantique
Malgré cela, sur certaines requêtes de recherche sémantique, il atteint un niveau équivalent aux sites de questions-réponses en matière de qualité des réponses
Dans une autre expérience, Tao a fourni le début d’un billet récent de son blog et a demandé au modèle de trouver l’élément manquant permettant de transformer les progrès partiels existants sur un problème d’Erdos en solution complète
Le résultat a été plutôt décevant
- Le modèle a proposé la même stratégie que celle de travaux récents déjà reformulée dans le billet de blog
- Il n’a pas proposé de variante créative de cette stratégie
Tao estime que les outils LLM ont une certaine capacité à générer aléatoirement des stratégies créatives, mais que cet aspect reste encore faible

Rectification à propos de l’analogie avec les doctorants

Tao a rectifié le fait qu’en évaluant les capacités des outils d’IA, il avait pu donner l’impression erronée et potentiellement nuisible que les doctorants humains pouvaient être classés selon un niveau statique et unidimensionnel de « compétence »
La capacité à contribuer à un projet de recherche existant n’est qu’un aspect parmi d’autres du doctorat, et plutôt un aspect limité
Un étudiant excellent en créativité, autonomie, curiosité, capacité d’explication, intuition, expertise, éthique de travail, organisation ou compétences sociales peut devenir un mathématicien plus accompli et plus influent qu’un étudiant simplement doué pour les tâches techniques qui lui sont assignées
Les étudiants humains apprennent et progressent au cours de leurs études, et un domaine qui leur posait problème au départ peut devenir maîtrisé quelques années plus tard
À l’inverse, les outils d’IA modernes peuvent intégrer une partie du feedback dans leurs réponses, mais un modèle individuel ne connaît pas réellement de croissance à long terme ; il est donc plus pertinent de les évaluer avec des métriques de performance statiques
Tao s’excuse d’avoir employé un cadre inapproprié consistant à juger les étudiants humains selon un état d’esprit fixe

Utilité comme outil d’aide à la recherche et rapport coût-bénéfice

Le critère de comparaison de Tao est la capacité à aider sur des sous-tâches dans un projet complexe de recherche mathématique dirigé par un mathématicien expert
Un doctorant compétent peut apporter une contribution plus précieuse que l’effort net nécessaire pour l’intégrer au projet et le superviser
Avec les outils récents, l’effort nécessaire pour formuler correctement les prompts et vérifier les résultats reste supérieur à l’utilité des sorties obtenues
- Tao décrit actuellement ce rapport comme étant d’environ 2x à 5x
Il ne voit aucune raison d’exclure que ce rapport passe sous 1x dans les prochaines années
S’il descend sous 1x, cela pourrait déclencher une adoption plus large de ces outils dans le domaine
Pour certaines sous-tâches spécifiques, il estime que le rapport est déjà inférieur à 1
- recherche sémantique
  - conversion de formats de données
  - génération de code de calcul numérique pour aider à explorer la recherche mathématique

Lacunes dans Lean et Mathlib

Dans les expériences de Tao, ce qui manque le plus pour que ces outils deviennent utiles à la formalisation est une façon d’ancrer leurs sorties dans l’état actuel de Lean et Mathlib
Lean et Mathlib continuent d’évoluer chaque mois
Le modèle semble avoir été entraîné sur plusieurs versions de Lean et Mathlib datant de plus d’un an, qui ne sont pas entièrement compatibles entre elles
Par conséquent, la syntaxe et les appels de bibliothèque générés par le modèle sont difficiles à juger fiables
Toutefois, pour quelqu’un qui connaît l’état actuel de Lean et Mathlib, les résultats sont suffisamment proches pour que la plupart des petites erreurs puissent être corrigées manuellement

Automatisation vérifiable et assistants de preuve formelle

Le principal cas d’usage envisagé par Tao consiste à résoudre plus rapidement des problèmes qu’un mathématicien pourrait en principe traiter avec beaucoup de travail manuel
L’IA remplirait d’abord les étapes fastidieuses, puis un expert humain examinerait le résultat
Dans ce cas, même sans véritable pensée originale, l’IA pourrait augmenter fortement la productivité
Elle pourrait aussi permettre des projets de recherche de plus grande ampleur que ce qui est possible aujourd’hui
Si ces outils sont intégrés à des assistants de preuve formelle, la cohérence des tâches nécessitant de fournir une preuve d’un énoncé mathématique peut être évaluée automatiquement avec un haut degré de confiance
Tao estime que ce type de tâches représente une part importante des tâches de niveau recherche

Perspectives pour l’écosystème d’outils d’IA pour la recherche mathématique

Tao espère voir apparaître un écosystème d’outils d’IA capables de traiter diverses tâches de recherche
Cela inclut la recherche bibliographique, la formalisation de preuves et la résolution de courts sous-problèmes
Aujourd’hui, les très grands LLM généralistes propriétaires attirent le plus l’attention, mais il se pourrait qu’un jour le coût marginal des données et du calcul nécessaires aux améliorations supplémentaires ou à l’affinage pour des applications spécifiques devienne excessif
Des modèles et jeux de données plus légers et open source, développés par la communauté de recherche pour répondre à des besoins personnalisés, pourraient aussi jouer un rôle important
Les modèles généralistes pourraient servir d’interface conviviale pour orchestrer des outils plus spécialisés

1 commentaires

GN⁺ 2024-09-15

Commentaires sur Hacker News

Si GPT était davantage affiné pour l’assistant de preuve Lean, comme il l’a été pour Python, il deviendrait probablement plus utile en mathématiques de niveau recherche
Je travaille dans un domaine lié à l’OR, et ChatGPT 4o a suffisamment assimilé la littérature OR pour produire des formulations en programmation en nombres entiers mixtes (MIP) assez exploitables pour diverses « formes de problème »
Par exemple, si on lui donne un problème logique du type « placer i objets dans n compartiments selon un score, tout en voulant remplir chaque compartiment séquentiellement », il produit réellement une formulation mathématique utilisable, qui ne demande en général que de petites retouches
Il avertit aussi quand une formulation faible risque de casser la logique, ce qui est extrêmement utile pour éviter les pièges
Bien sûr, si on ne comprend pas l’optimisation MIP, c’est difficile de l’utiliser efficacement de cette manière, et il faut découper le problème en petites étapes pour permettre à GPT de raisonner pas à pas, mais pour quelqu’un qui sait faire, les 20 dollars par mois valent largement le coup
Quand on voit sur HN des gens se plaindre que les LLM payants/de qualité, comme Sonnet 3.5 et GPT-4o, sont inutiles, cela semble généralement venir soit du fait qu’ils ne savent pas s’en servir d’une manière qui exploite leurs points forts, soit qu’ils s’attendent à une magie en une seule tentative à cause du battage médiatique, soit que cela ne correspond vraiment pas à leur domaine
Pour ceux qui savent tirer parti des forces des LLM et vérifier leurs erreurs, c’est un levier considérable au travail
- Je suis entièrement d’accord sur leur utilité
  HN et Internet en général sont devenus un océan de dénigrement réflexe et de bavardage sur le fait que les LLM seraient « inutiles », mais dans la réalité, cela fait des semaines que je n’ai pas écrit moi-même une seule ligne de code
  Je décris en paragraphes ce que je veux, je me fais guider autour des pièges, et j’obtiens du code qui fonctionne via une simple boucle itérative
  C’est une compétence qui s’apprend de bout en bout, et les modèles ainsi que surtout les outils autour ont atteint le niveau de base nécessaire
  Il suffit de s’y mettre sérieusement et d’apprendre à travailler ainsi pour devenir bien plus productif
  Édit : https://aider.chat/ + Sonnet 3.5 payant
- Je travaille aussi dans un domaine adjacent à l’OR, mais j’ai eu beaucoup moins de chance avec 4o pour obtenir des formulations MIP
  Il donne des réponses plausibles et des explications mathématiques insaisissables, mais les équations ne fonctionnent pas et le raisonnement ne tient pas ensemble
  Cela donne l’impression d’assister à un cours de maths où la démonstration est bizarre, de se demander si l’on est idiot, puis de découvrir que le professeur était en fait un patient atteint de démence qui s’était échappé, et qu’il délirait depuis le début
  Hier encore, j’ai demandé à o1 de voir s’il existait, via flot maximal, un chemin simple de s à t passant par v, et il a proposé un algorithme très convaincant en apparence, mais fondamentalement cassé
  Ma propre solution a repris certaines techniques de cette tentative ratée, mais malgré plusieurs indices, il n’a pas trouvé de réponse qui fonctionne, il a continué à chercher seulement un flot s→t, et n’a pas compris que le point clé était v→{s,t}
  Vérifier ce raisonnement est aussi bien trop épuisant mentalement
  Les réponses subtilement fausses sont plus difficiles à détecter et à pénaliser que les réponses manifestement fausses, au point que je me demande si le RLHF n’a pas été poussé dans une direction qui brouille le raisonnement
- J’enseigne justement un cours sur les MIP en ce moment, donc j’ai posé à 4o quelques questions que je donne à mes étudiants
  Il pouvait fournir des briques de base comme comment faire x!=y ou comment modéliser le problème du sac à dos, mais dès qu’on posait une question un tant soit peu intéressante, qui ne relevait pas simplement du par cœur de manuel, aucun modèle ne semblait juste
  Je serais curieux de savoir comment vous obtenez de meilleures réponses
  Peut-être que je les abandonne dès que je vois que la réponse est fausse et que je l’écris moi-même
  En fait, je viens justement de lui demander de formuler et d’expliquer x!=y quand x,y sont des variables entières dans {1..9}, et les contraintes étaient correctes, mais l’explication était fausse
- Je travaille aussi en OR, et j’ai eu une expérience totalement inverse en optimisation MILP
  Les résultats de recherche vont d’ailleurs dans le même sens : une grande étude de synthèse publiée au début de l’année concluait que les LLM s’en sortent généralement sur les problèmes de manuel, mais deviennent de moins en moins utiles à mesure que la complexité et la nouveauté augmentent
  Même dans le meilleur des cas, les résultats sont convenus, et dès qu’on entre dans le travail détaillé, cela devient plutôt un piège subtil qui induit en erreur
  Si on demande à un LLM ce que fait une contrainte donnée, ou pire, d’expliquer un modèle mathématique écrit avec le sucre syntaxique propriétaire de CPLEX, il hallucine à la fois les maths, la syntaxe et l’explication
- Une bonne réplique aux critiques réflexes contre les LLM, c’est : « N’est-ce pas justement le genre de chose qu’un perroquet stochastique dirait ? »
  Une partie de HN est du genre à ignorer un chien qui parle et écrit du code C sous prétexte qu’il y a une erreur de buffer overflow
Imaginez revenir en 2019 et lire que l’expérience d’interagir avec quelque chose comme Alexa était « à peu près comparable au fait de demander conseil à un doctorant moyen, mais pas complètement incompétent »
L’écart en 5 ans est stupéfiant
- Il semble que le premier métier que l’IA va fortement réduire soit la programmation
  En particulier, les contributeurs individuels très performants mais travaillant à distance paraissent exposés, et ce forum a un conflit d’intérêts évident
- Le point important est peut-être que la plupart des gens n’atteignent même pas le niveau d’intelligence d’un « doctorant moyen, mais pas complètement incompétent »
  Un doctorant scientifique moyen, surtout du type qui ne décroche pas et obtient son diplôme, est quelqu’un de très impressionnant comparé à la plupart d’entre nous
  Pour « nous », pouvoir disposer toute la journée d’une intelligence de ce niveau comme assistant est une amélioration de vie énorme, tant qu’on peut payer le coût des tokens
- On peut aussi imaginer revenir en 1950 et lire que l’avenir, c’est discuter avec des bots pour faire ses devoirs de maths
- C’est pourquoi l’ère de l’IA me paraît très réelle, et non pas du simple battage
  Jensen a dit que l’IA était arrivée à son moment iPhone
  Dans les 5 à 10 prochaines années, peu importe la définition que les gens voudront donner à l’AGI ou à l’ASI, elles n’arriveront probablement pas, mais je préfère souvent parler d’IA comme d’une intelligence d’assistance ou d’une intelligence augmentée
  Cela apportera suffisamment de valeur pour soutenir les ventes actuelles d’ordinateurs et de smartphones pendant au moins 5 à 10 ans, soit 3 ou 4 cycles de renouvellement
- Terry est un génie pour extraire ce type de valeur des LLM
  La personne moyenne n’y arrive pas encore
  Soit elle ne sait pas bien prompter les modèles, soit tout simplement parce que les problèmes de la vie ne sont pas, à la base, textuels
Le modèle o1 est vraiment impressionnant
Sur un projet rapide de similarité vectorielle, il a apporté un gain de vitesse significatif à du code Rust déjà très optimisé, ce qui a été confirmé par des benchmarks minutieux et des vérifications de précision
En plus de cela, il m’a aidé à réimaginer et conceptualiser une nouvelle mesure de dépendance statistique fondée sur la divergence de Jensen-Shannon, et cela fonctionne très bien
Il a aussi produit une implémentation ultra-rapide de l’information mutuelle normalisée, que je voulais à l’origine intégrer à la bibliothèque, mais pour laquelle je n’avais pas trouvé de méthode suffisamment rapide sur de grands vecteurs, comme au-delà de 15 000 dimensions
Il n’a pas donné d’emblée un code Rust parfait qui compile, mais quand j’ai collé les avertissements du compilateur de VS Code, il a retenté une fois et corrigé tous les bugs
En revanche, avec GPT-4o, il fallait souvent des dizaines d’itérations pour corriger les erreurs de type Rust, de durée de vie/emprunt, etc., et Claude 3.5 Sonnet était bizarrement tout simplement mauvais dès qu’il s’agissait de Rust
Ce n’est pas seulement l’optimisation des performances et un code relativement peu bogué : entre la résolution créative de problèmes, l’immense bagage en mathématiques fondamentales et en algorithmes, la synthèse de résultats de recherche récents, et la capacité à comprendre ce que j’essaie d’accomplir puis à réellement le faire, ça donne vraiment l’impression d’un game changer
Le diff des modifications du fichier de code est ici : https://github.com/Dicklesworthstone/fast_vector_similarity/...
- Une grande partie de la raison pour laquelle on paie quelqu’un 500 000 $ par an, c’est pour le faire travailler avec d’énormes systèmes existants que les LLM ne comprennent toujours pas
  Cela dit, optimiser une petite bibliothèque et implémenter une fonction rapide reste une grosse amélioration dans la boîte à outils de n’importe quel programmeur
- On a maintenant un montant chiffré auquel se référer
Mon expérience avec o1 a été très différente, et selon mes critères, je ne dirais même pas que c’est au niveau d’un « bon étudiant de licence »
Par exemple, j’ai posé ici une question assez simple, et il s’est complètement embrouillé
https://moorier.com/math-chat-1.png
https://moorier.com/math-chat-2.png
https://moorier.com/math-chat-3.png
La conversation complète doit être ici : https://chatgpt.com/share/66e5d2dd-0b08-8011-89c8-f6895f3217...
- C’est anecdotique, mais pour moi, O1 était pire que 4o et Claude 3.5 Sonnet
  Et pour couronner le tout, il est plus lent et plus verbeux
- Si on réfléchit à l’entraînement des LLM sur la géométrie, une grande partie de l’information des sources brutes doit se trouver dans les figures qui accompagnent le texte
  Ce modèle n’est pas multimodal, donc il est possible qu’il n’ait pas du tout été entraîné sur les figures jointes
  Ce serait bien que des gens vérifient un lot de problèmes de géométrie et un lot de problèmes d’analyse pour comparer la différence
- Je ne sais pas pourquoi ils lui ont fait parler comme un agent du support client
  L’expérience idéale ici, ce sont des réponses courtes et concises, pas des réponses longues et obséquieuses
- Je me demande s’ils ont trouvé quelle était l’erreur dans le calcul du volume du rhombicosidodécaèdre tronqué
Ce qui était nouveau pour moi, c’est de voir à quel point l’idée que « c’était comme conseiller un doctorant au parcours moyen mais pas totalement incompétent » s’applique à autant de domaines
J’ai tiré une grande valeur des LLM pour organiser et comprendre
Dans les domaines que je connais très bien, cela aide en prenant en charge énormément de petites tâches ingrates
Comme Terence l’a souligné dans la troisième expérience, quand on découpe un problème, il est assez solide pour combler les petits blancs
En revanche, cela demande une compréhension conceptuelle, ainsi qu’un certain savoir-faire en prompting
Quand on s’aventure dans un domaine qu’on ne connaît pas, il faut empiler les prompts
Si la réponse est connue, il vaut mieux creuser à partir de petites choses spécifiques puis élargir vers l’extérieur, et même quand on va de l’extérieur vers l’intérieur, il est préférable de commencer de façon concrète et ciblée
Je m’en suis servi pour percer les strates conceptuelles de sujets très complexes que je ne connaissais pas du tout, puis pour valider les concepts auprès d’experts sur YouTube, d’articles de recherche et de sources fiables, et c’est un outil remarquable
- Mon expérience est la même
  Je traite les LLM comme un stagiaire ou un junior qui fait les recherches de terrain que je n’ai pas la capacité de faire moi-même
  Il faut les superviser, les aider et vérifier leurs erreurs, mais on finit quand même par obtenir des résultats utiles
  En termes de posture, j’ai l’impression que les personnes ayant déjà supervisé des stagiaires ou mentoré des juniors extraient plus facilement de la valeur des LLM, surtout des modèles payants
  À l’inverse, le contributeur individuel chevronné mais solitaire, qui ne sait pas tirer de valeur des autres, comme je l’étais moi-même au début de ma carrière, risque de moins bien les utiliser
Dire qu’« il faut être capable de faire des bonds mathématiques créatifs comme Terence Tao » me semble placer la barre assez haut pour une IA
C’est un peu comme, lors d’un entretien de programmation, un recruteur explique un problème que son équipe a mis des mois à résoudre, puis se dit déçu si vous n’êtes pas capable d’en écrire la solution au tableau en 40 minutes sans Google
- Pour avoir déjà travaillé avec des gens comme Terence Tao, je suis très loin d’être à leur niveau, mais eux repèrent n’importe quelle forme de créativité
  Ils prennent tout ce qu’ils peuvent avoir, sans que cela doive forcément être « à leur niveau »
  En lisant ce qu’il a écrit et à la lumière de mon expérience, je trouve cette description inexacte
  J’étais aussi à sa conférence à l’IMO plus tôt cette année, et il disait avoir été impressionné par certaines interactions, tout en estimant qu’il manquait encore une sorte d’étincelle créative
- Il n’est pas nécessaire d’inférer un critère aussi élevé
  Ce qu’il a réellement dit est précis : « Ici, les résultats ont été un peu décevants... en substance, le modèle a proposé des stratégies déjà identifiées dans les travaux existants sur le problème, ainsi que des stratégies que j’avais moi-même reformulées dans mon billet de blog, mais il n’a pas fourni de variantes créatives de ces stratégies »
  Le point essentiel est que ce billet de blog faisait lui-même partie de l’entrée fournie à ChatGPT
  Par ailleurs, il a clairement indiqué qu’il s’attend à ce que cela devienne plus utile à l’avenir, mais qu’à l’heure actuelle il n’utilise l’IA/ChatGPT que pour mettre en forme des références bibliographiques et écrire du code simple de type « Hello World »
  On trouve en ligne de nombreuses affirmations selon lesquelles il utiliserait constamment ChatGPT dans ses recherches, mais tout ce qui dépasse l’usage pour le code ne semble pas correspondre à la réalité
  En revanche, « pouvoir aider dans les recherches de Terence Tao », ça reste effectivement un critère très élevé
- Ce n’est pas une observation propre à Terence Tao
  Si vous essayez d’utiliser ChatGPT pour écrire des programmes plus complexes que du code de tutoriel, ou des textes plus élaborés qu’un simple billet de blog, le manque de créativité saute aux yeux, et la conception du code est aussi médiocre
- C’est exactement ce que je me suis dit au départ
  Si ce qui est probablement la personne vivante au QI le plus élevé est impressionnée, mais pas pleinement satisfaite, par le fait qu’un ordinateur ne produise pas un raisonnement mathématique de niveau Nobel, c’est déjà en soi un indicateur énorme
  Alors, qu’est-ce qu’un doctorant de première année en maths est censé en penser ?
  Tao semble contourner ce point dans un billet précédent en disant en substance que « o1 est à peu près au niveau d’un étudiant de master/doctorat »
Il est intéressant que les humains aussi puissent tirer profit d’un raisonnement de type chaîne de pensée
En fait, je pense que tous les étudiants en mathématiques gagneraient énormément en compétence si on leur demandait d’abord de faire remonter à la mémoire toutes les définitions et informations pertinentes avant de les utiliser
En pratique, on ne le fait pas, y compris chez les enseignants et les mathématiciens, parce que le rappel demande un effort, et nous n’aimons pas dépenser plus d’effort que nécessaire pour résoudre un problème
Si le rappel échoue, il faut aller chercher l’information, ce qui demande encore plus d’effort ; il existe donc en pratique une forte incitation à simplement « foncer à l’intuition »
L’IA n’a pas cette barrière émotionnelle face à l’effort gaspillé, ce qui en fait une meilleure raisonneuse que ne le permettrait sa capacité innée
- Montrer ses étapes à un examen ressemble à une forme de raisonnement en « chaîne de pensée », mais ce n’est pas tout à fait la même chose
  Dans les deux cas, on découpe le processus en étapes pour préserver la logique et éviter de sauter des passages importants
  Mais montrer ses étapes sert davantage à prouver que la procédure est correcte, tandis que le raisonnement en « chaîne de pensée » force à faire remonter en mémoire les définitions et concepts pertinents au fil de l’avancement, garantissant une compréhension plus profonde
  Les deux visent à éviter de foncer à l’intuition, mais la « chaîne de pensée » creuse plus profondément l’aspect rappel que les humains ont tendance à esquiver
- J’aime beaucoup cette perspective
  J’ai vu tant de preuves que la chaîne de pensée aide les LLM, et pourtant il ne m’était jamais venu à l’esprit de l’utiliser davantage pour moi-même
  Bien sûr, je le fais déjà dans une certaine mesure, mais certainement pas autant qu’un LLM
  C’est peut-être pour cela que l’écriture est si souvent vantée comme excellente manière de penser
  Écrire permet des chaînes de pensée plus longues avec moins d’effort
- Je pensais que tout le monde faisait ainsi lorsqu’il s’agissait de résoudre un problème de maths bloquant
  Je parle des mathématiques de niveau universitaire, pas des maths scolaires
  Quand j’enseignais, je faisais toujours revenir aux définitions
  Je n’ai jamais été exceptionnel en recherche mathématique, j’ai fait un doctorat puis un postdoc avant d’arrêter, mais d’après mon expérience la recherche consiste à réfléchir profondément au problème, à essayer de saisir ce qui se passe et à le découper d’une manière ou d’une autre, tout en passant en revue tout ce qu’on sait en lien avec ce problème et en cherchant des problèmes similaires pour voir si l’on peut en voler des idées
Je compte bientôt me remettre aux maths comme passe-temps de curiosité intellectuelle, et j’en suis très enthousiaste
Cette fois, pouvoir m’appuyer sur des LLM pour étudier va être extrêmement amusant
Par coïncidence, comme Terence Tao, j’ai moi aussi posé à des LLM des questions de analyse complexe en lisant des manuels pour mieux comprendre
Leur capacité à interpréter des questions mathématiques ouvertes, puis à trouver rapidement des connexions conceptuelles lointaines mais utiles et pertinentes, est remarquable
Le professeur Tao, lauréat de la médaille Fields, considère naturellement les LLM mathématiques actuels comme des « étudiants de master/doctorat pas complètement incompétents », mais à mon niveau actuel, cela signifie justement que c’est quelque chose vers quoi lever les yeux
Un exemple impressionnant d’il y a six mois : j’avais demandé quelles définitions on pouvait assouplir pour permettre de faire de l’analyse complexe sur des variétés non orientables comme la bouteille de Klein ; c’était une question qui me travaillait depuis longtemps, et le LLM a immédiatement repéré que les équations de Cauchy-Riemann devenaient globalement incompatibles
En un certain sens, une convention de signe arbitraire dans CR définit une orientation sur la variété, et inverser l’orientation de la variété revient à remplacer i par -i
Je comprends cela maintenant parce que le LLM m’a suggéré de le voir ainsi
Bien sûr, ce n’est pas une pensée originale du LLM ; c’est probablement quelque chose qu’on peut trouver dans un manuel de troisième cycle hautement spécialisé quelque part
Mais pour moi, cela n’a aucune importance
Sans LLM ni expert du domaine au niveau doctorat, il m’aurait été absolument impossible de répondre à ce genre de question, où l’on ne sait presque même pas par où commencer
Il n’existe pas d’autre outil qui rende accessible ce repérage sémantique au niveau du sens, et j’essaie de réfléchir soigneusement à la meilleure manière d’utiliser un outil aussi puissant qu’inhabituel
- Avoir l’impression d’utiliser une sorte de moteur de recherche sémantique global sur presque tous les manuels de la planète, c’est comme avoir un super-pouvoir
  Ce serait encore mieux s’il pouvait indiquer jusqu’à la référence exacte du manuel où il a trouvé la réponse
- Comment savez-vous si cette réponse est correcte ou non ?
- Je me demande aussi comment mesurer ce genre de performance
  Les benchmarks finissent par être contournés ou intégrés à l’entraînement, et il n’y a probablement pas assez de signal dans Chatbot Arena pour ce type de requêtes
  D’ici quelques mois, j’ai l’impression que l’utilisateur moyen ne saura plus distinguer les écarts de performance entre les principaux modèles
Je suis entièrement d’accord avec Terence Tao
Il s’agit d’un véritable progrès
J’ai toujours pensé que les performances pouvaient être améliorées si l’on disposait de données adéquates pour entraîner les LLM à imiter le raisonnement
Mais cela reste du pattern matching, et je doute que cette approche soit très efficace pour produire une véritable généralisation
Donc, lorsque o1 sera disponible au grand public, il est fort probable qu’on continue à voir des hallucinations persistantes et des raisonnements erronés sur des problèmes suffisamment nouveaux ou complexes, au-delà des « programmes de raisonnement » ou des « schémas de raisonnement » appris par le modèle lors de l’étape de reinforcement learning
https://www.lycee.ai/blog/openai-o1-release-agi-reasoning
Pour moi, le modèle o1 donne des résultats très variables
D’un côté, il a réussi à résoudre le jeu NYT Connections[0] chaque jour où je l’ai essayé[1], alors que d’autres modèles, y compris Claude Sonnet 3.5, n’y arrivaient pas
De l’autre, comme GPT-4o, il passe à côté de détails importants et hallucine
Il faut souvent le guider et corriger ses réponses pour arriver à la bonne solution, au point que je me dis parfois qu’il aurait été plus simple de le faire moi-même
Cette fois, c’est encore pire parce qu’il faut attendre 20 à 60 secondes pour obtenir une réponse
Il est possible que les domaines où o1 excelle ne soient tout simplement pas ceux dont j’ai besoin
Je suis plutôt dans le software engineering que dans le STEM traditionnel, et pour l’instant o1 n’est pas suffisamment meilleur pour justifier cette latence
Le domaine que je n’ai pas encore exploré, c’est son utilisation pour des plans d’implémentation ou des plans de modification d’architecture
Il pourrait être meilleur sur ce point, mais il faut encore lui soumettre les bons problèmes
[0] https://www.nytimes.com/games/connections
[1] https://chatgpt.com/share/66e40d64-6f70-8004-9fe5-83dd3653a5...

L’analyse d’o1 par Terence Tao

Évaluation globale de GPT-o1

Expérience 1 : question mathématique ambiguë et théorème de Cramer

Expérience 2 : problème difficile d’analyse complexe

Expérience 3 : tâche de formalisation avec Lean

Expériences de recherche sémantique et de génération de stratégies créatives

Rectification à propos de l’analogie avec les doctorants

Utilité comme outil d’aide à la recherche et rapport coût-bénéfice

recherche sémantique

Lacunes dans Lean et Mathlib

Automatisation vérifiable et assistants de preuve formelle

Perspectives pour l’écosystème d’outils d’IA pour la recherche mathématique

À lire aussi

1 commentaires

Commentaires sur Hacker News