La réflexion de GPT-5 (Research Goblin) excelle en recherche

(simonwillison.net)

6 points par GN⁺ 2025-09-08 | 1 commentaires | Partager sur WhatsApp

ChatGPT basé sur GPT-5 (surnommé Research Goblin) fait preuve d’un très haut niveau de précision et d’utilité pour la recherche sur le Web
Il déploie de solides capacités d’exploration et de raisonnement sur un large éventail de sujets, des questions triviales aux enquêtes d’information complexes
Dans des exemples concrets, il fournit des réponses et des sources fiables grâce à un vaste processus de recherche et un raisonnement en chaîne
Même en environnement mobile, il offre une excellente ergonomie et un flux de travail continu
Grâce à l’intégration du tool calling et du chain-of-thought, il propose, du point de vue des développeurs, un nouveau standard pour la recherche fondée sur les LLM

La réflexion de GPT-5 (Research Goblin) et l’innovation dans la recherche

Un paradigme de recherche qui change

Jusqu’ici, le conseil dominant était de « ne pas utiliser un chatbot comme moteur de recherche », mais ce principe vole en éclats avec le ChatGPT récent basé sur GPT-5
Le modèle basé sur GPT-5 va au-delà d’une simple intégration avec un moteur comme Bing et atteint concrètement un niveau capable de remplacer ou dépasser une enquête sur Internet
S’il a reçu le surnom de « Research Goblin », c’est parce que, quelle que soit la question ou la tâche complexe qu’on lui confie, il enquête avec une ténacité presque anormale pour produire la meilleure réponse possible

Cas de recherche concrets et résultats

Les travelators amusants

À la question de savoir quand les tapis roulants en caoutchouc de l’aéroport d’Heathrow ont été remplacés par des versions métalliques, il a estimé que cela s’était produit entre 2014 et 2018, et a même trouvé un article connexe intéressant de 2024

Identification d’un bâtiment

Interrogé sur un bâtiment exotique visible depuis la fenêtre d’un train, il a correctement identifié « The Blade (Reading) » en 1 minute et 4 secondes, avec les liens vers les sources

Enquête sur les cake pops de Starbucks UK

Il a mené une enquête approfondie sur l’absence de cake pops dans les magasins Starbucks au Royaume-Uni et a découvert qu’ils avaient été introduits en 2023 mais n’étaient pas proposés dans certains points de vente, en particulier dans les magasins de voyage
Il a également rassemblé des éléments de preuve, notamment un PDF sur la nutrition et les allergènes, ainsi que des discussions Reddit

Relation entre Wikipedia et Britannica

Il a analysé en profondeur la véracité et le contexte d’affirmations en ligne selon lesquelles Wikipedia aurait utilisé au départ certaines sources de l’édition 1911 de Britannica, en remontant jusqu’aux documents et explications des projets concernés

Dénomination officielle de l’University of Cambridge

Il a fourni, avec sources à l’appui, la dénomination juridique officielle de l’université de Cambridge : The Chancellor, Masters, and Scholars of the University of Cambridge
En détaillant de manière transparente le processus de raisonnement, il permet aussi de vérifier la fiabilité de la réponse

Historique des grottes et du restaurant sur Exeter Quay

Il a élucidé, au terme de plusieurs étapes de recherche et d’analyse de PDF, la structure intérieure d’un restaurant creusé dans la falaise dans le quartier d’Exeter Quay ainsi que son histoire, en établissant qu’il avait été aménagé dans des falaises de grès rouge dans les années 1820-1830
Il a montré un mode d’exploration actif, allant jusqu’à chercher des rapports/plans en anglais et, en cas d’échec, rédiger même un brouillon d’e-mail de demande

Comparaison entre Aldi et Lidl

Il a longuement analysé la présence d’Aldi et de Lidl au Royaume-Uni, leurs images et leur classement sur le marché, avec des chiffres sur les parts de marché et les évaluations des consommateurs
À la demande de l’utilisateur, il a aussi réorganisé le classement selon le critère de la « fanciness » (caractère haut de gamme)

Numérisation de livres par les laboratoires d’IA

En dehors du cas d’Anthropic, qui a numérisé de grandes quantités de livres pour constituer des données d’entraînement, il n’a pas pu confirmer si d’autres laboratoires d’IA avaient fait de même, mais il a consigné en détail son exploration des possibilités

La supériorité concrète de la recherche GPT-5

Avec la recherche ChatGPT basée sur GPT-5, il devient possible de collecter et d’évaluer des informations plus rapidement, de manière plus systématique et plus large qu’avec un travail manuel
L’ergonomie s’est notamment beaucoup améliorée en environnement mobile, ce qui permet de satisfaire sa curiosité ou de mener des recherches du quotidien à tout moment et en tout lieu
Il dispose de la capacité à fournir des résultats rapides et riches au point de pouvoir remplacer la fonctionnalité Deep Research d’OpenAI

Ce que cela signifie du point de vue du développement LLM

Grâce à la combinaison des techniques de tool calling et de chain-of-thought, la recherche, le raisonnement en chaîne et l’exploration supplémentaire s’enchaînent naturellement dans une même étape de « réflexion »
Les techniques de RAG (recherche-génération combinées) peuvent elles aussi être exploitées de façon beaucoup plus puissante grâce à des appels d’outils flexibles en plusieurs étapes et à une intégration de recherche avancée
Dans la terminologie d’Anthropic, cela correspond à interleaved thinking, et l’API OpenAI Responses prend en charge un flux similaire

Conseils pour mieux exploiter la recherche

Il est possible d’améliorer la qualité de la recherche grâce à une intuition empirique (par exemple en utilisant des indications comme « go deep » pour encourager une enquête plus poussée)
Même pour des questions interprétatives sans réponse claire, il produit des résultats utiles et intéressants
Comme le suggère la métaphore du « goblin », Research Goblin est une IA de recherche laborieuse mais pas totalement fiable, différente de l’humain, et qui présente donc une grande valeur d’usage

1 commentaires

GN⁺ 2025-09-08

Avis Hacker News

Je suis d’accord avec Simon, mais je pense que la « recherche » consiste à comparer différentes formes de preuves. Cela s’applique par exemple à l’effet d’Obamacare, à la prédiction de décisions judiciaires, à l’analyse de l’influence de l’animation ou encore à la manière d’utiliser des bibliothèques open source. ChatGPT et les autres LLM ont du mal à évaluer les preuves ou à comprendre les biais des sources, et en particulier, plus ils essaient de raisonner sur beaucoup de statistiques, plus les hallucinations augmentent. Le modèle a tendance à vouloir soutenir le point de vue de l’utilisateur et cherche donc à répondre positivement, même quand on ne le lui demande pas explicitement. Je demande toujours à ChatGPT d’évaluer directement les sources, de comparer les arguments pour et contre, et il m’arrive aussi de contredire le modèle pour observer sa réaction. Un retour d’expérience plus détaillé est disponible sur le blog
- J’ai essayé d’utiliser Perplexity pour trouver les réglages optimaux de mon moniteur, et il m’a donné une liste concise de réglages avec les raisons. Mais en vérifiant les sources, il n’y avait aucune information officielle ni base solide, seulement des messages d’utilisateurs sur un forum Samsung en train de spéculer ou d’en débattre. Ce serait bien d’avoir un confidence rating selon la fiabilité des sources, mais cela me semble vraiment difficile à mettre en œuvre
- ChatGPT et les LLM se contentent souvent de répéter un « bon sens » superficiel. Après plusieurs questions de relance, je demande si cela repose réellement sur des preuves, quelles sont les sources, je réclame les extraits cités, puis je revérifie qu’il ne s’agit pas d’une hallucination. Il s’avère assez souvent que la première réponse était complètement fausse. La plupart des gens vont probablement simplement accepter cette première réponse
- Par exemple, quand j’essaie de prendre une décision d’achat bien documentée, c’est vraiment difficile parce que la plupart des contenus sont des avis marketing, et les signaux contraires, comme des commentaires négatifs sur Reddit ou YouTube, ne compensent pas suffisamment
- GPT-5 (ainsi que le modèle o3) est l’un des LLM les plus critiques. Pour des demandes académiques ou techniques, il peut citer ses sources et comparer différents résultats sans prompt particulier. Une première version de Grok 4 se contentait de résumer des articles sans analyse, et Claude Opus 4 passait aussi à côté du sujet, par exemple en renvoyant une documentation centrée sur l’usage lorsqu’on lui demandait une liste de bibliothèques JS. GPT-5 n’est bien sûr pas parfait, mais il est meilleur qu’un humain moyen
- J’aimerais demander ce que vous pensez de l’usage du mot « recherche » pour décrire un ensemble de fonctionnalités dans les LLM. Est-ce un terme qui représente suffisamment bien la vraie recherche, ou est-ce plutôt du niveau de l’expression « do your research » souvent utilisée pendant les campagnes électorales américaines ?
Je trouve que la recherche Google reste une expérience assez bonne, surtout avec udm=14 pour désactiver les résumés IA. Par exemple, pour des questions liées à Britannica et Wikipedia, je peux obtenir des résultats sur Google et Wikipedia en 1 à 2 secondes, et en 60 secondes environ trouver moi-même rapidement ce que je veux. À l’inverse, ChatGPT prend environ 3 minutes de traitement de manière indépendante, et je dois ensuite vérifier moi-même les résultats et les hallucinations. Au final, c’est impressionnant que les LLM puissent faire une tâche X, mais j’ai le sentiment que chercher directement puis faire moi-même la synthèse est bien plus efficace
- Mon avis est un peu différent à partir de mon expérience récente. Si on ne désactive pas les résumés IA de Google, l’expérience se dégrade clairement. Par exemple, pour trouver un repo Github, Google n’arrivait pas à trouver la vraie page et ne donnait que des liens hors sujet. GPT est plus lent, mais selon l’étendue de l’enquête, il a des avantages. Sur des sujets approfondis comme le déplacement des unités dans StarCraft2, c’était pratique de pouvoir demander en une seule fois un résumé, une explication et même les sources de code avec GPT. Et je peux assez bien filtrer moi-même les erreurs. À l’avenir, je pense que toute la navigation sur Internet sera proposée avec une assistance basée sur des LLM
- J’ai cherché "Rubber bouncy at Heathrow removal" sur Google et j’ai obtenu 3 liens, tandis que ChatGPT semblait avoir quelques hallucinations dans la présentation des preuves. Pour une recherche d’image inversée ou pour chercher le prix d’un pop Starbucks, j’ai aussi trouvé qu’il était plus efficace de chercher directement. Malgré cela, si les gens préfèrent ChatGPT, c’est à cause du côté pratique d’avoir une réponse web en une seule fois. Même s’il y a parfois des hallucinations, la tendance semble être d’accepter ce coût. Comme autrefois on faisait davantage confiance à la bibliothèque qu’à Wikipedia, l’évolution des LLM pourrait aussi représenter un nouveau changement de paradigme
- Ma suggestion serait, quand on fait des tests avec Google, d’essayer avec les exemples les plus difficiles à traiter
- J’ai posé une question simple à GPT-5 en mode Auto, et il a commencé à répondre en 2 secondes, en donnant 2 liens exacts à un rythme facile à lire. En mode Think, cela a pris environ 2 minutes, mais il a comparé différentes sources et ajouté des justifications à tous les résumés. Je l’utilise vraiment bien pour des informations difficiles à trouver sur des collectivités locales ou pour analyser des PR open source complexes. J’ai l’impression qu’il est très utile parce qu’il m’évite de devoir lire moi-même énormément de propositions
- Si les gens finissent par ne plus visiter directement le web et n’interagissent qu’avec des agents, je me demande à quoi ressemblera le web. Une période de changements intéressante nous attend
J’utilisais souvent le subreddit « Tip of My Tongue » pour retrouver de vieilles informations dont je me souvenais, mais tout n’était pas résolu. Avec la fonction Deep Research, j’ai résolu en une heure quatre problèmes qui restaient bloqués, et pour le cinquième j’ai au moins trouvé moi-même une piste. Même si le raisonnement logique a ses limites, le fait de pouvoir digérer rapidement des dizaines de résultats de recherche et d’extraire des informations pertinentes à partir de descriptions vagues est vraiment puissant. Maintenant, je peux accéder à cette puissance de recherche en quelques minutes sans avoir à subir les spambots de Reddit ni les utilisateurs qui ne respectent pas les règles
- Il y a une différence, dans la recherche d’information, entre les liens vers des documents existants et les contenus générés à partir de résultats de recherche, et ces contenus générés sont vraiment utiles et fascinants. Mais cela me rappelle aussi qu’ils peuvent souvent être faux. S’il était possible d’ajouter un niveau de confiance aux réponses, cela aurait probablement du sens aussi comme modèle économique
Moi aussi, je pense que ChatGPT est excellent pour la recherche, mais il existe parfois des cas pathologiques où il donne des réponses superficielles et potentiellement fausses. Il se trompe même lorsque des sources primaires objectives sont disponibles en ligne, donc je partage ce blog lié
- Je pense que le cas que tu décris est en réalité différent. J’ai l’impression que ton avis diverge des articles académiques, que tu l’as résumé sur ton blog, puis que tu veux que ChatGPT adopte ton point de vue. Cela me semble avoir des limites en matière d’évaluation objective
- J’ai l’impression que ChatGPT est devenu instable récemment. Dans plus de la moitié des réponses, il invente des bases, oublie le contexte ou se trompe tout simplement. Dans Aistudio, même en dépassant 300 000 tokens, Gemini/Aistudio garde bien le contexte, alors que ChatGPT me semble faible quand il y a beaucoup d’informations
- J’ai souvent eu des expériences similaires. En passant à GPT5 Thinking, ça s’améliore un peu, mais il a tendance à rater certaines choses par rapport à o3 ou o1. Par exemple, j’ai demandé à GPT5 l’épisode des sources chaudes dans le roman de Bocchan, et il a donné une explication subtilement fausse. Dans le vrai roman, le protagoniste nage dans les bains, puis se couvre de honte à cause d’un panneau d’interdiction ensuite, alors que GPT5 s’est concentré uniquement sur l’explication des règles
- Je trouve ton texte intéressant et propice à la discussion. Honnêtement, je pense que GPT aurait pu donner une meilleure réponse, mais il est aussi pertinent de discuter du moment où il faut arrêter la recherche. Si on inclut même les sources les moins fiables, la discussion ne se terminera jamais. Au final, s’arrêter à une conclusion largement acceptée me semble être un compromis raisonnable
Les anciens modèles « heavy » embarquaient selon moi des connaissances de niveau encyclopédique, tandis que les modèles plus récents, plus « légers », dépendent de la recherche web et ne transmettent que des informations superficielles. La force de modèles capables de se souvenir d’innombrables documents hors ligne me manque
- Moi, c’est exactement l’inverse. Les connaissances internes du modèle peuvent relever de l’hallucination, donc il faut toujours faire une recherche de vérification à part. En revanche, si le LLM fait déjà la recherche et le résumé, il suffit ensuite de vérifier les sources, ce qui est beaucoup plus pratique. Kagi Assistant remplit bien ce rôle
- Pendant longtemps, j’ai utilisé les modèles sans recherche activée, mais récemment j’ai ajouté dans mes instructions personnalisées des modes d’usage recherche web / connaissances internes. Si j’entre xz, il fait une recherche web ; si c’est xx, il n’utilise que ses connaissances internes. C’est un réglage que je peux changer librement au cours d’une session
- Un modèle sans recherche est lourd, tandis qu’un modèle fondé sur la recherche est léger mais dépend de données réelles récentes. J’ai navigué entre les deux, mais récemment je préfère davantage les modèles légers fondés sur les sources
- La vraie connaissance est stockée à l’extérieur. C’est pourquoi les bibliothèques sont si importantes à l’université. Un agent ne peut pas se contenter de sa seule mémoire
- J’ai un peu ce sentiment moi aussi. Ce serait intéressant qu’un modèle léger avec recherche web fournisse, pour chaque page, une vue distinguant les informations déjà mentionnées et les informations nouvelles, ainsi que les éléments de preuve avancés sur chaque page et les contradictions entre elles
L’auteur traite une « quantité déraisonnable de travail » pour trouver des réponses sur Internet, et je trouve étrange qu’il semble accueillir avec enthousiasme un tel gaspillage de ressources de calcul. Je me demande si c’est vraiment l’objectif, et s’il est justifié de dépenser autant de ressources dans une « wild goose chase » pour trouver coûte que coûte la bonne réponse
- Historiquement aussi, beaucoup de gens ont passé toute leur vie à poursuivre des impasses. Newton, Einstein aussi, et même les génies n’y échappent pas
ChatGPT est vraiment impressionnant, mais les professeurs de lycée ou d’université vont probablement souffrir avec ce genre d’outils. Par exemple, si on donne un devoir du type « recherchez en profondeur autant que possible les preuves que Le Seigneur des anneaux a été influencé par Gormenghast », les étudiants utiliseront automatiquement la deep research exemple partagé
- Je me demande si tu as vérifié toi-même les faits, si tu as cliqué sur tous les liens et vérifié les sources. Il m’est déjà arrivé autrefois de me vanter que ChatGPT avait « résolu » quelque chose, alors qu’en réalité cela venait de Wikipedia et que c’était faux
- Les étudiants qui trichent à l’école sont généralement paresseux et se soucient peu du rang ou du prestige, donc ils ne s’intéressent pas aux devoirs de qualité. Ils n’ont aucune raison d’utiliser un mode Thinking qui prend du temps
- J’ai trouvé amusant l’usage d’un néologisme comme « steel-man » dans la réponse de ChatGPT
- Lors d’ateliers pour enseignants, j’ai eu l’idée d’enseigner le questionnement socratique et d’aider les enfants à argumenter eux-mêmes à partir des informations obtenues via Google ou ChatGPT. L’approche consisterait à leur faire formuler directement les connaissances amplifiées par la recherche avec LLM, afin de structurer leur niveau de compréhension actuel
Il y a des questions que Brave search peut résoudre en quelques secondes, et pourtant les LLM mettent parfois un temps étonnamment long à donner ce genre de réponse
- J’aime bien Brave, mais je trouvais ses résultats de recherche médiocres. Sa fonction IA n’est pas mauvaise non plus, mais elle donne rarement les vrais résultats que je cherche
- De nos jours, il y a tellement de sites médiocres optimisés SEO que, pour moi, ce n’est pas quelque chose qu’on peut accepter si facilement
- Avec Chat+Search, l’avantage est qu’on obtient directement une réponse sans se soucier des pubs, des clics, des fermes à contenu ni des malwares
Je ne sais plus très bien s’il s’agit de « Web Search », de « Deep Research » ou de « Agent Mode » dans ChatGPT. L’organisation des fonctionnalités est vraiment intéressante
- Ce n’est ni Deep Search ni Agent Mode. J’ai choisi « GPT-5 Thinking » et activé uniquement l’outil de recherche classique
- D’après mon expérience, le résultat ressemble simplement à « chercher sur Reddit puis ajouter des commentaires »
- Il ne faut pas oublier « ChatGPT 5 Pro » non plus. C’est légèrement différent de Deep Research
- À mon avis, c’est juste le mode de base. Même sans activer explicitement l’option de recherche web, il fait une recherche automatiquement. Je me demande pourquoi il existe une option séparée
- Mon intuition est qu’il s’agit au minimum du mode ChatGPT 5 Thinking avec recherche web activée au niveau du profil. Quand il y a une demande d’information récente ou de recherche, ChatGPT a tendance à réfléchir en profondeur et à enquêter
Je me demandais combien gagnait un podcast que j’écoute. Deux humoristes originaires de Phoenix l’ont lancé sans audience, et il figure maintenant en haut des classements Apple. Autrefois, même en cherchant, il n’y avait pas de réponse claire, mais GPT-5 a mené une recherche « démesurée », a croisé différentes sources et m’a donné une fourchette crédible
- Je serais curieux de connaître cette fourchette
- J’ai l’impression que GPT donne aussi des réponses de plus en plus verbeuses récemment. Google Gemini produit parfois des pseudo-thèses inutiles, et ChatGPT a aussi tendance à fournir des rapports prolixes plutôt que de l’information brute. J’imagine que c’est parce que les gens accordent plus de confiance à ce genre de longues réponses de type rapport. En plus, même lorsqu’il fournit des justifications détaillées ou des chiffres, certaines réponses sont faciles à vérifier et d’autres non. J’ai peur qu’en utilisant beaucoup les LLM, mes compétences de recherche ne se dégradent. Et en expérimentant avec MCP, j’ai aussi eu l’impression que cela consommait une quantité absurde de ressources. Cette deep research semble être proposée à bas prix par OpenAI en acceptant une perte, donc si les hausses de prix sont fortes plus tard, la dépendance elle-même pourrait devenir risquée

La réflexion de GPT-5 (Research Goblin) excelle en recherche

La réflexion de GPT-5 (Research Goblin) et l’innovation dans la recherche

Un paradigme de recherche qui change

Cas de recherche concrets et résultats

Les travelators amusants

Identification d’un bâtiment

Enquête sur les cake pops de Starbucks UK

Relation entre Wikipedia et Britannica

Dénomination officielle de l’University of Cambridge

Historique des grottes et du restaurant sur Exeter Quay

Comparaison entre Aldi et Lidl

Numérisation de livres par les laboratoires d’IA

La supériorité concrète de la recherche GPT-5

Ce que cela signifie du point de vue du développement LLM

Conseils pour mieux exploiter la recherche

À lire aussi

1 commentaires

Avis Hacker News