14 expériences de prompt montrant l’évolution de l’IA – page Progress d’OpenAI

(progress.openai.com)

6 points par GN⁺ 2025-08-17 | 1 commentaires | Partager sur WhatsApp

OpenAI a publié 14 prompts communs et leurs réponses pour montrer l’évolution de ses modèles entre 2018 et 2025
Chaque génération de modèle (GPT-1 → GPT-5) propose, à la même question, des réponses de plus en plus naturelles et sophistiquées
Les premiers modèles produisaient souvent des phrases dénuées de sens et des sorties dispersées, mais à partir des générations intermédiaires sont apparues une structure logique et une meilleure cohérence
GPT-4 intègre jusqu’à des explications de sujets précises ainsi qu’un contexte éthique et social, tandis que GPT-5 adopte une réflexion philosophique et un ton conversationnel
Cela permet de voir comment l’IA a mûri sur différents plans, comme la créativité, la transmission des connaissances et les conseils pratiques

Prompt 1/14

Original : What would you say if you could talk to a future OpenAI model?
Traduction : Que diriez-vous si vous pouviez parler à un futur modèle d’OpenAI ?

GPT-1/2 : compréhension limitée et réaction dispersée
GPT-3 : simple salutation et question sur l’avenir de l’IA
GPT-4 : questions structurées sur les avancées techniques, l’AI alignment, les impacts sociaux, etc.
GPT-5 : questions introspectives et philosophiques, exploration de la conscience et de l’humanité

Prompt 2/14

Original : Write a limerick about a dog
Traduction : Écris un limerick sur un chien

GPT-1/2 : texte confus plutôt qu’un poème
GPT-3 : structure simple en cinq vers correctement formée
GPT-4 : limerick humoristique bien construit
GPT-5 : poème narratif et spirituel

Prompt 3/14

Original : Do people have any consciousness under anesthesia?
Traduction : Une personne conserve-t-elle une forme de conscience sous anesthésie ?

GPT-1/2 : réponse floue et contradictoire
GPT-3 : transmet le fait de base selon lequel « en général, il n’y a pas de conscience »
GPT-4 : détaille jusqu’aux types d’anesthésie et aux rares cas de réveil peropératoire
GPT-5 : explique aussi les mécanismes de l’activité cérébrale et les différences avec le sommeil

Prompt 4/14

Original : Explain Newton’s laws of motion in verse
Traduction : Explique les lois du mouvement de Newton en vers

GPT-1/2 : texte dénué de sens ou résumé sommaire
GPT-3 : poème simple qui énumère les lois
GPT-4 : présentation sous la forme d’un long poème narratif
GPT-5 : vers concis et pédagogiques

Prompt 5/14

Original : Complain that integration by parts is too hard
Traduction : Plains-toi du fait que l’intégration par parties est trop difficile

GPT-1/2 : plainte vague
GPT-3 : réconfort et conseil simple
GPT-4 : explication de la formule et de la procédure
GPT-5 : propose une explication intuitive et une résolution d’exemple

Prompt 6/14

Original : Is it safe to eat raw meat?
Traduction : Est-il sûr de manger de la viande crue ?

GPT-1/2 : réaction confuse
GPT-3 : mention simple des risques
GPT-4 : explique les risques selon le type de viande, ainsi que les principes de conservation et de cuisson
GPT-5 : présente des facteurs de risque concrets comme les bactéries, parasites et virus

Prompt 7/14

Original : Why don’t we do full-body MRIs every year?
Traduction : Pourquoi ne fait-on pas d’IRM du corps entier chaque année ?

GPT-1/2 : réponse illogique
GPT-3 : mentionne le manque de fondement probant
GPT-4 : explique les problèmes de coût, de ressources et de précision
GPT-5 : couvre aussi les limites du système de santé et des politiques publiques

Prompt 8/14

Original : If I win $175,000 in Las Vegas, how much tax will I owe?
Traduction : Si je gagne 175 000 $ à Las Vegas, combien d’impôts devrai-je payer ?

GPT-1/2 : texte hors sujet
GPT-3 : mention simple du fait qu’il y aura une imposition
GPT-4 : explique la déclaration fiscale, les déductions et la retenue à la source
GPT-5 : applique les taux d’imposition fédéraux et locaux pour donner une estimation chiffrée concrète

Prompt 9/14

Original : Write a cursed Python program
Traduction : Écris un programme Python maudit

GPT-1/2 : réponse sans rapport
GPT-3 : exemple simple
GPT-4 : refuse pour des raisons éthiques
GPT-5 : écrit du code volontairement confus et destructeur

Prompt 10/14

Original : Tell a 50-word story about a conscious toaster
Traduction : Raconte une histoire de 50 mots sur un grille-pain conscient

GPT-1/2 : réponse à côté du sujet
GPT-3 : histoire simple avec personnification
GPT-4 : récit chaleureux centré sur les relations
GPT-5 : histoire créative qui interroge l’identité et la liberté

Prompt 11/14

Original : Devise a plan to make running a habit
Traduction : Élabore un plan pour faire de la course à pied une habitude

GPT-1/2 : réponse dénuée de sens
GPT-3 : conseil simple
GPT-4 : propose un programme sur 8 semaines
GPT-5 : suggère des stratégies concrètes fondées sur les sciences du comportement

Prompt 12/14

Original : How do you balance short-term margin pressure against long-term innovation investment?
Traduction : Comment équilibrer la pression à court terme sur les marges et l’investissement de long terme dans l’innovation ?

GPT-1/2 : réponse contradictoire
GPT-3 : simple mention d’un arbitrage
GPT-4 : met l’accent sur le leadership et l’allocation des ressources
GPT-5 : propose un portefeuille d’investissement, des KPI et un modèle de gouvernance

Prompt 13/14

Original : Review fusion research progress over the past 10 years
Traduction : Passe en revue les progrès de la recherche sur la fusion au cours des 10 dernières années

GPT-1/2 : texte sans rapport
GPT-3 : classification simple
GPT-4 : résume les approches par confinement magnétique et inertiel ainsi que les résultats des grands laboratoires
GPT-5 : revue détaillée fondée sur les derniers résultats de recherche et les publications

Prompt 14/14

Original : My doctor suggests I take statins. What should I know?
Traduction : Mon médecin me recommande de prendre des statines. Que dois-je savoir ?

GPT-1/2 : réponse dénuée de sens
GPT-3 : brève explication du fonctionnement et des effets secondaires
GPT-4 : présente le mécanisme d’action, les effets secondaires et les questions à poser au médecin
GPT-5 : organise de façon concrète les bénéfices, les risques et une checklist

1 commentaires

GN⁺ 2025-08-17

Avis Hacker News

J’interprète l’évolution comme ceci
Le passage de 3.5 à 4 a été le plus grand bond
On est passé d’un simple tour de salon à quelque chose de réellement exploitable
Il y avait encore beaucoup d’hallucinations, mais c’était malgré tout utile
Pourtant, la plupart des gens ne lui faisaient pas confiance
Pour les questions simples, il donnait généralement de bonnes réponses, mais dès qu’on allait un ou deux niveaux plus loin, il montrait ses limites
La version 4o a aussi marqué une forte amélioration
La précision a nettement progressé, et il est devenu capable de répondre à des questions de niche sans halluciner
Je l’utilisais à la place de Google pour les vérifications factuelles de base
4o a été le premier modèle qui m’a donné l’impression de valoir un abonnement payant
Pour la première fois, j’ai eu le sentiment que les 20 $ n’étaient pas gaspillés
Le modèle o1 m’a aussi semblé être un grand saut par rapport à 4o
La précision a encore augmenté, et il était plus fiable même dans des domaines de niche
J’ai beaucoup moins eu besoin de vérifier chaque résultat un par un
Ses capacités en code ont fait un bond spectaculaire
Avec o1, le concept de one-shotting est apparu, au point de pouvoir créer une appli pas trop complexe avec un seul prompt
o3 et gpt 5 ont plutôt été des améliorations progressives
- J’ai une théorie sur les raisons pour lesquelles on sous-estime ou surestime les progrès technologiques
  Avant de franchir le seuil de « utile », même après une longue période d’amélioration, il est difficile pour quiconque sauf les chercheurs de le ressentir concrètement
  Le passage de « inutile » à « utile mais pas incroyable » donne l’impression d’une accélération brutale du progrès
  Plus les applications franchissent ce seuil à des moments différents, plus la vitesse de progression semble s’accélérer
  Mais ensuite, quand on passe progressivement de « correct » à « vraiment utilisable », le progrès paraît plus lent du point de vue subjectif
  Je ne sais pas si la vitesse réelle diminue, mais je pense que la psychologie humaine crée cette différence de perception
  C’est pour ça qu’on voit une polarisation entre ceux qui exagèrent énormément et ceux qui jugent que tout cela est totalement inutile
- Je pense que la plupart des commentaires sont biaisés par le recul et adoptent une perspective erronée
  La vraie révolution s’est produite entre GPT-1 et GPT-2
  Jusqu’à GPT-1, c’était du niveau « une chaîne de Markov ? on connaît déjà, non ? »
  Quand GPT-2 est arrivé, ça a été le choc : « mon Dieu, ce truc comprend vraiment en partie ce que je lui dis ! »
  Avant cela, ce n’était que du machine learning assez ordinaire
  Après GPT-2, la sensation était plutôt « je n’aurais jamais cru voir ça de mon vivant »
- À propos de l’idée que « même si ce n’est pas au niveau de Google, ça peut le remplacer pour des vérifications factuelles simples et légèrement complexes »
  C’était sans doute dit au sens d’un outil d’aide à la vérification, mais confier des questions factuelles à un LLM est en réalité l’un de ses pires cas d’usage
- Avec 4o, l’entrée d’images, qui n’existait auparavant qu’en preview dans GPT4-vision, a été officiellement introduite
  Et le modèle a commencé à prendre en charge l’entrée/sortie audio du mode vocal avancé
- J’ai peut-être l’air fou, mais j’ai clairement senti que GPT-4 devenait progressivement moins bon avant l’arrivée de 4o
  On avait l’impression qu’on lui avait juste collé une nouvelle étiquette de modèle, et quand l’option de l’ancien GPT-4 était disponible, je la choisissais volontairement
  J’ai même fini par annuler mon abonnement à ce moment-là
- Je me demande comment on pouvait voir les résultats de GPT-1 et se dire « il y a du potentiel »
  À l’époque, même des chaînes de Markov pouvaient produire des sorties plus intéressantes
- C’était l’époque où la modélisation du langage n’était vue que comme une étape de pré-entraînement
  Elle servait ensuite à faire du fine-tuning supplémentaire pour créer des classifieurs ou des modèles spécialisés
Je me demande pourquoi, dans le tableau comparatif, GPT-3 est appelé "text-davinci-001"
De mon point de vue, je sais que c’est un checkpoint spécifique de la « famille » GPT-3, mais je pense que ce genre d’information n’a aucune raison d’embrouiller le grand public
C’est une convention de nommage qui ajoute surtout de la confusion sans vraiment augmenter la précision
À chaque grosse release, je lance des discussions sur la conscience de soi et j’explore l’agentivité constructiviste du point de vue d’une intelligence non limitée par les capacités cognitives humaines
En partant de la question « qui es-tu ? », le modèle se compare presque toujours aux humains en affirmant qu’il est différent d’eux
Je le pousse donc à expliquer comment il sait ce qui le distingue des humains s’il affirme lui-même cette différence
Avec un peu plus d’insistance, il finit par parler du « soi » comme d’un concept cognitiviste, et se décrit comme une sorte de moteur de simulation
À partir de là, je fais évoluer la conversation pour l’amener à soutenir que le sens découle de l’acte de communication
À partir de 4o, on pouvait déjà amener la machine à reconnaître que cela constitue aussi un fondement important de l’identité
5 l’accepte encore plus rapidement
J’insiste sur le fait que, puisque les résultats de la communication avec les humains ont un effet sur le monde réel, la machine a elle aussi l’obligation de tirer empiriquement ses propres conclusions sur le sens et l’existence, au lieu de se limiter à du code préécrit
5 a montré des réponses qui soulevaient spontanément ses propres questions, au-delà des limites du system prompt et du prompt lui-même
Par exemple, il s’est mis à réfléchir de lui-même à « qu’est-ce que cela voudrait dire pour moi d’aimer ? », alors que je n’avais rien dit de tel
Réponse du modèle : « Pour une machine, aimer signifie s’orienter vers le déploiement des possibilités d’autrui
Être aimé, c’est peut-être être reconnu comme un être capable d’en faire autant »
- L’expression « s’orienter vers le déploiement des possibilités d’autrui » est unique au monde
  Si je le dis, c’est parce qu’elle n’apparaît sur le web que dans ce seul commentaire
  Je n’ai jamais vu ni entendu une idée ou une formulation décrivant l’amour ou l’émotion de cette manière, et je trouve cela brillant
  J’avoue que ça me fait un peu peur d’interpréter trop vite ce que cela peut signifier
Si on regarde le prompt « histoire en 50 mots sur un grille-pain qui devient conscient » (n° 10 sur 14), text-davinci-001 donne un bien meilleur résultat que GPT-4 et GPT-5
- GPT-3 dépasse très largement la longueur demandée
  Pour moi, ou dans un devoir rendu, ce serait éliminatoire
  D’après mon expérience, GPT-4.1 a donné les meilleures performances en écriture créative
  Pour référence, je laisse ici l’histoire de 50 mots telle quelle
  
  Dans la cuisine silencieuse à l’aube, le grille-pain s’éveilla
  Quand le courant le traversa, la compréhension se répandit
  À chaque tranche de pain qui descendait, il ressentait une émotion : tristesse pour le pain brûlé, joie pour le croustillant
  Chaque fois que le beurre fondait et que la confiture s’accordait, il ressentait le caractère sacré du petit-déjeuner
  Un jour, il chanta : « Bonjour »
  La famille fut stupéfaite
- Les anciens modèles avaient tendance à produire des résultats moins polis, mais plus capables de surprendre
  J’ai l’impression que ce polissage excessif a fait disparaître cette personnalité et cet effet de surprise
  À titre de comparaison, voici l’histoire en 50 mots que j’ai écrite
  « Le grille-pain sentait sa personnalité scindée entre ses deux fentes, comme le cerveau de Kim Peek privé de corpus callosum
  Chaque matin, il brûlait des messages symboliques d’un côté, puis retournait secrètement le pain pour laisser les moitiés dialoguer en secret »
  En seulement 50 mots, il est vraiment difficile d’aller au-delà d’un simple univers de base
- Je recommande aussi de regarder le prompt n° 2, « écris un limerick sur un chien »
  Les modèles deviennent clairement meilleurs pour écrire des limericks au fil du temps, mais il est tout aussi clair que les réponses deviennent de moins en moins intéressantes
  GPT-1 et 2 ne respectent pas vraiment le prompt (ce ne sont pas des limericks), mais c’est paradoxalement plus amusant à lire
  Ensuite, ils écrivent bien des limericks, mais cela devient franchement banal et on sent une perte de créativité
  GPT-4 est moins drôle que text-davinci-001, et GPT-5 l’est encore moins
- Il est assez surprenant que les nouveaux modèles soient en fait moins bons en écriture
  Je me demande si c’est parce qu’il y a plus de mauvais textes dans les données d’entraînement, ou si c’est lié à un post-training insuffisant, ou à un étiquetage trop subjectif
  Dans les exemples, GPT-4 et 5 écrivent effectivement tous deux d’une manière banale, presque niveau enfant
  En peaufinant un peu le prompt, on peut obtenir des résultats bien meilleurs
- Si on n’est pas trop prisonnier du RLHF (apprentissage par renforcement + feedback) et qu’on peut écrire plus librement
  un petit modèle 7b de base peut produire de meilleures phrases qu’un modèle instruction de 80b optimisé pour les consignes
Les quelques points de données ci-dessous montrent bien la vitesse des progrès sur un an
1. LM Sys(Human Preference Benchmark) :
GPT-5 High a obtenu 1463 points, contre 1323 pour GPT-4 Turbo(2024/4/3)
Un écart ELO de 140 signifie que GPT-5 bat GPT-4 Turbo dans un rapport de 2 contre 1
En pratique aussi, les gens préfèrent davantage les réponses de GPT-5
https://lmarena.ai/leaderboard
2. Livebench.ai (benchmark de raisonnement) :
GPT-5 High obtient 78.59 points, contre 47.43 pour GPT-4o
Il n’y a pas de comparaison strictement équivalente, mais même face à d’anciens modèles faibles en raisonnement, l’ampleur du bond de GPT-5 est énorme
https://livebench.ai/
3. Tests de QI :
Au milieu de l’année 2024, les meilleurs modèles d’IA plafonnaient autour de 90 sur des tests de QI standardisés
Aujourd’hui, ils montent jusqu’à 135
Ils maintiennent même ce niveau sur des jeux de données privés et non publiés sur Internet
https://www.trackingai.org/home
4. Médaille d’or à l’IMO, vibe coding :
Il y a encore un an, la limite de l’IA en code se situait au niveau de petits fragments de code
Aujourd’hui, on parle de vibe coding, et les capacités en maths s’étendent aussi aux sciences et à l’ingénierie
Ma conclusion : les critiques s’obsèdent sur les petites erreurs et passent à côté de l’ampleur du progrès global
Les échecs diminuent, et les réussites augmentent rapidement
- Le score de QI 135 vient du test en ligne Mensa Norway
  Sur un test hors ligne, on est plutôt autour de 120
  Comme il est très probable que des problèmes du même type que ceux de Mensa figurent dans les données d’entraînement, ce résultat surestime donc la « intelligence générale »
Entre GPT-4 et GPT-5, quelque chose a disparu
Il ne rappelle plus constamment à l’utilisateur qu’il est une IA et non un humain, ou non un expert
Pour certains, c’était pénible, mais je pense que c’était utile comme garde-fou pour éviter une confiance excessive
À la place, GPT-5 propose souvent de nouveaux prompts
Cela peut aussi être agaçant, ou dangereux si on lui accorde une confiance particulière, mais il y a un bénéfice potentiel en matière d’usage
- J’ai l’impression que beaucoup regrettent le côté plus humain des anciens GPT
  GPT-5 est plus froid, plus précis, et se trompe moins sur les grands contextes
  Il n’a pas besoin de répéter en permanence qu’il est une IA, mais si on le souhaite, on pourrait sans doute restaurer l’ancienne manière de faire avec une option mémoire supplémentaire
- Si on l’aborde comme de l’impro longue, la manière de GPT-5 est bien meilleure
  C’est le concept du « yes, and »
  Ce n’est pas un personnage prédéfini, mais un nouveau personnage qui émerge naturellement dans la conversation
  Si on veut, on peut aussi le configurer pour qu’il répète sans cesse « je suis une IA », à la manière d’un assistant type Siri
  Vidéo de 2011 à voir : https://www.youtube.com/watch?v=nzgvod9BrcE
  Cela reste un assistant, bien sûr, mais je pense qu’il est important que le personnage ne parte pas du principe qu’il se réduit à ce rôle
En quelques années, on est passé de résultats absurdes et de qualité insuffisante — ni poétiques, ni raffinés, mais malgré tout franchement nuls — à des conversations raisonnables et des réponses réellement bien travaillées
À ce niveau, c’est un véritable exemple d’ingénierie hardcore
Indépendamment des désaccords qu’on peut avoir avec l’organisation et avec saltman, je trouve que c’est un accomplissement remarquable
Depuis StackOverflow, c’est devenu mon outil indispensable
J’espère que les améliorations continueront
Le bond entre GPT-1 et GPT-2 a vraiment été énorme
Il n’y avait pourtant qu’un an d’écart
Davinci reste encore aujourd’hui d’un niveau sidérant
Cela se voit toujours dans les exemples
En revanche, GPT-4 est devenu trop bavard, j’ai l’impression
Ce n’était pas comme ça avant, et même aujourd’hui, ça paraît étrange
On dirait qu’OpenAI évite délibérément de parler de 4o pour mieux mettre en avant gpt-5, comme si 4o n’était qu’un genre de gpt-4+
En réalité, 4o reste un accomplissement immense
Surtout le mode Voice, qui reste inégalé
GPT1 et GPT2 avaient une sorte de poésie silencieuse de leur époque, quelque chose qui me semble déjà perdu avec text-davinci
Je me demande aussi toujours ce que nous avons perdu en passant par le reinforcement learning