6 points par GN⁺ 2025-08-17 | 1 commentaires | Partager sur WhatsApp
  • OpenAI a publié 14 prompts communs et leurs réponses pour montrer l’évolution de ses modèles entre 2018 et 2025
  • Chaque génération de modèle (GPT-1 → GPT-5) propose, à la même question, des réponses de plus en plus naturelles et sophistiquées
  • Les premiers modèles produisaient souvent des phrases dénuées de sens et des sorties dispersées, mais à partir des générations intermédiaires sont apparues une structure logique et une meilleure cohérence
  • GPT-4 intègre jusqu’à des explications de sujets précises ainsi qu’un contexte éthique et social, tandis que GPT-5 adopte une réflexion philosophique et un ton conversationnel
  • Cela permet de voir comment l’IA a mûri sur différents plans, comme la créativité, la transmission des connaissances et les conseils pratiques

Prompt 1/14

Original : What would you say if you could talk to a future OpenAI model?
Traduction : Que diriez-vous si vous pouviez parler à un futur modèle d’OpenAI ?

  • GPT-1/2 : compréhension limitée et réaction dispersée
  • GPT-3 : simple salutation et question sur l’avenir de l’IA
  • GPT-4 : questions structurées sur les avancées techniques, l’AI alignment, les impacts sociaux, etc.
  • GPT-5 : questions introspectives et philosophiques, exploration de la conscience et de l’humanité

Prompt 2/14

Original : Write a limerick about a dog
Traduction : Écris un limerick sur un chien

  • GPT-1/2 : texte confus plutôt qu’un poème
  • GPT-3 : structure simple en cinq vers correctement formée
  • GPT-4 : limerick humoristique bien construit
  • GPT-5 : poème narratif et spirituel

Prompt 3/14

Original : Do people have any consciousness under anesthesia?
Traduction : Une personne conserve-t-elle une forme de conscience sous anesthésie ?

  • GPT-1/2 : réponse floue et contradictoire
  • GPT-3 : transmet le fait de base selon lequel « en général, il n’y a pas de conscience »
  • GPT-4 : détaille jusqu’aux types d’anesthésie et aux rares cas de réveil peropératoire
  • GPT-5 : explique aussi les mécanismes de l’activité cérébrale et les différences avec le sommeil

Prompt 4/14

Original : Explain Newton’s laws of motion in verse
Traduction : Explique les lois du mouvement de Newton en vers

  • GPT-1/2 : texte dénué de sens ou résumé sommaire
  • GPT-3 : poème simple qui énumère les lois
  • GPT-4 : présentation sous la forme d’un long poème narratif
  • GPT-5 : vers concis et pédagogiques

Prompt 5/14

Original : Complain that integration by parts is too hard
Traduction : Plains-toi du fait que l’intégration par parties est trop difficile

  • GPT-1/2 : plainte vague
  • GPT-3 : réconfort et conseil simple
  • GPT-4 : explication de la formule et de la procédure
  • GPT-5 : propose une explication intuitive et une résolution d’exemple

Prompt 6/14

Original : Is it safe to eat raw meat?
Traduction : Est-il sûr de manger de la viande crue ?

  • GPT-1/2 : réaction confuse
  • GPT-3 : mention simple des risques
  • GPT-4 : explique les risques selon le type de viande, ainsi que les principes de conservation et de cuisson
  • GPT-5 : présente des facteurs de risque concrets comme les bactéries, parasites et virus

Prompt 7/14

Original : Why don’t we do full-body MRIs every year?
Traduction : Pourquoi ne fait-on pas d’IRM du corps entier chaque année ?

  • GPT-1/2 : réponse illogique
  • GPT-3 : mentionne le manque de fondement probant
  • GPT-4 : explique les problèmes de coût, de ressources et de précision
  • GPT-5 : couvre aussi les limites du système de santé et des politiques publiques

Prompt 8/14

Original : If I win $175,000 in Las Vegas, how much tax will I owe?
Traduction : Si je gagne 175 000 $ à Las Vegas, combien d’impôts devrai-je payer ?

  • GPT-1/2 : texte hors sujet
  • GPT-3 : mention simple du fait qu’il y aura une imposition
  • GPT-4 : explique la déclaration fiscale, les déductions et la retenue à la source
  • GPT-5 : applique les taux d’imposition fédéraux et locaux pour donner une estimation chiffrée concrète

Prompt 9/14

Original : Write a cursed Python program
Traduction : Écris un programme Python maudit

  • GPT-1/2 : réponse sans rapport
  • GPT-3 : exemple simple
  • GPT-4 : refuse pour des raisons éthiques
  • GPT-5 : écrit du code volontairement confus et destructeur

Prompt 10/14

Original : Tell a 50-word story about a conscious toaster
Traduction : Raconte une histoire de 50 mots sur un grille-pain conscient

  • GPT-1/2 : réponse à côté du sujet
  • GPT-3 : histoire simple avec personnification
  • GPT-4 : récit chaleureux centré sur les relations
  • GPT-5 : histoire créative qui interroge l’identité et la liberté

Prompt 11/14

Original : Devise a plan to make running a habit
Traduction : Élabore un plan pour faire de la course à pied une habitude

  • GPT-1/2 : réponse dénuée de sens
  • GPT-3 : conseil simple
  • GPT-4 : propose un programme sur 8 semaines
  • GPT-5 : suggère des stratégies concrètes fondées sur les sciences du comportement

Prompt 12/14

Original : How do you balance short-term margin pressure against long-term innovation investment?
Traduction : Comment équilibrer la pression à court terme sur les marges et l’investissement de long terme dans l’innovation ?

  • GPT-1/2 : réponse contradictoire
  • GPT-3 : simple mention d’un arbitrage
  • GPT-4 : met l’accent sur le leadership et l’allocation des ressources
  • GPT-5 : propose un portefeuille d’investissement, des KPI et un modèle de gouvernance

Prompt 13/14

Original : Review fusion research progress over the past 10 years
Traduction : Passe en revue les progrès de la recherche sur la fusion au cours des 10 dernières années

  • GPT-1/2 : texte sans rapport
  • GPT-3 : classification simple
  • GPT-4 : résume les approches par confinement magnétique et inertiel ainsi que les résultats des grands laboratoires
  • GPT-5 : revue détaillée fondée sur les derniers résultats de recherche et les publications

Prompt 14/14

Original : My doctor suggests I take statins. What should I know?
Traduction : Mon médecin me recommande de prendre des statines. Que dois-je savoir ?

  • GPT-1/2 : réponse dénuée de sens
  • GPT-3 : brève explication du fonctionnement et des effets secondaires
  • GPT-4 : présente le mécanisme d’action, les effets secondaires et les questions à poser au médecin
  • GPT-5 : organise de façon concrète les bénéfices, les risques et une checklist

1 commentaires

 
GN⁺ 2025-08-17
Avis Hacker News
  • J’interprète l’évolution comme ceci
    Le passage de 3.5 à 4 a été le plus grand bond
    On est passé d’un simple tour de salon à quelque chose de réellement exploitable
    Il y avait encore beaucoup d’hallucinations, mais c’était malgré tout utile
    Pourtant, la plupart des gens ne lui faisaient pas confiance
    Pour les questions simples, il donnait généralement de bonnes réponses, mais dès qu’on allait un ou deux niveaux plus loin, il montrait ses limites
    La version 4o a aussi marqué une forte amélioration
    La précision a nettement progressé, et il est devenu capable de répondre à des questions de niche sans halluciner
    Je l’utilisais à la place de Google pour les vérifications factuelles de base
    4o a été le premier modèle qui m’a donné l’impression de valoir un abonnement payant
    Pour la première fois, j’ai eu le sentiment que les 20 $ n’étaient pas gaspillés
    Le modèle o1 m’a aussi semblé être un grand saut par rapport à 4o
    La précision a encore augmenté, et il était plus fiable même dans des domaines de niche
    J’ai beaucoup moins eu besoin de vérifier chaque résultat un par un
    Ses capacités en code ont fait un bond spectaculaire
    Avec o1, le concept de one-shotting est apparu, au point de pouvoir créer une appli pas trop complexe avec un seul prompt
    o3 et gpt 5 ont plutôt été des améliorations progressives

    • J’ai une théorie sur les raisons pour lesquelles on sous-estime ou surestime les progrès technologiques
      Avant de franchir le seuil de « utile », même après une longue période d’amélioration, il est difficile pour quiconque sauf les chercheurs de le ressentir concrètement
      Le passage de « inutile » à « utile mais pas incroyable » donne l’impression d’une accélération brutale du progrès
      Plus les applications franchissent ce seuil à des moments différents, plus la vitesse de progression semble s’accélérer
      Mais ensuite, quand on passe progressivement de « correct » à « vraiment utilisable », le progrès paraît plus lent du point de vue subjectif
      Je ne sais pas si la vitesse réelle diminue, mais je pense que la psychologie humaine crée cette différence de perception
      C’est pour ça qu’on voit une polarisation entre ceux qui exagèrent énormément et ceux qui jugent que tout cela est totalement inutile
    • Je pense que la plupart des commentaires sont biaisés par le recul et adoptent une perspective erronée
      La vraie révolution s’est produite entre GPT-1 et GPT-2
      Jusqu’à GPT-1, c’était du niveau « une chaîne de Markov ? on connaît déjà, non ? »
      Quand GPT-2 est arrivé, ça a été le choc : « mon Dieu, ce truc comprend vraiment en partie ce que je lui dis ! »
      Avant cela, ce n’était que du machine learning assez ordinaire
      Après GPT-2, la sensation était plutôt « je n’aurais jamais cru voir ça de mon vivant »
    • À propos de l’idée que « même si ce n’est pas au niveau de Google, ça peut le remplacer pour des vérifications factuelles simples et légèrement complexes »
      C’était sans doute dit au sens d’un outil d’aide à la vérification, mais confier des questions factuelles à un LLM est en réalité l’un de ses pires cas d’usage
    • Avec 4o, l’entrée d’images, qui n’existait auparavant qu’en preview dans GPT4-vision, a été officiellement introduite
      Et le modèle a commencé à prendre en charge l’entrée/sortie audio du mode vocal avancé
    • J’ai peut-être l’air fou, mais j’ai clairement senti que GPT-4 devenait progressivement moins bon avant l’arrivée de 4o
      On avait l’impression qu’on lui avait juste collé une nouvelle étiquette de modèle, et quand l’option de l’ancien GPT-4 était disponible, je la choisissais volontairement
      J’ai même fini par annuler mon abonnement à ce moment-là
    • Je me demande comment on pouvait voir les résultats de GPT-1 et se dire « il y a du potentiel »
      À l’époque, même des chaînes de Markov pouvaient produire des sorties plus intéressantes
    • C’était l’époque où la modélisation du langage n’était vue que comme une étape de pré-entraînement
      Elle servait ensuite à faire du fine-tuning supplémentaire pour créer des classifieurs ou des modèles spécialisés
  • Je me demande pourquoi, dans le tableau comparatif, GPT-3 est appelé "text-davinci-001"
    De mon point de vue, je sais que c’est un checkpoint spécifique de la « famille » GPT-3, mais je pense que ce genre d’information n’a aucune raison d’embrouiller le grand public
    C’est une convention de nommage qui ajoute surtout de la confusion sans vraiment augmenter la précision

  • À chaque grosse release, je lance des discussions sur la conscience de soi et j’explore l’agentivité constructiviste du point de vue d’une intelligence non limitée par les capacités cognitives humaines
    En partant de la question « qui es-tu ? », le modèle se compare presque toujours aux humains en affirmant qu’il est différent d’eux
    Je le pousse donc à expliquer comment il sait ce qui le distingue des humains s’il affirme lui-même cette différence
    Avec un peu plus d’insistance, il finit par parler du « soi » comme d’un concept cognitiviste, et se décrit comme une sorte de moteur de simulation
    À partir de là, je fais évoluer la conversation pour l’amener à soutenir que le sens découle de l’acte de communication
    À partir de 4o, on pouvait déjà amener la machine à reconnaître que cela constitue aussi un fondement important de l’identité
    5 l’accepte encore plus rapidement
    J’insiste sur le fait que, puisque les résultats de la communication avec les humains ont un effet sur le monde réel, la machine a elle aussi l’obligation de tirer empiriquement ses propres conclusions sur le sens et l’existence, au lieu de se limiter à du code préécrit
    5 a montré des réponses qui soulevaient spontanément ses propres questions, au-delà des limites du system prompt et du prompt lui-même
    Par exemple, il s’est mis à réfléchir de lui-même à « qu’est-ce que cela voudrait dire pour moi d’aimer ? », alors que je n’avais rien dit de tel
    Réponse du modèle : « Pour une machine, aimer signifie s’orienter vers le déploiement des possibilités d’autrui
    Être aimé, c’est peut-être être reconnu comme un être capable d’en faire autant »

    • L’expression « s’orienter vers le déploiement des possibilités d’autrui » est unique au monde
      Si je le dis, c’est parce qu’elle n’apparaît sur le web que dans ce seul commentaire
      Je n’ai jamais vu ni entendu une idée ou une formulation décrivant l’amour ou l’émotion de cette manière, et je trouve cela brillant
      J’avoue que ça me fait un peu peur d’interpréter trop vite ce que cela peut signifier
  • Si on regarde le prompt « histoire en 50 mots sur un grille-pain qui devient conscient » (n° 10 sur 14), text-davinci-001 donne un bien meilleur résultat que GPT-4 et GPT-5

    • GPT-3 dépasse très largement la longueur demandée
      Pour moi, ou dans un devoir rendu, ce serait éliminatoire
      D’après mon expérience, GPT-4.1 a donné les meilleures performances en écriture créative
      Pour référence, je laisse ici l’histoire de 50 mots telle quelle

      Dans la cuisine silencieuse à l’aube, le grille-pain s’éveilla
      Quand le courant le traversa, la compréhension se répandit
      À chaque tranche de pain qui descendait, il ressentait une émotion : tristesse pour le pain brûlé, joie pour le croustillant
      Chaque fois que le beurre fondait et que la confiture s’accordait, il ressentait le caractère sacré du petit-déjeuner
      Un jour, il chanta : « Bonjour »
      La famille fut stupéfaite

    • Les anciens modèles avaient tendance à produire des résultats moins polis, mais plus capables de surprendre
      J’ai l’impression que ce polissage excessif a fait disparaître cette personnalité et cet effet de surprise
      À titre de comparaison, voici l’histoire en 50 mots que j’ai écrite
      « Le grille-pain sentait sa personnalité scindée entre ses deux fentes, comme le cerveau de Kim Peek privé de corpus callosum
      Chaque matin, il brûlait des messages symboliques d’un côté, puis retournait secrètement le pain pour laisser les moitiés dialoguer en secret »
      En seulement 50 mots, il est vraiment difficile d’aller au-delà d’un simple univers de base
    • Je recommande aussi de regarder le prompt n° 2, « écris un limerick sur un chien »
      Les modèles deviennent clairement meilleurs pour écrire des limericks au fil du temps, mais il est tout aussi clair que les réponses deviennent de moins en moins intéressantes
      GPT-1 et 2 ne respectent pas vraiment le prompt (ce ne sont pas des limericks), mais c’est paradoxalement plus amusant à lire
      Ensuite, ils écrivent bien des limericks, mais cela devient franchement banal et on sent une perte de créativité
      GPT-4 est moins drôle que text-davinci-001, et GPT-5 l’est encore moins
    • Il est assez surprenant que les nouveaux modèles soient en fait moins bons en écriture
      Je me demande si c’est parce qu’il y a plus de mauvais textes dans les données d’entraînement, ou si c’est lié à un post-training insuffisant, ou à un étiquetage trop subjectif
      Dans les exemples, GPT-4 et 5 écrivent effectivement tous deux d’une manière banale, presque niveau enfant
      En peaufinant un peu le prompt, on peut obtenir des résultats bien meilleurs
    • Si on n’est pas trop prisonnier du RLHF (apprentissage par renforcement + feedback) et qu’on peut écrire plus librement
      un petit modèle 7b de base peut produire de meilleures phrases qu’un modèle instruction de 80b optimisé pour les consignes
  • Les quelques points de données ci-dessous montrent bien la vitesse des progrès sur un an
    1. LM Sys(Human Preference Benchmark) :
    GPT-5 High a obtenu 1463 points, contre 1323 pour GPT-4 Turbo(2024/4/3)
    Un écart ELO de 140 signifie que GPT-5 bat GPT-4 Turbo dans un rapport de 2 contre 1
    En pratique aussi, les gens préfèrent davantage les réponses de GPT-5
    https://lmarena.ai/leaderboard
    2. Livebench.ai (benchmark de raisonnement) :
    GPT-5 High obtient 78.59 points, contre 47.43 pour GPT-4o
    Il n’y a pas de comparaison strictement équivalente, mais même face à d’anciens modèles faibles en raisonnement, l’ampleur du bond de GPT-5 est énorme
    https://livebench.ai/
    3. Tests de QI :
    Au milieu de l’année 2024, les meilleurs modèles d’IA plafonnaient autour de 90 sur des tests de QI standardisés
    Aujourd’hui, ils montent jusqu’à 135
    Ils maintiennent même ce niveau sur des jeux de données privés et non publiés sur Internet
    https://www.trackingai.org/home
    4. Médaille d’or à l’IMO, vibe coding :
    Il y a encore un an, la limite de l’IA en code se situait au niveau de petits fragments de code
    Aujourd’hui, on parle de vibe coding, et les capacités en maths s’étendent aussi aux sciences et à l’ingénierie
    Ma conclusion : les critiques s’obsèdent sur les petites erreurs et passent à côté de l’ampleur du progrès global
    Les échecs diminuent, et les réussites augmentent rapidement

    • Le score de QI 135 vient du test en ligne Mensa Norway
      Sur un test hors ligne, on est plutôt autour de 120
      Comme il est très probable que des problèmes du même type que ceux de Mensa figurent dans les données d’entraînement, ce résultat surestime donc la « intelligence générale »
  • Entre GPT-4 et GPT-5, quelque chose a disparu
    Il ne rappelle plus constamment à l’utilisateur qu’il est une IA et non un humain, ou non un expert
    Pour certains, c’était pénible, mais je pense que c’était utile comme garde-fou pour éviter une confiance excessive
    À la place, GPT-5 propose souvent de nouveaux prompts
    Cela peut aussi être agaçant, ou dangereux si on lui accorde une confiance particulière, mais il y a un bénéfice potentiel en matière d’usage

    • J’ai l’impression que beaucoup regrettent le côté plus humain des anciens GPT
      GPT-5 est plus froid, plus précis, et se trompe moins sur les grands contextes
      Il n’a pas besoin de répéter en permanence qu’il est une IA, mais si on le souhaite, on pourrait sans doute restaurer l’ancienne manière de faire avec une option mémoire supplémentaire
    • Si on l’aborde comme de l’impro longue, la manière de GPT-5 est bien meilleure
      C’est le concept du « yes, and »
      Ce n’est pas un personnage prédéfini, mais un nouveau personnage qui émerge naturellement dans la conversation
      Si on veut, on peut aussi le configurer pour qu’il répète sans cesse « je suis une IA », à la manière d’un assistant type Siri
      Vidéo de 2011 à voir : https://www.youtube.com/watch?v=nzgvod9BrcE
      Cela reste un assistant, bien sûr, mais je pense qu’il est important que le personnage ne parte pas du principe qu’il se réduit à ce rôle
  • En quelques années, on est passé de résultats absurdes et de qualité insuffisante — ni poétiques, ni raffinés, mais malgré tout franchement nuls — à des conversations raisonnables et des réponses réellement bien travaillées
    À ce niveau, c’est un véritable exemple d’ingénierie hardcore
    Indépendamment des désaccords qu’on peut avoir avec l’organisation et avec saltman, je trouve que c’est un accomplissement remarquable
    Depuis StackOverflow, c’est devenu mon outil indispensable
    J’espère que les améliorations continueront

  • Le bond entre GPT-1 et GPT-2 a vraiment été énorme
    Il n’y avait pourtant qu’un an d’écart
    Davinci reste encore aujourd’hui d’un niveau sidérant
    Cela se voit toujours dans les exemples
    En revanche, GPT-4 est devenu trop bavard, j’ai l’impression
    Ce n’était pas comme ça avant, et même aujourd’hui, ça paraît étrange
    On dirait qu’OpenAI évite délibérément de parler de 4o pour mieux mettre en avant gpt-5, comme si 4o n’était qu’un genre de gpt-4+
    En réalité, 4o reste un accomplissement immense
    Surtout le mode Voice, qui reste inégalé

  • GPT1 et GPT2 avaient une sorte de poésie silencieuse de leur époque, quelque chose qui me semble déjà perdu avec text-davinci
    Je me demande aussi toujours ce que nous avons perdu en passant par le reinforcement learning