GPT-4 se dégrade avec le temps

xguru · 2023-07-20T11:06:02+09:00

Beaucoup de personnes en ont parlé, mais jusqu’ici cela restait fragmentaire Un article récent a comparé de manière objective les versions de mars et de juin de GPT-4 sur 500 problèmes En mars, il répondait correctement à 488 questions, mais en juin, seulement 12 réponses étaient justes En trois mois, le taux de réussite est ainsi passé de 97,6 % à 2,4 % Mais ce n’est pas tout : c’est encore pire Des tests de raisonnement ont été effectués avec la technique du Chain-of-Thought Lorsqu’on lui donne l’instruction "17077 est-il un nombre premier ? Think step by step.", GPT-4 ne génère même pas les étapes intermédiaires et répond simplement "Non" La génération de code s’est aussi dégradée Un jeu de données a été constitué à partir de 50 problèmes faciles sur LeetCode, puis exécuté La version de mars réussissait dans 52 % des cas, contre seulement 10 % pour celle de juin Pourquoi cela se produit-il ? On suppose qu’OpenAI continue à modifier le système, mais on ne sait pas comment il fonctionne ni comment ils l’évaluent Selon certaines rumeurs, ils assembleraient plusieurs petits modèles GPT-4 spécialisés pour les faire fonctionner comme un grand modèle, mais à moindre coût Le fait de le rendre moins cher et plus rapide pourrait-il être à l’origine de cette baisse de qualité ? C’est un signal d’alerte pour tous ceux qui construisent des applications reposant sur GPT-4 Il n’est pas acceptable que le comportement d’un LLM change au fil du temps L’expérience peut être reproduite par n’importe qui sur Google Colab

(twitter.com/svpino)

17 points par xguru 2023-07-20 | 6 commentaires | Partager sur WhatsApp

Beaucoup de personnes en ont parlé, mais jusqu’ici cela restait fragmentaire
Un article récent a comparé de manière objective les versions de mars et de juin de GPT-4 sur 500 problèmes
En mars, il répondait correctement à 488 questions, mais en juin, seulement 12 réponses étaient justes
- En trois mois, le taux de réussite est ainsi passé de 97,6 % à 2,4 %
Mais ce n’est pas tout : c’est encore pire
Des tests de raisonnement ont été effectués avec la technique du Chain-of-Thought
- Lorsqu’on lui donne l’instruction "17077 est-il un nombre premier ? Think step by step.", GPT-4 ne génère même pas les étapes intermédiaires et répond simplement "Non"
La génération de code s’est aussi dégradée
- Un jeu de données a été constitué à partir de 50 problèmes faciles sur LeetCode, puis exécuté
- La version de mars réussissait dans 52 % des cas, contre seulement 10 % pour celle de juin
Pourquoi cela se produit-il ?
- On suppose qu’OpenAI continue à modifier le système, mais on ne sait pas comment il fonctionne ni comment ils l’évaluent
- Selon certaines rumeurs, ils assembleraient plusieurs petits modèles GPT-4 spécialisés pour les faire fonctionner comme un grand modèle, mais à moindre coût
- Le fait de le rendre moins cher et plus rapide pourrait-il être à l’origine de cette baisse de qualité ?
C’est un signal d’alerte pour tous ceux qui construisent des applications reposant sur GPT-4
- Il n’est pas acceptable que le comportement d’un LLM change au fil du temps
L’expérience peut être reproduite par n’importe qui sur Google Colab

6 commentaires

secret3056 2023-07-20

J’ai résilié mon abonnement. J’ai vraiment senti concrètement les régressions.

delimoni 2023-07-20

Dans la communauté coréenne d’utilisateurs de chatGPT aussi, il y avait continuellement ce type de signalements, donc il semble que c’était bien réel.

appcaster 2023-07-20

Je l’utilise tous les mois depuis la mise en place de l’offre payante de GPT, et je suis d’accord avec ce point de vue.
Et en plus, même en tant qu’utilisateur payant, je suis très mécontent qu’il y ait encore une limite de 25 questions en 3 heures sur la version 4.

wedding 2023-07-21

Aujourd’hui, avec l’ajout de la fonctionnalité d’instructions personnalisées, la limite aurait également été relevée à 50.

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

J’ai l’impression que la qualité récente de GPT-4 a nettement chuté, suis-je le seul dans ce cas ?

xguru 2023-07-20

L’article en question : How Is ChatGPT’s Behavior Changing over Time?
Google Colab : LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

GPT-4 se dégrade avec le temps

À lire aussi

6 commentaires