- Beaucoup de personnes en ont parlé, mais jusqu’ici cela restait fragmentaire
- Un article récent a comparé de manière objective les versions de mars et de juin de GPT-4 sur 500 problèmes
- En mars, il répondait correctement à 488 questions, mais en juin, seulement 12 réponses étaient justes
- En trois mois, le taux de réussite est ainsi passé de 97,6 % à 2,4 %
- Mais ce n’est pas tout : c’est encore pire
- Des tests de raisonnement ont été effectués avec la technique du Chain-of-Thought
- Lorsqu’on lui donne l’instruction "17077 est-il un nombre premier ? Think step by step.", GPT-4 ne génère même pas les étapes intermédiaires et répond simplement "Non"
- La génération de code s’est aussi dégradée
- Un jeu de données a été constitué à partir de 50 problèmes faciles sur LeetCode, puis exécuté
- La version de mars réussissait dans 52 % des cas, contre seulement 10 % pour celle de juin
- Pourquoi cela se produit-il ?
- On suppose qu’OpenAI continue à modifier le système, mais on ne sait pas comment il fonctionne ni comment ils l’évaluent
- Selon certaines rumeurs, ils assembleraient plusieurs petits modèles GPT-4 spécialisés pour les faire fonctionner comme un grand modèle, mais à moindre coût
- Le fait de le rendre moins cher et plus rapide pourrait-il être à l’origine de cette baisse de qualité ?
- C’est un signal d’alerte pour tous ceux qui construisent des applications reposant sur GPT-4
- Il n’est pas acceptable que le comportement d’un LLM change au fil du temps
- L’expérience peut être reproduite par n’importe qui sur Google Colab
6 commentaires
J’ai résilié mon abonnement. J’ai vraiment senti concrètement les régressions.
Dans la communauté coréenne d’utilisateurs de chatGPT aussi, il y avait continuellement ce type de signalements, donc il semble que c’était bien réel.
Je l’utilise tous les mois depuis la mise en place de l’offre payante de GPT, et je suis d’accord avec ce point de vue.
Et en plus, même en tant qu’utilisateur payant, je suis très mécontent qu’il y ait encore une limite de 25 questions en 3 heures sur la version 4.
Aujourd’hui, avec l’ajout de la fonctionnalité d’instructions personnalisées, la limite aurait également été relevée à 50.
https://openai.com/blog/custom-instructions-for-chatgpt
J’ai l’impression que la qualité récente de GPT-4 a nettement chuté, suis-je le seul dans ce cas ?
L’article en question : How Is ChatGPT’s Behavior Changing over Time?
Google Colab : LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?