La critique de GPT-4.5 par Andrej Karpathy

xguru · 2025-02-28T10:00:02+09:00

Aujourd’hui, OpenAI a lancé GPT-4.5 La raison pour laquelle on attendait depuis environ 2 ans après la sortie de GPT-4 est que cette publication offre l’occasion de mesurer quantitativement les gains obtenus en entraînant simplement un modèle plus grand Chaque version en "0.5" correspond approximativement à 10 fois plus de calcul de pré-entraînement Évolution des modèles GPT GPT-1 → ne parvenait presque pas à générer des phrases réellement pertinentes GPT-2 → restait au niveau d’un gadget maladroit GPT-2.5 → a été en pratique sauté pour passer directement à GPT-3 GPT-3 → a montré des progrès intéressants GPT-3.5 → a suffisamment progressé pour sortir en produit réel, déclenchant le boom de ChatGPT GPT-4 → a encore progressé, mais il était difficile d’y trouver un point "waouh" vraiment net En particulier, si l’on compare GPT-4 à GPT-3.5 : le choix des mots est plus créatif et le modèle comprend mieux les nuances des prompts les analogies sont plus appropriées et le sens de l’humour légèrement meilleur la compréhension s’améliore aussi dans des domaines de connaissance rares, avec un peu moins d’hallucinations globalement, on avait l’impression que tout s’améliorait de 20 % c’était comme une montée des eaux qui fait flotter tous les bateaux Impressions après les tests de GPT-4.5 GPT-4.5 a bénéficié de 10 fois plus de pré-entraînement que GPT-4 Et après l’avoir testé, on retrouve à nouveau ce même schéma des 20 % Tout est un peu meilleur mais il n’y a pas de point d’innovation clair que l’on puisse désigner précisément cela reste néanmoins un indicateur intéressant et important pour mesurer la pente générale d’amélioration des modèles GPT-4.5 n’est pas encore un modèle de "reasoning" GPT-4.5 n’utilise que le pré-entraînement, le supervised fine-tuning (SFT) et le RLHF Par conséquent, il ne progresse pas sur les problèmes qui demandent du raisonnement logique, comme les maths ou le code Dans ces domaines, il faut du reinforcement learning (RL) et un entraînement systématique à la réflexion, et à ce stade le modèle OpenAI o1 reste le plus performant OpenAI fera probablement évoluer GPT-4.5 en lui appliquant du reinforcement learning pour en faire un modèle qui "pense" L’objectif sera ainsi d’améliorer ses capacités en maths, en logique et en code Point fort de GPT-4.5 : l’EQ Il progresse sur les tâches où ce n’est pas le raisonnement logique qui compte, mais la connaissance du monde, la créativité, l’analogie, le sens de l’humour et plus largement l’intelligence émotionnelle (EQ) C’est pourquoi il va mener une expérience interactive : "vote comparatif GPT-4 vs GPT-4.5" Sélection de prompts pour évaluer 5 formes d’humour Pour chaque prompt, comparaison des réponses de GPT-4 et GPT-4.5 L’expérience sera menée sur X (Twitter) à l’aide d’images (prompts et réponses) + la fonction de vote Après 8 heures, il révélera quel modèle a produit chaque réponse

(x.com)

3 points par xguru 2025-02-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Aujourd’hui, OpenAI a lancé GPT-4.5
La raison pour laquelle on attendait depuis environ 2 ans après la sortie de GPT-4 est que cette publication offre l’occasion de mesurer quantitativement les gains obtenus en entraînant simplement un modèle plus grand
- Chaque version en "0.5" correspond approximativement à 10 fois plus de calcul de pré-entraînement
Évolution des modèles GPT
- GPT-1 → ne parvenait presque pas à générer des phrases réellement pertinentes
- GPT-2 → restait au niveau d’un gadget maladroit
- GPT-2.5 → a été en pratique sauté pour passer directement à GPT-3
- GPT-3 → a montré des progrès intéressants
- GPT-3.5 → a suffisamment progressé pour sortir en produit réel, déclenchant le boom de ChatGPT
- GPT-4 → a encore progressé, mais il était difficile d’y trouver un point "waouh" vraiment net
En particulier, si l’on compare GPT-4 à GPT-3.5 :
- le choix des mots est plus créatif et le modèle comprend mieux les nuances des prompts
- les analogies sont plus appropriées et le sens de l’humour légèrement meilleur
- la compréhension s’améliore aussi dans des domaines de connaissance rares, avec un peu moins d’hallucinations
- globalement, on avait l’impression que tout s’améliorait de 20 %
- c’était comme une montée des eaux qui fait flotter tous les bateaux

Impressions après les tests de GPT-4.5

GPT-4.5 a bénéficié de 10 fois plus de pré-entraînement que GPT-4
Et après l’avoir testé, on retrouve à nouveau ce même schéma des 20 %
Tout est un peu meilleur
- mais il n’y a pas de point d’innovation clair que l’on puisse désigner précisément
- cela reste néanmoins un indicateur intéressant et important pour mesurer la pente générale d’amélioration des modèles

GPT-4.5 n’est pas encore un modèle de "reasoning"

GPT-4.5 n’utilise que le pré-entraînement, le supervised fine-tuning (SFT) et le RLHF
Par conséquent, il ne progresse pas sur les problèmes qui demandent du raisonnement logique, comme les maths ou le code
Dans ces domaines, il faut du reinforcement learning (RL) et un entraînement systématique à la réflexion, et à ce stade le modèle OpenAI o1 reste le plus performant
OpenAI fera probablement évoluer GPT-4.5 en lui appliquant du reinforcement learning pour en faire un modèle qui "pense"
L’objectif sera ainsi d’améliorer ses capacités en maths, en logique et en code

Point fort de GPT-4.5 : l’EQ

Il progresse sur les tâches où ce n’est pas le raisonnement logique qui compte, mais la connaissance du monde, la créativité, l’analogie, le sens de l’humour et plus largement l’intelligence émotionnelle (EQ)

C’est pourquoi il va mener une expérience interactive : "vote comparatif GPT-4 vs GPT-4.5"

Sélection de prompts pour évaluer 5 formes d’humour
Pour chaque prompt, comparaison des réponses de GPT-4 et GPT-4.5
L’expérience sera menée sur X (Twitter) à l’aide d’images (prompts et réponses) + la fonction de vote
Après 8 heures, il révélera quel modèle a produit chaque réponse