GPT-4.5 : « pas un modèle frontier » ?

(interconnects.ai)

2 points par GN⁺ 2025-03-03 | 2 commentaires | Partager sur WhatsApp

Avec la publication de GPT-4.5, OpenAI a d’abord rendu publique la system card du modèle
La première version de cette system card contenait la mention "GPT-4.5 is not a frontier model" (GPT-4.5 n’est pas un modèle de pointe)
- Cette mention a ensuite été supprimée du billet de blog officiel et de la system card mise à jour
Quelqu’un chez OpenAI a visiblement estimé nécessaire d’ajouter cette phrase. Mais « pourquoi OpenAI a-t-il publié cela ? »
La principale contradiction de l’affirmation selon laquelle ce ne serait pas un modèle frontier, c’est que GPT-4.5 est le plus grand modèle que le grand public puisse tester
- Même avec un modèle de cette taille, l’augmentation d’échelle ne produit plus de saut net dans les capacités que nous mesurons
- Le passage de GPT-3.5 → GPT-4 allait de correct (Okay) à bon (Good)
- L’évolution de GPT-4o → GPT-4.5 va de excellent (Great) à vraiment excellent (Really Great)
Comme il est très difficile de discerner les différences entre les derniers modèles, ceux qui investissent dans l’IA et en attendent des progrès risquent de la croire meilleure qu’elle ne l’est réellement
Nous arrivons à un moment où les limites économiques du scaling deviennent évidentes, sans le grand bond de performance que beaucoup attendaient
- Anthropic rencontre aussi un problème similaire et il a été confirmé qu’après Claude 3.7, l’entreprise entraînera des modèles bien plus grands
GPT-4.5 est un modèle qui montre un progrès incrémental, différent des bonds révolutionnaires du passé
- Il montre qu’en recherche IA, une simple extension du pré-entraînement ne produit plus le même niveau d’innovation qu’auparavant
- En interne, OpenAI utilise GPT-4.5 depuis longtemps, et il est très probable qu’il ait servi à entraîner d’autres modèles à partir de GPT-4.5 (à en juger par une cut-off date située en 2023)

Qu’est-ce que GPT-4.5 apporte de bien ?

(Il s’agit de quelques estimations sur le nombre de paramètres de GPT-4.5 et de GPT-4o ; elles ne reposent pas sur des fuites, donc la marge d’erreur est importante)
GPT-4.5 est un très grand modèle, probablement plus grand que Grok 3
- GPT-4 était un modèle Mixture of Experts (MoE) avec plus de 1 trillion (1T) de paramètres au total, dont environ 200B de paramètres actifs selon les estimations
- Selon certaines rumeurs, les paramètres actifs de modèles comme GPT-4o ou Gemini Pro seraient descendus jusqu’à 60B
- En d’autres termes, les modèles récents progressent en réduisant les paramètres actifs et en optimisant l’infrastructure pour améliorer vitesse et coûts
GPT-4.5 nécessiterait environ 10 fois plus de calcul (10X compute) que GPT-4
- 5 fois plus de paramètres + un dataset 2 fois plus grand = 10 fois plus de calcul
- Le nombre total de paramètres pourrait atteindre 5T à 7T, avec environ 600B de paramètres actifs
Mais même avec cette montée en échelle, le gain de performance reste difficile à ressentir concrètement.
À partir de là, la situation devient très étrange. OpenAI a mis en avant deux points dans cette annonce
- Réduction des hallucinations : le modèle génère moins souvent des informations fausses
- Amélioration de l’intelligence émotionnelle : meilleure compréhension et meilleure expression du contexte et des émotions
- Mais ces deux caractéristiques sont difficiles à évaluer objectivement
Performances sur les benchmarks (selon les données fournies par OpenAI)
- SimpleQA : GPT-4.5 montre une forte amélioration sur l’évaluation des connaissances générales du monde des modèles d’IA
- PersonQA : meilleures performances également sur les questions portant sur des individus
- GPQA (Google-proof QA) : très bons résultats aussi sur cet indicateur qui évalue le raisonnement logique sans recours à la recherche d’information
Juste après la sortie, des experts de l’IA ont estimé que GPT-4.5 est agréable à utiliser et écrit mieux
- En revanche, pour le code et les performances techniques, il est jugé dans la moyenne face à des modèles concurrents comme Claude 3.7 ou R1
Comparaison du style d’écriture (résultats du sondage X/Twitter de Karpathy)
- GPT-4.5 vs. GPT-4o-latest : une majorité d’utilisateurs préfère le style d’écriture de GPT-4o-latest
- Pourquoi ? Il est très probable que GPT-4o-latest soit un modèle distillé (distilled) à partir de ce nouveau modèle auparavant appelé Orion1, et comme il est bien plus petit, la différence de vitesse d’itération est énorme, ce qui peut permettre un meilleur post-training
Tout cela représente le prix à payer pour qu’OpenAI retrouve la première place du classement ChatBotArena
- On s’attend à ce que GPT 4.5 y parvienne, mais le résultat n’est pas encore confirmé
D’après l’expérience préalable de l’auteur, la lenteur était gênante au début, mais la fiabilité est assez élevée pour justifier un usage continu
- Cependant, il n’est pas nécessaire de choisir GPT-4.5 en payant un supplément, et o1 Pro d’OpenAI ainsi que d’autres services payants offrent un meilleur rapport qualité-prix

Pourquoi GPT-4.5 est si cher

Le prix de GPT-4 à sa sortie était déjà assez élevé, et en pratique assez proche de celui de GPT-4.5
Le tarif initial de GPT-4.5 est le suivant :
- Input : $75.00 / 1M tokens
- Cached Input : $37.50 / 1M tokens
- Output : $150.00 / 1M tokens
- Autrement dit, il a été lancé à un prix bien plus élevé que les modèles précédents
Les modèles antérieurs d’OpenAI ont eux aussi commencé avec des prix élevés, avant de subir d’importantes baisses progressives
- GPT-4 (sorti en mars 2023)
  - Il a commencé à $30 par million en entrée et $60 par million en sortie
  - La version avec contexte 32K était plus chère, à $60 en entrée et $120 en sortie
- GPT-4 Turbo (sorti en novembre 2023)
  - Beaucoup moins cher, avec un prix tombé à $10 en entrée et $30 en sortie
- GPT-4o (sorti en mai 2024)
  - Le prix a encore baissé à $2.5 en entrée et $10 en sortie, soit plus de 10 fois moins cher que GPT-4
- Ainsi, OpenAI suit un schéma de forte baisse de prix à chaque nouveau modèle
Si GPT-4.5 est actuellement tarifé aussi cher, c’est probablement parce qu’il s’agit d’un lancement initial avec une marge élevée
- OpenAI a indiqué ne pas garantir que le modèle restera dans l’API, et vouloir décider en fonction de la réaction des utilisateurs
Beaucoup d’experts estiment qu’avec l’arrivée de la prochaine génération de GPU Nvidia, Blackwell, il sera possible d’exploiter plus efficacement de plus grands modèles, ce qui fera baisser les coûts
Comme les prix ont diminué de GPT-4 à GPT-4 Turbo puis GPT-4o, il est probable que GPT-4.5 voie aussi son prix baisser plus tard, avec l’arrivée éventuelle d’une version comme GPT-4.5 Turbo

L’avenir du scaling

Le scaling des modèles de langage n’est pas encore mort
- Mais revenir sur les raisons pour lesquelles cette annonce a semblé si étrange est très important pour garder la tête froide face au rythme des progrès de l’IA
- Nous sommes entrés dans une époque où plusieurs types de scaling présentent chacun leurs avantages et leurs limites
En résumé, « GPT-4.5 est étrange, mais en avance sur son temps »
- GPT-4.5 n’est pas simplement une extension de modèle, c’est un signal indiquant qu’il faut de nouvelles formes de scaling
- Cela signifie que l’évolution de l’IA ne peut pas reposer uniquement sur une augmentation de la taille des modèles (Scaling Up), mais doit emprunter d’autres voies — ce que nous savions déjà grâce aux progrès rapides des modèles de raisonnement
- Le véritable impact de GPT-4.5 se manifestera lorsqu’il sera intégré à plusieurs lignes de progrès rapides
Le papier R1 de DeepSeek et les travaux ultérieurs sur le RL concluent que plus le modèle est grand, plus l’entraînement RL est efficace
- Le modèle o4 d’OpenAI pourrait lui aussi être entraîné à partir d’un modèle de raisonnement basé sur GPT-4.5
- Les modèles actuels d’OpenAI n’auraient probablement pas été aussi bons sans GPT-4.5
Il est possible que d’ici un an, la plupart des modèles atteignent l’échelle de GPT-4.5 tout en devenant beaucoup plus rapides
- Des améliorations « équilibrées » aideront à rendre davantage d’applications plus robustes
- OpenAI et d’autres chercheurs des laboratoires d’IA essaient d’étendre les modèles au-delà des limites de l’infrastructure existante
Si un frontier lab ne dépasse pas les limites dans toutes les directions possibles du scaling, alors il ne prend peut-être pas assez de risques
- Il n’est pas nécessaire de publier le modèle, mais il vaut la peine de se demander pourquoi OpenAI a réellement voulu faire cela
- Comme GPT-4.5 a de fortes chances d’être utilisé dans d’autres systèmes internes aujourd’hui, puis bientôt dans d’autres produits externes, publier ce modèle n’est pas un détour mais une étape naturelle vers la suite
GPT-4.5 est un modèle frontier, mais sa sortie n’a rien de particulièrement exaltant
- Le progrès de l’IA n’est pas gratuit et demande beaucoup d’efforts
- L’important n’est pas GPT-4.5 en lui-même, mais la vraie valeur de ce modèle apparaîtra lorsqu’il sera combiné à d’autres technologies

2 commentaires

doolayer 2025-03-03

Comme de nombreux benchmarks sont déjà saturés, il me semble naturel de se concentrer sur l'utilisabilité ou les hallucinations.

GN⁺ 2025-03-03

Avis sur Hacker News

GPT 4.5 a lui aussi une date de coupure des connaissances fixée à octobre 2023
- Il est possible que le pré-entraînement de ce modèle ait été terminé il y a au moins un an
- OpenAI a peut-être choisi de se concentrer sur d'autres projets comme Q-star/strawberry
Les modèles de raisonnement d'OpenAI ne sont peut-être pas aussi puissants qu'espéré
- Des modèles non orientés raisonnement très solides comme Gemini 2.0 Flash, Grok 3 et Sonnet 3.7 sont apparus
- OpenAI a peut-être estimé nécessaire de sortir quelque chose, au moins en apparence
Le prix reste assez mystérieux
- Cela peut refléter un ancien modèle dépourvu des dernières astuces d'efficacité
- GPT-4.5 pourrait être une façon pour OpenAI de déterminer combien les gens sont prêts à payer
Le passage de GPT-4o à 4.5 n'est pas un grand saut
- Le tarif évoque un produit de luxe, mais sans bénéfice luxueux en retour
GPT-4.5 peut traiter des idées complexes et nuancées très rapidement
- Il est largement supérieur aux autres IA sur ce point
GPT-4.5 reste ancré dans le réel sans partir dans des directions étranges
- Il réagit bien aux préférences de ton et comprend bien les nuances
À long terme, il pourrait être difficile de rentabiliser l'infrastructure
- Pour les API de code, Claude 3.5/3.7 risque d'être davantage utilisé
- Pour les API hors code, Gemini 2.0 Flash est moins cher et plus performant
- Côté applications sur abonnement, ChatGPT reste en tête, mais Grok est en concurrence
GPT-4.5 est un peu meilleur en « écriture créative »
- Anthropic a publié de nouveaux modèles qui résolvent des problèmes plus pratiques
On a l'impression d'atteindre les limites de la technologie
Certains estiment que deux phrases se contredisent
- L'augmentation de la taille du modèle n'a pas entraîné d'amélioration nette des capacités
- Le passage de GPT-4o à GPT-4.5 rend pourtant le modèle excellent
On peut se demander si quelqu'un regarde vraiment les derniers pourcentages des benchmarks
- Supposer que les benchmarks sont exacts à 100 % pourrait être une erreur
Tous les modèles GPT4o sur Azure doivent être arrêtés en mai
- Certains se demandent s'il faut migrer vers Anthropic
- Il faudrait des informations sur la date de sortie des nouveaux modèles « o »