GPT-4.5 ou GPT-5 en test sur LMSYS ?

(rentry.co)

3 points par GN⁺ 2024-04-30 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Contexte

Le modèle gpt2-chatbot récemment publié par LMSYS affiche des performances très supérieures à celles du modèle GPT-2 connu jusqu’ici
Il est difficile de trouver des informations sur ce modèle, que ce soit sur le site de LMSYS ou ailleurs
Dans les résultats de l’API de benchmark de LMSYS, ce modèle semble être le seul à être systématiquement exclu

Il affirme être « basé sur GPT-4 » et se désigne comme « ChatGPT »
Il présente des caractéristiques différentes de celles des modèles entraînés sur des jeux de données OpenAI créés par d’autres organisations
Il semble utiliser le tokenizer tiktoken d’OpenAI
Une vulnérabilité de prompt injection propre à OpenAI y a été détectée
Il présente des caractéristiques de sortie différentes de celles des modèles d’autres organisations

Il semble très probable qu’il s’agisse en réalité de GPT-4.5 ou GPT-5. La qualité des sorties progresse fortement, dans une ampleur comparable au saut de GPT-3.5 à GPT-4
Il est aussi possible que LMSYS ait entraîné son propre modèle ou utilisé une approche proche du MoE, mais au vu des liens avec OpenAI, cette hypothèse paraît peu probable

Il semble qu’OpenAI l’utilise via LMSYS pour benchmarker discrètement son dernier modèle GPT
Le but serait d’obtenir des résultats de benchmark en conditions normales, d’éviter des évaluations négatives liées à des attentes excessives et de limiter la vigilance des concurrents

Il est aussi possible qu’il soit réellement basé sur l’architecture GPT-2. Selon des recherches récentes, GPT-2 a montré de meilleures performances que d’autres modèles dans certains domaines
Le fait qu’il se présente comme GPT-4 pourrait s’expliquer par l’utilisation d’un jeu de données généré par GPT-4
Il est également notable que MBZUAI, l’un des sponsors de LMSYS, soit impliqué dans cette recherche

Les spéculations autour de la véritable identité de gpt2-chatbot sont intéressantes. Je partage l’avis selon lequel il s’agit probablement du dernier modèle d’OpenAI
Cela dit, on ne peut pas non plus exclure la possibilité qu’il repose sur l’architecture GPT-2. Les résultats de recherche récents laissent penser que le potentiel de GPT-2 reste élevé
L’hypothèse selon laquelle OpenAI mène discrètement des benchmarks via LMSYS est également convaincante. C’est une stratégie qui permet d’obtenir une évaluation objective tout en évitant la vigilance des concurrents
Il semble probable que diverses expériences et recherches se poursuivent pour élucider la véritable nature de gpt2-chatbot. Cela pourrait offrir un bon aperçu des avancées dans le domaine des grands modèles de langage
Dès le départ, le nom même de « gpt2-chatbot » pourrait avoir été choisi pour donner l’impression qu’il s’agit de GPT-2. On ne peut pas non plus exclure qu’OpenAI l’ait nommé ainsi intentionnellement