ChatGPT est un modèle de 20B
(arxiv.org)Dans l’article « CodeFusion: A Pre-trained Diffusion Model for Code Generation », soumis par Microsoft Research à l’EMNLP 2023, le nombre de paramètres de ChatGPT (gpt-3.5-turbo) a été révélé à 20B.
- T5 (
t5-large) : 770M - CodeT5 (
codet5-large) : 770M - GPT3 (
text-davinci-003) : 175B - ChatGPT (
gpt-turbo-3.5) : 20B
5 commentaires
Cette taille est-elle crédible ? D'après ce que disent les gens qui travaillent dans l'IA, ils en étaient stupéfaits...
All you need is 4090
À l’origine, la taille des paramètres de GPT-3.5 n’avait pas non plus été rendue publique ?
Je pensais simplement qu’il s’agissait de GPT-3 175B avec du RLHF, mais apparemment ce n’était pas le cas...
https://arxiv.org/abs/2310.17680v1 La v1 est encore consultable, apparemment
« There are some errors in the paper and we need to retract it », dit-il.
Je ne sais pas où se trouve l’erreur, mais si seulement quelques chiffres sont faux, ils auront sans doute simplement fait une révision… donc il est probable que 20B soit correct, non ?