GPT-3 n’est désormais plus seul sur le marché

xguru · 2021-11-10T09:07:01+09:00

GPT-3 a effectivement provoqué un choc majeur sur le marché de l’IA : un modèle d’IA gigantesque particulièrement performant en « text-in text-out » Comme il était payant, de nombreuses organisations ont commencé à créer leur propre version d’un modèle similaire à GPT-3 → ce n’est toutefois pas simple, à cause de la puissance de calcul nécessaire. Pour son modèle de 175B paramètres, OpenAI a collaboré avec Microsoft et utilisé 10 000 GPU ainsi que 45 téraoctets de données textuelles → en faisant le calcul, entraîner GPT-3 coûte environ 10 à 20 milliards de wons Diverses tentatives ont vu le jour → EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG Fait surprenant, le premier effort pour créer quelque chose de similaire à GPT-3 vient d’« EleutherAI », un collectif de contributeurs open source → ils ont publié « The Pile », un jeu de données proche de celui de GPT-3 → ensuite, ils ont publié des versions plus petites comme GPT-Neo 1.3B et 2.7B, puis récemment GPT-J-6B avec 6B paramètres Six mois après l’annonce de GPT-3, des chercheurs de l’université Tsinghua en Chine et la BAAI (Académie de l’IA de Pékin) ont publié CPM (Chinese Pre-trained Language Model) → un modèle de 2.6B paramètres créé à partir de 100GB de textes chinois. Il n’atteint pas GPT-3, mais il se distingue par son entraînement sur des textes chinois Peu après, Huawei a publié PanGu-α, un ensemble de 200B paramètres (entraîné sur 1.1TB de textes chinois) Naver a annoncé HyperCLOVA avec 204B paramètres La startup israélienne AI21 Labs a publié Jurassic-1 avec 178B paramètres NVIDIA et Microsoft ont publié Megatron-Turing NLG, un modèle de 530B paramètres En substance, des modèles de plus en plus vastes, similaires à GPT-3, sont en train d’être créés et continueront probablement à grandir pendant encore plusieurs années La tendance consistant à investir des milliards de dollars pour entraîner ces modèles à grande échelle devrait se maintenir encore un certain temps → il est préoccupant que seules les entreprises disposant d’un financement abondant puissent créer de tels modèles Il est difficile de prédire combien de temps cette tendance durera, ou si une découverte majeure au-delà de GPT-3 émergera Nous sommes actuellement au milieu de ce parcours, et il sera intéressant de voir ce qui se passera dans les années à venir

(lastweekin.ai)

16 points par xguru 2021-11-10 | 1 commentaires | Partager sur WhatsApp

GPT-3 a effectivement provoqué un choc majeur sur le marché de l’IA : un modèle d’IA gigantesque particulièrement performant en « text-in text-out »
Comme il était payant, de nombreuses organisations ont commencé à créer leur propre version d’un modèle similaire à GPT-3

→ ce n’est toutefois pas simple, à cause de la puissance de calcul nécessaire. Pour son modèle de 175B paramètres, OpenAI a collaboré avec Microsoft et utilisé 10 000 GPU ainsi que 45 téraoctets de données textuelles

→ en faisant le calcul, entraîner GPT-3 coûte environ 10 à 20 milliards de wons

Diverses tentatives ont vu le jour

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

Fait surprenant, le premier effort pour créer quelque chose de similaire à GPT-3 vient d’« EleutherAI », un collectif de contributeurs open source

→ ils ont publié « The Pile », un jeu de données proche de celui de GPT-3

→ ensuite, ils ont publié des versions plus petites comme GPT-Neo 1.3B et 2.7B, puis récemment GPT-J-6B avec 6B paramètres

Six mois après l’annonce de GPT-3, des chercheurs de l’université Tsinghua en Chine et la BAAI (Académie de l’IA de Pékin) ont publié CPM (Chinese Pre-trained Language Model)

→ un modèle de 2.6B paramètres créé à partir de 100GB de textes chinois. Il n’atteint pas GPT-3, mais il se distingue par son entraînement sur des textes chinois

Peu après, Huawei a publié PanGu-α, un ensemble de 200B paramètres (entraîné sur 1.1TB de textes chinois)
Naver a annoncé HyperCLOVA avec 204B paramètres
La startup israélienne AI21 Labs a publié Jurassic-1 avec 178B paramètres
NVIDIA et Microsoft ont publié Megatron-Turing NLG, un modèle de 530B paramètres
En substance, des modèles de plus en plus vastes, similaires à GPT-3, sont en train d’être créés et continueront probablement à grandir pendant encore plusieurs années
La tendance consistant à investir des milliards de dollars pour entraîner ces modèles à grande échelle devrait se maintenir encore un certain temps

→ il est préoccupant que seules les entreprises disposant d’un financement abondant puissent créer de tels modèles

Il est difficile de prédire combien de temps cette tendance durera, ou si une découverte majeure au-delà de GPT-3 émergera
Nous sommes actuellement au milieu de ce parcours, et il sera intéressant de voir ce qui se passera dans les années à venir

1 commentaires

xguru 2021-11-10

GPT-Neo : un projet visant à créer un modèle de la taille de GPT-3 en open source et gratuitement https://fr.news.hada.io/topic?id=3599
MS et Nvidia annoncent MT-NLG 530B, le plus grand modèle de langage au monde https://fr.news.hada.io/topic?id=5187

GPT-3 n’est désormais plus seul sur le marché

À lire aussi

1 commentaires