GPT-3 n’est désormais plus seul sur le marché
(lastweekin.ai)-
GPT-3 a effectivement provoqué un choc majeur sur le marché de l’IA : un modèle d’IA gigantesque particulièrement performant en « text-in text-out »
-
Comme il était payant, de nombreuses organisations ont commencé à créer leur propre version d’un modèle similaire à GPT-3
→ ce n’est toutefois pas simple, à cause de la puissance de calcul nécessaire. Pour son modèle de 175B paramètres, OpenAI a collaboré avec Microsoft et utilisé 10 000 GPU ainsi que 45 téraoctets de données textuelles
→ en faisant le calcul, entraîner GPT-3 coûte environ 10 à 20 milliards de wons
- Diverses tentatives ont vu le jour
→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG
- Fait surprenant, le premier effort pour créer quelque chose de similaire à GPT-3 vient d’« EleutherAI », un collectif de contributeurs open source
→ ils ont publié « The Pile », un jeu de données proche de celui de GPT-3
→ ensuite, ils ont publié des versions plus petites comme GPT-Neo 1.3B et 2.7B, puis récemment GPT-J-6B avec 6B paramètres
- Six mois après l’annonce de GPT-3, des chercheurs de l’université Tsinghua en Chine et la BAAI (Académie de l’IA de Pékin) ont publié CPM (Chinese Pre-trained Language Model)
→ un modèle de 2.6B paramètres créé à partir de 100GB de textes chinois. Il n’atteint pas GPT-3, mais il se distingue par son entraînement sur des textes chinois
-
Peu après, Huawei a publié PanGu-α, un ensemble de 200B paramètres (entraîné sur 1.1TB de textes chinois)
-
Naver a annoncé HyperCLOVA avec 204B paramètres
-
La startup israélienne AI21 Labs a publié Jurassic-1 avec 178B paramètres
-
NVIDIA et Microsoft ont publié Megatron-Turing NLG, un modèle de 530B paramètres
-
En substance, des modèles de plus en plus vastes, similaires à GPT-3, sont en train d’être créés et continueront probablement à grandir pendant encore plusieurs années
-
La tendance consistant à investir des milliards de dollars pour entraîner ces modèles à grande échelle devrait se maintenir encore un certain temps
→ il est préoccupant que seules les entreprises disposant d’un financement abondant puissent créer de tels modèles
-
Il est difficile de prédire combien de temps cette tendance durera, ou si une découverte majeure au-delà de GPT-3 émergera
-
Nous sommes actuellement au milieu de ce parcours, et il sera intéressant de voir ce qui se passera dans les années à venir
1 commentaires
GPT-Neo : un projet visant à créer un modèle de la taille de GPT-3 en open source et gratuitement https://fr.news.hada.io/topic?id=3599
MS et Nvidia annoncent MT-NLG 530B, le plus grand modèle de langage au monde https://fr.news.hada.io/topic?id=5187