16 points par xguru 2021-11-10 | 1 commentaires | Partager sur WhatsApp
  • GPT-3 a effectivement provoqué un choc majeur sur le marché de l’IA : un modèle d’IA gigantesque particulièrement performant en « text-in text-out »

  • Comme il était payant, de nombreuses organisations ont commencé à créer leur propre version d’un modèle similaire à GPT-3

→ ce n’est toutefois pas simple, à cause de la puissance de calcul nécessaire. Pour son modèle de 175B paramètres, OpenAI a collaboré avec Microsoft et utilisé 10 000 GPU ainsi que 45 téraoctets de données textuelles

→ en faisant le calcul, entraîner GPT-3 coûte environ 10 à 20 milliards de wons

  • Diverses tentatives ont vu le jour

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

  • Fait surprenant, le premier effort pour créer quelque chose de similaire à GPT-3 vient d’« EleutherAI », un collectif de contributeurs open source

→ ils ont publié « The Pile », un jeu de données proche de celui de GPT-3

→ ensuite, ils ont publié des versions plus petites comme GPT-Neo 1.3B et 2.7B, puis récemment GPT-J-6B avec 6B paramètres

  • Six mois après l’annonce de GPT-3, des chercheurs de l’université Tsinghua en Chine et la BAAI (Académie de l’IA de Pékin) ont publié CPM (Chinese Pre-trained Language Model)

→ un modèle de 2.6B paramètres créé à partir de 100GB de textes chinois. Il n’atteint pas GPT-3, mais il se distingue par son entraînement sur des textes chinois

  • Peu après, Huawei a publié PanGu-α, un ensemble de 200B paramètres (entraîné sur 1.1TB de textes chinois)

  • Naver a annoncé HyperCLOVA avec 204B paramètres

  • La startup israélienne AI21 Labs a publié Jurassic-1 avec 178B paramètres

  • NVIDIA et Microsoft ont publié Megatron-Turing NLG, un modèle de 530B paramètres

  • En substance, des modèles de plus en plus vastes, similaires à GPT-3, sont en train d’être créés et continueront probablement à grandir pendant encore plusieurs années

  • La tendance consistant à investir des milliards de dollars pour entraîner ces modèles à grande échelle devrait se maintenir encore un certain temps

→ il est préoccupant que seules les entreprises disposant d’un financement abondant puissent créer de tels modèles

  • Il est difficile de prédire combien de temps cette tendance durera, ou si une découverte majeure au-delà de GPT-3 émergera

  • Nous sommes actuellement au milieu de ce parcours, et il sera intéressant de voir ce qui se passera dans les années à venir

1 commentaires

 
xguru 2021-11-10