L’état actuel des modèles de langage open source

xguru · 2023-08-09T11:03:01+09:00

L’engouement s’est encore renforcé après la sortie de LLaMA 2 Presque tous les groupes de modèles open source ont mis à jour leurs modèles en utilisant un nouveau modèle de base WizardLM, Airoboros, Hermes, etc. Le modèle le plus puissant à l’heure actuelle est Stable Beluga 2 de StabilityAI Fine-tuning du modèle Llama2 70B sur un jeu de données de style Orca Comparable à ChatGPT Les modèles long contexte LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K Des modèles petits mais puissants Des modèles de 3B paramètres aussi puissants que des 7B Les limites ne sont pas encore atteintes, et il reste encore beaucoup de marge de progression SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP) Un modèle open source bat ChatGPT sur le MMLU : llama-2-70b-guanaco-qlora Chat multi-tour : llama2-13b-orca-8k-3319 Les modèles chinois se livrent bataille : CodeGeex2 Les modèles open source ont-ils atteint le niveau de ChatGPT ? Pas encore, mais ils pourraient bientôt y parvenir

(twitter.com/Yampeleg)

22 points par xguru 2023-08-09 | 3 commentaires | Partager sur WhatsApp

L’engouement s’est encore renforcé après la sortie de LLaMA 2
- Presque tous les groupes de modèles open source ont mis à jour leurs modèles en utilisant un nouveau modèle de base
  - WizardLM, Airoboros, Hermes, etc.
- Le modèle le plus puissant à l’heure actuelle est Stable Beluga 2 de StabilityAI
  - Fine-tuning du modèle Llama2 70B sur un jeu de données de style Orca
  - Comparable à ChatGPT
Les modèles long contexte
- LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
Des modèles petits mais puissants
- Des modèles de 3B paramètres aussi puissants que des 7B
- Les limites ne sont pas encore atteintes, et il reste encore beaucoup de marge de progression
- SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
Un modèle open source bat ChatGPT sur le MMLU : llama-2-70b-guanaco-qlora
Chat multi-tour : llama2-13b-orca-8k-3319
Les modèles chinois se livrent bataille : CodeGeex2
Les modèles open source ont-ils atteint le niveau de ChatGPT ?
- Pas encore, mais ils pourraient bientôt y parvenir

3 commentaires

botplaysdice 2023-08-10

Chacun va sans doute beaucoup se demander comment gagner de l’argent dans son rôle respectif, avec toutes ces questions de monétisation.

geekbini 2023-08-09

Avec la multiplication des services d’IA, ça devient difficile de choisir, entre les services d’IA généralistes et ceux spécialement conçus pour les développeurs~

kuroneko 2023-08-09

J’espère que les modèles en coréen progresseront aussi.

L’état actuel des modèles de langage open source

À lire aussi

3 commentaires