- L’engouement s’est encore renforcé après la sortie de LLaMA 2
- Presque tous les groupes de modèles open source ont mis à jour leurs modèles en utilisant un nouveau modèle de base
- WizardLM, Airoboros, Hermes, etc.
- Le modèle le plus puissant à l’heure actuelle est Stable Beluga 2 de StabilityAI
- Fine-tuning du modèle Llama2 70B sur un jeu de données de style Orca
- Comparable à ChatGPT
- Les modèles long contexte
- LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
- Des modèles petits mais puissants
- Des modèles de 3B paramètres aussi puissants que des 7B
- Les limites ne sont pas encore atteintes, et il reste encore beaucoup de marge de progression
- SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
- Un modèle open source bat ChatGPT sur le MMLU : llama-2-70b-guanaco-qlora
- Chat multi-tour : llama2-13b-orca-8k-3319
- Les modèles chinois se livrent bataille : CodeGeex2
- Les modèles open source ont-ils atteint le niveau de ChatGPT ?
- Pas encore, mais ils pourraient bientôt y parvenir
3 commentaires
Chacun va sans doute beaucoup se demander comment gagner de l’argent dans son rôle respectif, avec toutes ces questions de monétisation.
Avec la multiplication des services d’IA, ça devient difficile de choisir, entre les services d’IA généralistes et ceux spécialement conçus pour les développeurs~
J’espère que les modèles en coréen progresseront aussi.