2023, l’année des LLM open

(huggingface.co)

19 points par xguru 2023-12-21 | 1 commentaires | Partager sur WhatsApp

L’intérêt du grand public pour les grands modèles de langage (LLM) a augmenté, et les débats autour de l’open source et du source fermé se sont intensifiés

Recette pour les LLM préentraînés

Architecture du modèle : décrit l’implémentation spécifique et la forme mathématique
Jeu de données d’entraînement : comprend les exemples et les documents sur lesquels le modèle apprend
Tokenizer : définit la manière de convertir le texte en nombres
Hyperparamètres d’entraînement : définissent comment entraîner le modèle
Nécessité de puissance de calcul et de supervision par des experts
Les poids du modèle préentraîné sont utilisés pour l’inférence

2022, de la course à la taille à la course aux données

Jusqu’au début de 2022, la taille du modèle était un facteur important de performance
Sortie de modèles comme BLOOM, OPT et GLM-130B
Une nouvelle recherche de DeepMind a mis en avant l’importance de la taille des données, entraînant un changement de paradigme

2023, l’année des publications ouvertes

L’essor des petits LLM : en février, LLaMA (Meta) ; en avril, Pythia (Eleuther AI) ; en mai, MPT (MosaicML) ; en juin, X-GEN (Salesforce) et Falcon (TIIUAE) ; en juillet, Llama 2 (Meta). En septembre, Qwen (Alibaba) et Mistral (Mistral.AI) ; en novembre, Yi (01-ai) ; en décembre, DeciLM (Deci), Phi-2 (Microsoft) et SOLAR (Upstage) ont été publiés
Les poids des modèles étaient inclus, et leurs bonnes performances sur des modèles de plus petite taille ont conduit à une adoption rapide par la communauté
Les principales différences portent sur les données d’entraînement et la licence du modèle

L’émergence des modèles conversationnels

En 2023, la plupart des modèles préentraînés sont sortis avec une version conversationnelle
Utilisation de méthodes comme le fine-tuning orienté chat, l’instruction tuning, l’apprentissage par renforcement à partir de retours humains (RLHF) et la DPO (Direct Preference Optimization)
Sortie de versions conversationnelles des modèles MPT, Falcon, XGen, Llama-2, Qwen, Yi et DeciLM

Le rôle de la communauté

La communauté et les chercheurs ont utilisé les modèles de base fournis pour développer de nouveaux jeux de données et des modèles fine-tunés
Publication de divers jeux de données et stratégies de fine-tuning
- Human Preference: jeu de données WebGPT d’OpenAI, jeu de données HH-RLHF (Anthropic) et Summarize (OpenAI)
- Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Démocratisation de l’accessibilité

Fusion de modèles/données : combinaison des poids de modèles pour intégrer leurs points forts
PEFT : permet le fine-tuning sans utiliser l’ensemble du modèle
Quantification : technique de réduction de la taille des modèles permettant à davantage de personnes d’utiliser les LLM

Et ensuite ?

Émergence de nouvelles architectures surpassant Transformer et amélioration des performances
Sortie de nouveaux modèles comme Mixtral, Mamba et Striped Hyena

1 commentaires

laeyoung 2023-12-22

C’était agréable de voir sortir autant de bons modèles open source. Que ce soit LLaMA ou les modèles open source proposés pour fonctionner aussi sur le Web, j’en ai téléchargé et testé pas mal. Mais au final, ceux qu’on utilise vraiment, au quotidien, ce sont seulement ChatGPT ou des services SaaS proposés par des acteurs qui s’appuient sur GPT-4, ce qui est un peu ironique. Les modèles open source sont importants, mais je me dis qu’au bout du compte, sans une infrastructure capable de les faire tourner de manière stable et sans des soutiens financiers capables d’assurer ce soutien dans la durée, c’est difficile.