- L’intérêt du grand public pour les grands modèles de langage (LLM) a augmenté, et les débats autour de l’open source et du source fermé se sont intensifiés
Recette pour les LLM préentraînés
- Architecture du modèle : décrit l’implémentation spécifique et la forme mathématique
- Jeu de données d’entraînement : comprend les exemples et les documents sur lesquels le modèle apprend
- Tokenizer : définit la manière de convertir le texte en nombres
- Hyperparamètres d’entraînement : définissent comment entraîner le modèle
- Nécessité de puissance de calcul et de supervision par des experts
- Les poids du modèle préentraîné sont utilisés pour l’inférence
2022, de la course à la taille à la course aux données
- Jusqu’au début de 2022, la taille du modèle était un facteur important de performance
- Sortie de modèles comme BLOOM, OPT et GLM-130B
- Une nouvelle recherche de DeepMind a mis en avant l’importance de la taille des données, entraînant un changement de paradigme
2023, l’année des publications ouvertes
- L’essor des petits LLM : en février, LLaMA (Meta) ; en avril, Pythia (Eleuther AI) ; en mai, MPT (MosaicML) ; en juin, X-GEN (Salesforce) et Falcon (TIIUAE) ; en juillet, Llama 2 (Meta). En septembre, Qwen (Alibaba) et Mistral (Mistral.AI) ; en novembre, Yi (01-ai) ; en décembre, DeciLM (Deci), Phi-2 (Microsoft) et SOLAR (Upstage) ont été publiés
- Les poids des modèles étaient inclus, et leurs bonnes performances sur des modèles de plus petite taille ont conduit à une adoption rapide par la communauté
- Les principales différences portent sur les données d’entraînement et la licence du modèle
L’émergence des modèles conversationnels
- En 2023, la plupart des modèles préentraînés sont sortis avec une version conversationnelle
- Utilisation de méthodes comme le fine-tuning orienté chat, l’instruction tuning, l’apprentissage par renforcement à partir de retours humains (RLHF) et la DPO (Direct Preference Optimization)
- Sortie de versions conversationnelles des modèles MPT, Falcon, XGen, Llama-2, Qwen, Yi et DeciLM
Le rôle de la communauté
- La communauté et les chercheurs ont utilisé les modèles de base fournis pour développer de nouveaux jeux de données et des modèles fine-tunés
- Publication de divers jeux de données et stratégies de fine-tuning
- Human Preference: jeu de données WebGPT d’OpenAI, jeu de données HH-RLHF (Anthropic) et Summarize (OpenAI)
- Instruction : Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..
Démocratisation de l’accessibilité
- Fusion de modèles/données : combinaison des poids de modèles pour intégrer leurs points forts
- PEFT : permet le fine-tuning sans utiliser l’ensemble du modèle
- Quantification : technique de réduction de la taille des modèles permettant à davantage de personnes d’utiliser les LLM
Et ensuite ?
- Émergence de nouvelles architectures surpassant Transformer et amélioration des performances
- Sortie de nouveaux modèles comme Mixtral, Mamba et Striped Hyena
1 commentaires
C’était agréable de voir sortir autant de bons modèles open source. Que ce soit LLaMA ou les modèles open source proposés pour fonctionner aussi sur le Web, j’en ai téléchargé et testé pas mal. Mais au final, ceux qu’on utilise vraiment, au quotidien, ce sont seulement ChatGPT ou des services SaaS proposés par des acteurs qui s’appuient sur GPT-4, ce qui est un peu ironique. Les modèles open source sont importants, mais je me dis qu’au bout du compte, sans une infrastructure capable de les faire tourner de manière stable et sans des soutiens financiers capables d’assurer ce soutien dans la durée, c’est difficile.