- L’intégralité du code source, des poids du modèle et des jeux de données d’entraînement est publiée sous licence Apache-2.0
- 4 composants principaux
- Un LLM orienté instructions, obtenu par fine-tuning de GPT-NEOX-20B sur 43 millions de jeux d’instructions
- Une recette de personnalisation permettant un fine-tuning adapté à ses propres tâches
- Un système de retrieval extensible capable d’enrichir les réponses en récupérant des informations depuis un dépôt de documents, des API et des sources pouvant être mises à jour en temps réel au moment de l’inférence
- Un modèle de modération conçu pour filtrer les questions auxquelles le bot répondra, obtenu par fine-tuning de GPT-JT-6B
- Collaboration entre LAION et Ontocord : jeu de données OIG (publié séparément) comprenant 43 millions d’instructions
Aucun commentaire pour le moment.