1 points par GN⁺ 2024-05-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une base de code légère qui permet d’affiner les modèles de Mistral de manière efficace en mémoire et en performances
  • Basé sur LoRA, avec la plupart des poids gelés et seulement 1 à 2 % de poids supplémentaires entraînés sous forme de perturbation matricielle de faible rang
  • Pour maximiser l’efficacité, il est recommandé d’utiliser des GPU A100 ou H100, et la base de code est optimisée pour une configuration d’entraînement multi-GPU sur un seul nœud, mais pour les petits modèles comme 7B, un seul GPU suffit également

Remarque : l’objectif de ce dépôt est de fournir un point d’entrée simple et guidé pour affiner les modèles Mistral. Il est donc assez prescriptif (notamment en ce qui concerne le formatage des données) et ne vise pas à être exhaustif pour plusieurs architectures de modèles ou types de matériel. Pour une approche plus générale, consultez d’autres excellents projets comme torchtune

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.