- Il est possible d’exécuter l’inférence d’un petit modèle Llama 2 en pur C.
- Ce code permet d’entraîner l’architecture LLM de Llama 2 dans PyTorch et d’enregistrer les poids dans un fichier binaire brut.
- Les poids peuvent ensuite être chargés dans un fichier C.
- Le fichier C peut exécuter des modèles de taille significative à très grande vitesse.
- Ce projet a été réalisé comme un projet de week-end et n’est pas une bibliothèque de production.
- Vous pouvez télécharger un modèle pré-entraîné et l’exécuter en C.
- Le code C diffuse des tokens bruts en flux, qui peuvent être convertis en texte à l’aide d’un simple wrapper.
- Le code C s’exécute à environ 100 tokens/s sur un MacBook Air M1.
- La sortie du code C est un texte généré à partir du modèle.
- Ce projet se concentre sur une application spécifique et entraîne la même architecture depuis zéro.
- Vous pouvez télécharger le jeu de données source, le pré-tokeniser, puis entraîner le modèle.
- Il est possible d’ajuster les hyperparamètres pour obtenir un meilleur modèle.
- Vous pouvez également exécuter le script d’inférence PyTorch à des fins de comparaison.
- Vous pouvez effectuer des tests détaillés à l’aide du script de test fourni.
- Ce projet nécessite les fichiers
model.bin et model.ckpt issus de l’entraînement PyTorch.
- Le texte mentionne quelques tâches à faire et des questions.
- Ce projet est proposé sous licence MIT.
1 commentaires
Commentaires sur Hacker News