LLaMA-CPU - un fork pour exécuter LLaMA sur CPU
(github.com/markasoftware)- Exécute le modèle LLaMA de Meta sur CPU
- La configuration est presque identique
- Lors de tests avec le modèle 7B, il faut du swap/zram même avec 32 GiB de RAM pour le chargement
- Lors de l’inférence réelle, il n’utilise en pratique qu’environ 20 GiB de RAM ou moins
- Sur un Ryzen 7900X, le modèle 7B peut inférer quelques mots par seconde
Aucun commentaire pour le moment.