- Grâce à LLaMA.cpp, qui réécrit en pur C++ le code d’inférence de LLaMA, il peut fonctionner sur divers matériels comme le Pixel 5, le MacBook Pro M2 ou le Raspberry Pi
- Les grands modèles nécessitent généralement des GPU coûteux, alors comment cela est-il possible ?
- Les GPU sont avantageux pour le deep learning grâce à leur grande bande passante mémoire et leur puissance de calcul, mais la bande passante mémoire devient souvent le goulot d’étranglement de l’inférence
- En effet, pour effectuer les calculs, les données doivent être transférées de la mémoire HBM (RAM) vers la mémoire on-chip
- La quantization (quantification) est importante pour l’utilisation de la RAM par les poids de LLaMA
- Réduire la précision permet de diminuer drastiquement la quantité de mémoire nécessaire pour stocker le modèle
- Grâce à la quantification, on réduit la mémoire nécessaire pour stocker le modèle, ce qui permet de le faire tenir dans la mémoire des GPU standard de datacenter et des GPU grand public haut de gamme
- La bande passante mémoire est le facteur limitant pour presque toutes les opérations liées à l’échantillonnage des transformers
- En réduisant les besoins mémoire avec des méthodes comme la quantification, le serving devient beaucoup plus facile
- C’est aussi une autre raison de faire de la distillation ou d’« entraîner plus longtemps des modèles plus petits »
3 commentaires
J’ai testé les embeddings en chargeant llama2 avec LlamaCpp sur une machine locale.
https://breezymind.com/llamacpp-embedding
Le premier commentaire sur HN est utile.
Avis Hacker News
fp32sur les CPU x86_64 constitue un inconvénient majeur.