Alpaca et l’accélération du développement des LLM on-device

xguru · 2023-03-15T11:19:23+09:00

Les évolutions survenues en 3 jours depuis l’article « SD Moment arrive » Exécution sur un Raspberry Pi 4 Go avec llama.cpp. 10 secondes par token Exécution devenue simple avec Dalai Avec llama.cpp, implémenté à 26 secondes par token sur Pixel 6 puis amélioré à 1 seconde par token sur Pixel 5 Stanford a publié Alpaca, un fine-tuning de LLaMA 7B Stanford's Alpaca Le principal point faible du modèle LLaMA est le manque d’« instruction tuning » pour les questions-réponses L’une des grandes innovations d’OpenAI a été d’ajouter l’instruction tuning à GPT-3 Stanford fournit ici 52 000 exemples d’entraînement et permet un entraînement pour seulement 100 $ Le plus petit modèle, 7B, tourne désormais même sur Raspberry Pi et téléphones mobiles, avec des résultats très impressionnants Mais ce n’est toujours pas utilisable en production commerciale (impossible pour trois raisons : la licence de LLaMA / les données d’instructions ont été générées à partir d’un modèle OpenAI / aucune mesure de sécurité n’a été conçue) Qu’est-ce que cela signifie ? Le modèle de licence de LLaMA m’importe peu personnellement LLaMA a montré qu’il est possible d’entraîner un modèle de langage de classe GPT-3 avec des ressources généralement accessibles llama.cpp a montré qu’il est possible d’exécuter des LLM sur du matériel grand public de l’ordre de 4 Go Alpaca montre qu’avec 52K exemples et un coût de 100 $, il est possible de fine-tuner un modèle 7B (réduit à 4 Go via une quantification 4bit) et d’obtenir des résultats comparables au récent text-davinci-003 La comparaison a toutefois été faite avec le modèle 7B complet (13.48GB, virgule flottante 16bit), et non avec le modèle 4 Go réduit en 4bit, et je n’ai pas encore vu de données comparant clairement la différence de qualité entre les deux

(simonwillison.net)

11 points par xguru 2023-03-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les évolutions survenues en 3 jours depuis l’article « SD Moment arrive »
- Exécution sur un Raspberry Pi 4 Go avec llama.cpp. 10 secondes par token
- Exécution devenue simple avec Dalai
- Avec llama.cpp, implémenté à 26 secondes par token sur Pixel 6 puis amélioré à 1 seconde par token sur Pixel 5
- Stanford a publié Alpaca, un fine-tuning de LLaMA 7B

Stanford's Alpaca

Le principal point faible du modèle LLaMA est le manque d’« instruction tuning » pour les questions-réponses
L’une des grandes innovations d’OpenAI a été d’ajouter l’instruction tuning à GPT-3
Stanford fournit ici 52 000 exemples d’entraînement et permet un entraînement pour seulement 100 $
Le plus petit modèle, 7B, tourne désormais même sur Raspberry Pi et téléphones mobiles, avec des résultats très impressionnants
Mais ce n’est toujours pas utilisable en production commerciale (impossible pour trois raisons : la licence de LLaMA / les données d’instructions ont été générées à partir d’un modèle OpenAI / aucune mesure de sécurité n’a été conçue)

Qu’est-ce que cela signifie ?

Le modèle de licence de LLaMA m’importe peu personnellement
LLaMA a montré qu’il est possible d’entraîner un modèle de langage de classe GPT-3 avec des ressources généralement accessibles
llama.cpp a montré qu’il est possible d’exécuter des LLM sur du matériel grand public de l’ordre de 4 Go
Alpaca montre qu’avec 52K exemples et un coût de 100 $, il est possible de fine-tuner un modèle 7B (réduit à 4 Go via une quantification 4bit) et d’obtenir des résultats comparables au récent text-davinci-003
- La comparaison a toutefois été faite avec le modèle 7B complet (13.48GB, virgule flottante 16bit), et non avec le modèle 4 Go réduit en 4bit, et je n’ai pas encore vu de données comparant clairement la différence de qualité entre les deux

Alpaca et l’accélération du développement des LLM on-device

Stanford's Alpaca

Qu’est-ce que cela signifie ?

À lire aussi

Aucun commentaire pour le moment.