- Les évolutions survenues en 3 jours depuis l’article « SD Moment arrive »
- Exécution sur un Raspberry Pi 4 Go avec llama.cpp. 10 secondes par token
- Exécution devenue simple avec Dalai
- Avec llama.cpp, implémenté à 26 secondes par token sur Pixel 6 puis amélioré à 1 seconde par token sur Pixel 5
- Stanford a publié Alpaca, un fine-tuning de LLaMA 7B
Stanford's Alpaca
- Le principal point faible du modèle LLaMA est le manque d’« instruction tuning » pour les questions-réponses
- L’une des grandes innovations d’OpenAI a été d’ajouter l’instruction tuning à GPT-3
- Stanford fournit ici 52 000 exemples d’entraînement et permet un entraînement pour seulement 100 $
- Le plus petit modèle, 7B, tourne désormais même sur Raspberry Pi et téléphones mobiles, avec des résultats très impressionnants
- Mais ce n’est toujours pas utilisable en production commerciale (impossible pour trois raisons : la licence de LLaMA / les données d’instructions ont été générées à partir d’un modèle OpenAI / aucune mesure de sécurité n’a été conçue)
Qu’est-ce que cela signifie ?
- Le modèle de licence de LLaMA m’importe peu personnellement
- LLaMA a montré qu’il est possible d’entraîner un modèle de langage de classe GPT-3 avec des ressources généralement accessibles
- llama.cpp a montré qu’il est possible d’exécuter des LLM sur du matériel grand public de l’ordre de 4 Go
- Alpaca montre qu’avec 52K exemples et un coût de 100 $, il est possible de fine-tuner un modèle 7B (réduit à 4 Go via une quantification 4bit) et d’obtenir des résultats comparables au récent text-davinci-003
- La comparaison a toutefois été faite avec le modèle 7B complet (13.48GB, virgule flottante 16bit), et non avec le modèle 4 Go réduit en 4bit, et je n’ai pas encore vu de données comparant clairement la différence de qualité entre les deux
Aucun commentaire pour le moment.