11 points par xguru 2023-03-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Les évolutions survenues en 3 jours depuis l’article « SD Moment arrive »
    • Exécution sur un Raspberry Pi 4 Go avec llama.cpp. 10 secondes par token
    • Exécution devenue simple avec Dalai
    • Avec llama.cpp, implémenté à 26 secondes par token sur Pixel 6 puis amélioré à 1 seconde par token sur Pixel 5
    • Stanford a publié Alpaca, un fine-tuning de LLaMA 7B

Stanford's Alpaca

  • Le principal point faible du modèle LLaMA est le manque d’« instruction tuning » pour les questions-réponses
  • L’une des grandes innovations d’OpenAI a été d’ajouter l’instruction tuning à GPT-3
  • Stanford fournit ici 52 000 exemples d’entraînement et permet un entraînement pour seulement 100 $
  • Le plus petit modèle, 7B, tourne désormais même sur Raspberry Pi et téléphones mobiles, avec des résultats très impressionnants
  • Mais ce n’est toujours pas utilisable en production commerciale (impossible pour trois raisons : la licence de LLaMA / les données d’instructions ont été générées à partir d’un modèle OpenAI / aucune mesure de sécurité n’a été conçue)

Qu’est-ce que cela signifie ?

  • Le modèle de licence de LLaMA m’importe peu personnellement
  • LLaMA a montré qu’il est possible d’entraîner un modèle de langage de classe GPT-3 avec des ressources généralement accessibles
  • llama.cpp a montré qu’il est possible d’exécuter des LLM sur du matériel grand public de l’ordre de 4 Go
  • Alpaca montre qu’avec 52K exemples et un coût de 100 $, il est possible de fine-tuner un modèle 7B (réduit à 4 Go via une quantification 4bit) et d’obtenir des résultats comparables au récent text-davinci-003
    • La comparaison a toutefois été faite avec le modèle 7B complet (13.48GB, virgule flottante 16bit), et non avec le modèle 4 Go réduit en 4bit, et je n’ai pas encore vu de données comparant clairement la différence de qualité entre les deux

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.