Remplacer GPT-3.5/4 par un Llama 2 directement fine-tuné
(news.ycombinator.com)- En fine-tunant Llama 2 7B sur un exemple de classification de recettes, on obtient sur l’ensemble de test un résultat avec une correspondance de 95 % avec les labels GPT-4
- Le fine-tuning consiste à apprendre dans les poids du modèle la manière souhaitée d’exécuter une tâche à partir d’exemples d’entrée/sortie ; cela peut fonctionner avec 50 exemples, mais l’objectif est généralement d’en avoir plus de 1 000
- Les prompts restent avantageux pour itérer rapidement et exploiter un seul grand modèle, mais le fine-tuning permet d’adapter fortement même de petits modèles à une tâche précise
- Le Llama 7B fine-tuné coûte 50 fois moins cher que GPT-3.5 par token, ce qui peut nettement améliorer le rapport coût/performance sur des tâches suffisamment ciblées
- Classer 2 millions de recettes coûte 23 000 dollars avec GPT-4 et plus de 1 000 dollars avec GPT-3.5, tandis que ce modèle fine-tuné traite l’ensemble du jeu de données pour 19 dollars
En quoi le fine-tuning diffère des prompts
- Alors que l’intérêt pour le fine-tuning de LLM publics augmente sur Hacker News, un ensemble de notebooks pour un exemple de classification de recettes a été publié
- Les notebooks sont disponibles dans les exemples OpenPipe et couvrent le labellisation des données, le fine-tuning, l’exécution efficace de l’inférence et l’évaluation coût/performance
- Le fine-tuning peut être vu comme une forme d’instruction plus forte que les prompts
- Au lieu d’ajouter des consignes textuelles au prompt à chaque fois, on apprend directement au modèle la manière d’exécuter la tâche via des paires d’exemples entrée/sortie
- Cela peut fonctionner avec seulement 50 exemples, mais on préfère si possible en réunir plus de 1 000
- Les prompts conservent toutefois de gros avantages en exploitation et en expérimentation
- Il est plus facile et plus rapide de faire évoluer les consignes sans labellisation ni réentraînement
- D’un point de vue opérationnel, il est plus simple de déployer un seul grand modèle et d’en ajuster le comportement que de déployer plusieurs petits modèles fine-tunés
- L’utilisation de chacun de ces petits modèles fine-tunés peut rester faible
Exemple de coût/performance et OpenPipe
- Le principal avantage du fine-tuning est de mieux orienter le comportement du modèle, ce qui permet d’utiliser de petits modèles
- De petits modèles peuvent améliorer la vitesse de réponse et réduire les coûts d’inférence
- Le modèle Llama 7B fine-tuné est 50 fois moins cher que GPT-3.5 par token
- L’exemple de classification de recettes compare les coûts sur les 2 millions de recettes du jeu de données all-recipes
- Une classification avec GPT-4 coûte 23 000 dollars
- Même avec GPT-3.5, le coût dépasse 1 000 dollars
- Le modèle fine-tuné offre des performances proches de GPT-4 et exécute l’ensemble du jeu de données pour 19 dollars
- Sur l’ensemble de test, le modèle 7B entraîné atteint une correspondance de 95 % avec les labels GPT-4
- Les 5 % de cas divergents sont souvent des situations où la bonne réponse est en réalité ambiguë
- OpenPipe est un produit open source conçu pour aider les ingénieurs à adopter plus facilement le fine-tuning
- Le projet est publié dans le dépôt GitHub d’OpenPipe
- Les informations fournies sur le fine-tuning lui-même ne dépendent pas du produit OpenPipe
1 commentaires
Avis Hacker News