Remplacer GPT-3.5/4 par un Llama 2 directement fine-tuné

(news.ycombinator.com)

3 points par GN⁺ 2023-09-13 | 1 commentaires | Partager sur WhatsApp

En fine-tunant Llama 2 7B sur un exemple de classification de recettes, on obtient sur l’ensemble de test un résultat avec une correspondance de 95 % avec les labels GPT-4
Le fine-tuning consiste à apprendre dans les poids du modèle la manière souhaitée d’exécuter une tâche à partir d’exemples d’entrée/sortie ; cela peut fonctionner avec 50 exemples, mais l’objectif est généralement d’en avoir plus de 1 000
Les prompts restent avantageux pour itérer rapidement et exploiter un seul grand modèle, mais le fine-tuning permet d’adapter fortement même de petits modèles à une tâche précise
Le Llama 7B fine-tuné coûte 50 fois moins cher que GPT-3.5 par token, ce qui peut nettement améliorer le rapport coût/performance sur des tâches suffisamment ciblées
Classer 2 millions de recettes coûte 23 000 dollars avec GPT-4 et plus de 1 000 dollars avec GPT-3.5, tandis que ce modèle fine-tuné traite l’ensemble du jeu de données pour 19 dollars

En quoi le fine-tuning diffère des prompts

Alors que l’intérêt pour le fine-tuning de LLM publics augmente sur Hacker News, un ensemble de notebooks pour un exemple de classification de recettes a été publié
- Les notebooks sont disponibles dans les exemples OpenPipe et couvrent le labellisation des données, le fine-tuning, l’exécution efficace de l’inférence et l’évaluation coût/performance
Le fine-tuning peut être vu comme une forme d’instruction plus forte que les prompts
- Au lieu d’ajouter des consignes textuelles au prompt à chaque fois, on apprend directement au modèle la manière d’exécuter la tâche via des paires d’exemples entrée/sortie
- Cela peut fonctionner avec seulement 50 exemples, mais on préfère si possible en réunir plus de 1 000
Les prompts conservent toutefois de gros avantages en exploitation et en expérimentation
- Il est plus facile et plus rapide de faire évoluer les consignes sans labellisation ni réentraînement
- D’un point de vue opérationnel, il est plus simple de déployer un seul grand modèle et d’en ajuster le comportement que de déployer plusieurs petits modèles fine-tunés
- L’utilisation de chacun de ces petits modèles fine-tunés peut rester faible

Exemple de coût/performance et OpenPipe

Le principal avantage du fine-tuning est de mieux orienter le comportement du modèle, ce qui permet d’utiliser de petits modèles
- De petits modèles peuvent améliorer la vitesse de réponse et réduire les coûts d’inférence
- Le modèle Llama 7B fine-tuné est 50 fois moins cher que GPT-3.5 par token
L’exemple de classification de recettes compare les coûts sur les 2 millions de recettes du jeu de données all-recipes
- Une classification avec GPT-4 coûte 23 000 dollars
- Même avec GPT-3.5, le coût dépasse 1 000 dollars
- Le modèle fine-tuné offre des performances proches de GPT-4 et exécute l’ensemble du jeu de données pour 19 dollars
Sur l’ensemble de test, le modèle 7B entraîné atteint une correspondance de 95 % avec les labels GPT-4
- Les 5 % de cas divergents sont souvent des situations où la bonne réponse est en réalité ambiguë
OpenPipe est un produit open source conçu pour aider les ingénieurs à adopter plus facilement le fine-tuning
- Le projet est publié dans le dépôt GitHub d’OpenPipe
- Les informations fournies sur le fine-tuning lui-même ne dépendent pas du produit OpenPipe

1 commentaires

GN⁺ 2023-09-13

Avis Hacker News

Article sur l’usage du fine-tuning du modèle Llama 2 comme alternative à GPT-3.5/4
Certains utilisateurs ont constaté que, pour les tâches de traduction, GPT-3.5 était 100 fois moins cher que Llama 2, et que Llama 7B fournissait des traductions médiocres
La stratégie tarifaire agressive d’OpenAI pour GPT-3.5 est perçue comme une manière d’encourager la dépendance à leurs modèles plutôt qu’à ceux d’autres fournisseurs
Discussion sur la possibilité d’utiliser les sorties de GPT et d’autres LLM pour entraîner des modèles de remplacement en interne, ce qui pourrait constituer une solution rentable à grande échelle pour ceux qui utilisent normalement l’API
Des doutes sont émis sur l’affirmation selon laquelle un modèle Llama 7B fine-tuné serait 50 fois moins cher que GPT-3.5, certains suggérant que cela n’est possible qu’en auto-hébergement
Des questions sont soulevées sur l’efficacité du fine-tuning par rapport au low-rank adaptation
Certains utilisateurs estiment que la comparaison entre un modèle Llama fine-tuné et GPT-3.5 est trompeuse, en invoquant les difficultés à obtenir une latence d’inférence correcte et à assurer la scalabilité
La qualité d’un modèle Llama 2 fine-tuné n’est pas nécessairement supérieure à celle de ChatGPT ; le fine-tuning exige un jeu de données de haute qualité, difficile à constituer facilement
Des interrogations sont soulevées sur la régularité du function calling de GPT et sur son taux d’erreur
Des utilisateurs se demandent quels sont les meilleurs LLM open source pour fine-tuner leurs propres modèles
Des demandes de clarification portent sur le fait de savoir si le jeu de données de fine-tuning doit être constitué de paires entrée/sortie ou s’il peut être auto-régressif
Des utilisateurs s’intéressent à des ressources pour apprendre à fine-tuner ce type de modèles, en particulier pour les débutants
Cet article est considéré comme une ressource utile pour les personnes qui débutent dans le domaine du ML/LLM.

Remplacer GPT-3.5/4 par un Llama 2 directement fine-tuné

En quoi le fine-tuning diffère des prompts

Exemple de coût/performance et OpenPipe

À lire aussi

1 commentaires

Avis Hacker News