3 points par GN⁺ 2023-09-13 | 1 commentaires | Partager sur WhatsApp
  • En fine-tunant Llama 2 7B sur un exemple de classification de recettes, on obtient sur l’ensemble de test un résultat avec une correspondance de 95 % avec les labels GPT-4
  • Le fine-tuning consiste à apprendre dans les poids du modèle la manière souhaitée d’exécuter une tâche à partir d’exemples d’entrée/sortie ; cela peut fonctionner avec 50 exemples, mais l’objectif est généralement d’en avoir plus de 1 000
  • Les prompts restent avantageux pour itérer rapidement et exploiter un seul grand modèle, mais le fine-tuning permet d’adapter fortement même de petits modèles à une tâche précise
  • Le Llama 7B fine-tuné coûte 50 fois moins cher que GPT-3.5 par token, ce qui peut nettement améliorer le rapport coût/performance sur des tâches suffisamment ciblées
  • Classer 2 millions de recettes coûte 23 000 dollars avec GPT-4 et plus de 1 000 dollars avec GPT-3.5, tandis que ce modèle fine-tuné traite l’ensemble du jeu de données pour 19 dollars

En quoi le fine-tuning diffère des prompts

  • Alors que l’intérêt pour le fine-tuning de LLM publics augmente sur Hacker News, un ensemble de notebooks pour un exemple de classification de recettes a été publié
    • Les notebooks sont disponibles dans les exemples OpenPipe et couvrent le labellisation des données, le fine-tuning, l’exécution efficace de l’inférence et l’évaluation coût/performance
  • Le fine-tuning peut être vu comme une forme d’instruction plus forte que les prompts
    • Au lieu d’ajouter des consignes textuelles au prompt à chaque fois, on apprend directement au modèle la manière d’exécuter la tâche via des paires d’exemples entrée/sortie
    • Cela peut fonctionner avec seulement 50 exemples, mais on préfère si possible en réunir plus de 1 000
  • Les prompts conservent toutefois de gros avantages en exploitation et en expérimentation
    • Il est plus facile et plus rapide de faire évoluer les consignes sans labellisation ni réentraînement
    • D’un point de vue opérationnel, il est plus simple de déployer un seul grand modèle et d’en ajuster le comportement que de déployer plusieurs petits modèles fine-tunés
    • L’utilisation de chacun de ces petits modèles fine-tunés peut rester faible

Exemple de coût/performance et OpenPipe

  • Le principal avantage du fine-tuning est de mieux orienter le comportement du modèle, ce qui permet d’utiliser de petits modèles
    • De petits modèles peuvent améliorer la vitesse de réponse et réduire les coûts d’inférence
    • Le modèle Llama 7B fine-tuné est 50 fois moins cher que GPT-3.5 par token
  • L’exemple de classification de recettes compare les coûts sur les 2 millions de recettes du jeu de données all-recipes
    • Une classification avec GPT-4 coûte 23 000 dollars
    • Même avec GPT-3.5, le coût dépasse 1 000 dollars
    • Le modèle fine-tuné offre des performances proches de GPT-4 et exécute l’ensemble du jeu de données pour 19 dollars
  • Sur l’ensemble de test, le modèle 7B entraîné atteint une correspondance de 95 % avec les labels GPT-4
    • Les 5 % de cas divergents sont souvent des situations où la bonne réponse est en réalité ambiguë
  • OpenPipe est un produit open source conçu pour aider les ingénieurs à adopter plus facilement le fine-tuning
    • Le projet est publié dans le dépôt GitHub d’OpenPipe
    • Les informations fournies sur le fine-tuning lui-même ne dépendent pas du produit OpenPipe

1 commentaires

 
GN⁺ 2023-09-13
Avis Hacker News
  • Article sur l’usage du fine-tuning du modèle Llama 2 comme alternative à GPT-3.5/4
  • Certains utilisateurs ont constaté que, pour les tâches de traduction, GPT-3.5 était 100 fois moins cher que Llama 2, et que Llama 7B fournissait des traductions médiocres
  • La stratégie tarifaire agressive d’OpenAI pour GPT-3.5 est perçue comme une manière d’encourager la dépendance à leurs modèles plutôt qu’à ceux d’autres fournisseurs
  • Discussion sur la possibilité d’utiliser les sorties de GPT et d’autres LLM pour entraîner des modèles de remplacement en interne, ce qui pourrait constituer une solution rentable à grande échelle pour ceux qui utilisent normalement l’API
  • Des doutes sont émis sur l’affirmation selon laquelle un modèle Llama 7B fine-tuné serait 50 fois moins cher que GPT-3.5, certains suggérant que cela n’est possible qu’en auto-hébergement
  • Des questions sont soulevées sur l’efficacité du fine-tuning par rapport au low-rank adaptation
  • Certains utilisateurs estiment que la comparaison entre un modèle Llama fine-tuné et GPT-3.5 est trompeuse, en invoquant les difficultés à obtenir une latence d’inférence correcte et à assurer la scalabilité
  • La qualité d’un modèle Llama 2 fine-tuné n’est pas nécessairement supérieure à celle de ChatGPT ; le fine-tuning exige un jeu de données de haute qualité, difficile à constituer facilement
  • Des interrogations sont soulevées sur la régularité du function calling de GPT et sur son taux d’erreur
  • Des utilisateurs se demandent quels sont les meilleurs LLM open source pour fine-tuner leurs propres modèles
  • Des demandes de clarification portent sur le fait de savoir si le jeu de données de fine-tuning doit être constitué de paires entrée/sortie ou s’il peut être auto-régressif
  • Des utilisateurs s’intéressent à des ressources pour apprendre à fine-tuner ce type de modèles, en particulier pour les débutants
  • Cet article est considéré comme une ressource utile pour les personnes qui débutent dans le domaine du ML/LLM.