Comment réduire les coûts d’IA de 100 $ à 1 $ par jour : affiner Mixtral avec GPT-4

xguru · 2024-01-23T10:11:02+09:00

Une app de découverte de carrière basée sur l’IA a été créée, puis sa croissance explosive a fait grimper les coûts de GPT-4 à plus de 100 $ par jour Méthode utilisée pour réduire les coûts d’IA jusqu’à 99 % tout en diminuant la latence et en maintenant la qualité Utiliser d’abord le modèle le plus puissant (GPT-4) pour produire des résultats, puis s’en servir pour affiner un modèle plus petit Stocker les requêtes/réponses IA de façon à pouvoir les exporter facilement. Utilisation de Helicone AI. Il suffit de remplacer l’API OpenAI pour que les requêtes IA soient enregistrées dans une table Une fois environ 100 à 500 paires requête/réponse enregistrées, les exporter puis nettoyer les données pour obtenir une bonne qualité Utiliser ce jeu de données pour affiner Mixtral 8x7B via un service d’hébergement comme Together/Anyscale Remplacer GPT-4 par le nouveau modèle affiné

(twitter.com/wenquai)

22 points par xguru 2024-01-23 | 4 commentaires | Partager sur WhatsApp

Une app de découverte de carrière basée sur l’IA a été créée, puis sa croissance explosive a fait grimper les coûts de GPT-4 à plus de 100 $ par jour
Méthode utilisée pour réduire les coûts d’IA jusqu’à 99 % tout en diminuant la latence et en maintenant la qualité
- Utiliser d’abord le modèle le plus puissant (GPT-4) pour produire des résultats, puis s’en servir pour affiner un modèle plus petit
- Stocker les requêtes/réponses IA de façon à pouvoir les exporter facilement. Utilisation de Helicone AI. Il suffit de remplacer l’API OpenAI pour que les requêtes IA soient enregistrées dans une table
- Une fois environ 100 à 500 paires requête/réponse enregistrées, les exporter puis nettoyer les données pour obtenir une bonne qualité
- Utiliser ce jeu de données pour affiner Mixtral 8x7B via un service d’hébergement comme Together/Anyscale
- Remplacer GPT-4 par le nouveau modèle affiné

4 commentaires

kuroneko 2024-01-23

Cela veut dire que les conditions d'utilisation de GPT-4 et la licence de Mixtral ont toutes les deux été violées... ? @_@

xguru 2024-01-23

On dirait bien. Comme ce n’est pas quelque chose qui se voit au premier abord, beaucoup de gens semblent réagir ainsi.

kuroneko 2024-01-23

On en voyait circuler de façon plus ou moins confidentielle, ou alors publiés pour la recherche,
mais le voir assumé aussi ouvertement avec un « oui, on l’a utilisé ! » mis en avant, c’est un peu... surprenant.

Ils ne vont rien leur reprocher... ?

xguru 2024-01-23

Commentaires Hacker News

La plupart des entreprises technologiques, hors recherche fondamentale, utilisent GPT-4 ou 3.5 depuis au moins six mois pour générer des données d’entraînement, puis affinent un modèle avec QLoRA sur cette base pour le lancer comme un modèle d’IA « propriétaire ». La direction affirme avoir obtenu de grands résultats et dit que l’entreprise est leader de l’IA dans un « secteur spécifique ». Ce processus ne nécessite presque aucune connaissance en machine learning et peut être réalisé pour moins de 1 000 $ de coûts de cloud computing. Mais en pratique, on obtient un résultat du niveau de GPT-3.5, et il est difficile de rivaliser avec GPT-3.5 sur le plan des coûts, surtout en utilisant des GPU cloud.
J’ai regardé l’application Wanderer de cette personne, et c’est très suspect : aucune condition d’utilisation, aucune politique de confidentialité, aucune tarification claire, et aucune mention de l’IA. L’approche consistant à utiliser GPT-4 est efficace pour faire semblant qu’un modèle est aussi intelligent que GPT-4, mais dans les moments réellement importants, il révèle qu’il s’agit d’un modèle inférieur.
D’après la documentation de Together.ai, Mixtral ne peut pas être utilisé pour du fine-tuning, et il semble qu’ils n’exécutent pas non plus les modèles fine-tunés en serverless. Cela suggère que le récit n’est pas cohérent.
En laissant de côté les questions éthiques et les contraintes limitées, il n’est peut-être pas nécessaire d’utiliser GPT-4 pour ce que l’auteur a fait. En quoi aurait-il été vraiment pire ou plus difficile de générer les 100 premières bonnes paires prompt-réponse avec Mixtral ou 3.5, puis de les ajuster manuellement ?
Je développe une application comme projet secondaire pour résumer du contenu à grande échelle avec l’IA, et j’espère en faire un SaaS générant des revenus. Pour lancer rapidement, je compte utiliser OpenAI dans un premier temps, mais je pense qu’ensuite il sera économiquement et techniquement possible de migrer vers une option de LLM auto-hébergée. Si quelqu’un a de l’expérience sur le sujet, je serais preneur de conseils ou d’astuces.
Je me demande si cela ne viole pas les conditions d’utilisation d’OpenAI.
Demande d’explication sur la manière dont le coût a été réduit à 1 $. GPT-4 a été remplacé par une version ajustée de Mixtral 8x7b, mais cela nécessite plusieurs GPU. Même si le modèle a été quantifié en interne, il y a quand même un coût matériel et d’infrastructure, qui dépassera probablement 1 $. Est-ce qu’il s’agit d’un auto-hébergement ?
Mention de la méthodologie classique de distillation des connaissances. Il est avancé qu’un 8x7b ne serait pas nécessaire ici pour le fine-tuning, et que des modèles phi-2 ou phixtral seront bientôt suffisamment puissants pour ce type de domaines.
J’ai obtenu d’excellents résultats avec openhermes 7b chat sans aucune modification, et cela couvre 90 % des cas d’usage de GPT-4 tout en s’exécutant rapidement. Je le recommande.

Comment réduire les coûts d’IA de 100 $ à 1 $ par jour : affiner Mixtral avec GPT-4

À lire aussi

4 commentaires

Commentaires Hacker News