26 points par xguru 2024-02-29 | 1 commentaires | Partager sur WhatsApp

Synthèse des réponses à une question publiée sur HN

  • Avoir aidé des dizaines de clients à passer de GPT-4/GPT-3.5 à leurs propres modèles fine-tunés via OpenPipe
    • La réaction la plus fréquente est : « Waouh, je ne pensais pas que ça marcherait aussi bien avec si peu d’effort »
    • Pour la plupart des tâches, un Mistral 7B fine-tuné surpasse GPT-3.5 pour un coût bien inférieur
    • Dans certains cas d’usage, il atteint des performances comparables ou supérieures à GPT-4 (en particulier pour des tâches comme la classification, l’extraction d’informations et le résumé)
  • Utilisation de Mistral-Instruct-0.1 pour résumer des appels/emails, de Mixtral pour l’analyse de contrats, et d’OpenChat pour renforcer un agent chatbot avec des outils RAG
    • L’expérience a été excellente, et le compromis INT8 reste acceptable jusqu’à ce que le matériel FP8 (FP4) soit plus répandu et moins cher
    • Les coûts on-premise ont déjà été amortis grâce à l’utilisation d’anciens équipements A100 et V100 pour exécuter des millions d’interactions
  • Utilisation de Continue avec Ollama, avec deepseek-coder 7b comme LLM principal. Cette configuration est aussi bonne que ChatGPT 4, privilégie le local et donne globalement satisfaction
  • Un LLM a été ajusté pour effectuer des tâches techniques, avec de très bons résultats. En revanche, l’évaluation d’un LLM s’est révélée étonnamment difficile, et GPT-4 n’est pas jugé si remarquable de manière générale
  • Pour l’extraction ou le traitement de données sur plus de 10 000 enregistrements, préférence pour un modèle local. Un service hébergé serait à ce stade lent et fragile. Un Mistral 7B fine-tuné (OpenChat étant le meilleur) traite rapidement les données. ChatGPT-4 est utilisé pour résumer l’information de prompts complexes, puis l’exécution se fait sur le modèle local. La situation devrait continuer à s’améliorer
  • Dans des applications et produits enterprise, prise en charge à la fois de l’API d’OpenAI et de bibliothèques on-device (comme llama.cpp). L’API et la bibliothèque étant très similaires, le passage de l’une à l’autre est presque transparent pour l’utilisateur. La prise en charge d’API d’autres plateformes est aussi prévue prochainement, avec une intégration aussi simple que celle d’OpenAI
  • Utilisation de Mistral 7B pendant un vol sans wifi : assez bon pour trouver les informations nécessaires, mais résultats inégaux lorsqu’il faut fournir des instructions étape par étape
  • Pendant le développement de Double.bot, plusieurs modèles ont été testés avant un retour final à gpt4. Les autres modèles sont intéressants, mais manquer 1 question sur 100 que gpt4 résout reste frustrant. Aujourd’hui, davantage de valeur est trouvée dans les fonctionnalités construites autour du modèle, ce qui corrige des problèmes de GitHub copilot (autocomplétion qui ferme correctement les parenthèses, import automatique lors de l’acceptation d’une suggestion, désactivation des suggestions lors de l’écriture de commentaires pour éviter les interruptions, complétion au milieu d’une ligne, etc.). Espoir que les modèles open source rattrapent gpt4 dans les 6 prochains mois
  • De manière générale, Llama 2 est jugé assez mauvais, surtout dans les langues autres que l’anglais. Très bons résultats obtenus avec Mixtral pour le chat. Bien sûr, comparés au vrai ChatGPT, tous donnent une impression de Frankenstein : parfois proches et efficaces, puis parfois complètement ratés, avec des sorties absurdes ou des artefacts qui font se demander si le fine-tuning n’a pas été négligé
  • Une première étape est réalisée avec un modèle maison, puis une escalade vers GPT est effectuée si le résultat du modèle interne n’est pas suffisamment fiable
  • En 2024, il est prévu que bien plus de gens quittent OpenAI à cause des coûts et de la latence, malgré des concurrents moins éprouvés ou moins scalés. Vitesse et qualité étant souvent en tension, plusieurs fournisseurs ont été vus comme plus de 3 fois plus rapides qu’OpenAI tout en offrant plus d’un tiers de sa qualité
  • Utilisation de Mixtral 8x7b (q5) pour des cas d’usage comme le scripting, la recherche d’idées et/ou les définitions qui demandent toujours une vérification factuelle. En ce moment, usage de lmstudio sur un M2 avec 96 Go de RAM. Un passage vers Ollama ou une autre solution OSS est cependant envisagé

1 commentaires

 
nullptr 2024-02-29

Comme il s’agit de HN, il faut probablement garder à l’esprit que cela se base sur l’anglais.