1 points par GN⁺ 2024-04-12 | 1 commentaires | Partager sur WhatsApp

1 commentaires

 
GN⁺ 2024-04-12
Avis sur Hacker News
  • Je me demande quel est le moyen le plus simple de faire tourner ce modèle quand on a les poids et le matériel
    Même en déchargeant la moitié du modèle en RAM, j’aimerais savoir avec quel outil le charger, que ce soit Ollama, Llama.cpp, ou simplement une bibliothèque Python
    Je me demande aussi quelle est la meilleure façon de faire des benchmarks pour le comparer à d’autres modèles, et s’il existe des outils prêts à l’emploi
    • L’approche llamafile semble la meilleure
      Le binaire fonctionne en ligne de commande ou lance un petit serveur web
      llamafile propose une build de Mixtral-8x7B-Instruct, donc ce modèle pourra probablement aussi être packagé, éventuellement dans un format quantifié
      Il faudrait confirmer avec quelqu’un qui connaît mieux l’écosystème, mais il semble que le nouveau modèle puisse aussi être exécuté tel quel dans llamafile
      https://github.com/Mozilla-Ocho/llamafile
    • Le plus simple est de le faire tourner avec vllm(https://github.com/vllm-project/vllm) sur environ deux A100, et les benchmarks peuvent se faire avec lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
    • Pour tester des LLM sur MacBook, LM Studio est excellent : https://lmstudio.ai/
      Il est très facile d’y chercher de nouveaux modèles sur Hugging Face et de les tester directement dans l’application
    • Il y a un utilisateur nommé The Bloke sur Hugging Face, qui met en ligne des modèles pré-quantifiés peu après la sortie des modèles en taille complète
      Il suffit de surveiller sa page et d’espérer qu’une version 4 bits tienne sur le GPU
      Il est probablement déjà dessus
    • On peut l’essayer ici sur Together :
      https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
  • Le doublon est ici : https://news.ycombinator.com/item?id=39986047
    C’est le post avec un lien vers le tweet plutôt que vers le profil :
    https://twitter.com/MistralAI/status/1777869263778291896
  • 8x22B, si c’est aussi bon que Mixtral 8x7B, ça promet une période vraiment intéressante
    • J’ai entendu dire que Command R était le premier open source à battre GPT-4 sur des benchmarks
    • Il y a déjà un 8x7B, donc il n’y aurait aucune raison d’en vouloir un autre s’il n’était pas meilleur, non ?
  • C’est un peu hors sujet, mais je me demande si on est enfin revenus au niveau de ChatGPT 4 de l’époque où les gens disaient que c’était magique
    Je parle d’avant la forte baisse de performances liée aux ajustements pour le rendre plus politiquement correct
    • J’ai testé plusieurs LLM sur MacBook, et à mon avis ils restent encore tous très loin derrière, quelle que soit la version de GPT-4 choisie comme comparaison
      En revanche, il existe beaucoup de modèles au niveau de GPT-3, ainsi qu’un bon nombre de modèles finement ajustés pour des tâches spécifiques
      Ce qui manque surtout aux modèles ouverts, c’est la prise en charge des langues
      Je n’ai vu qu’un seul modèle produire des résultats utilisables en norvégien, alors que ça n’a jamais été un problème avec GPT-4
    • Pour les modèles ouverts, j’estime qu’on a au moins atteint le niveau des premières versions de ChatGPT 4
  • Est-ce une course pour sortir chacun le meilleur petit modèle avant l’arrivée de Llama 3 ?
    • 262GB, on peut difficilement appeler ça petit
      Cela dit, tout le monde semble vouloir publier maintenant, car si les résultats de Llama 3 sont meilleurs, ce sera plus embarrassant de le sortir après coup
    • Vu les rumeurs annonçant Llama 3 dans les deux prochaines semaines, c’est assez plausible
  • Mixtral 8x7B était agréable à utiliser, donc j’ai hâte d’essayer ce modèle aussi
  • Des benchmarks non officiels sont ici :
    https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
    • J’aimerais qu’il y ait GPT-4 dedans
      C’est encore le modèle à battre
  • La quantification 4 bits devrait nécessiter 85 Go de VRAM, donc ça devrait bien tenir sur quatre GPU grand public de 24 Go, avec un peu de marge pour l’optimisation du cache KV
    • En 4 bits, cela pourrait même consommer moins que ça
      Parce qu’il y a pas mal de paramètres partagés entre les modèles experts
      En revanche, si on ne le fait pas tourner avec une taille de batch de 1, cela peut devenir plus pénible qu’une configuration à 8 GPU
      Il est quasiment certain que la plupart, voire tous les experts, seront activés au sein du batch
    • La quantification 2 bits de Mixtral 8x7B restait utilisable pour certains usages même sur un GPU de 8 Go
      Je me demande comment ce nouveau modèle se comportera sur des configurations GPU bon marché de 8 à 16 Go
  • Il est très important de noter qu’il s’agit d’un modèle de base, et non d’un modèle instruction
    Pour le chat, ce sont les modèles affinés par instruction qui sont utiles
    • Je me demande ce que ça fait d’utiliser directement un modèle de base puissant
      Est-ce que ça se contente simplement de compléter le texte du prompt comme une suite ?
  • La sortie tombe juste au moment où Llama 3 doit être publié
    • Le même jour, Google Gemini Pro a presque proposé un accès ouvert au long contexte multimodal, et OpenAI a aussi mis à jour GPT-4-Turbo, donc la journée a été particulièrement riche en annonces