Mistral AI lance son nouveau modèle MOE 8x22B

(twitter.com/MistralAI)

1 points par GN⁺ 2024-04-12 | 1 commentaires | Partager sur WhatsApp

1 commentaires

GN⁺ 2024-04-12

Avis sur Hacker News

Je me demande quel est le moyen le plus simple de faire tourner ce modèle quand on a les poids et le matériel
Même en déchargeant la moitié du modèle en RAM, j’aimerais savoir avec quel outil le charger, que ce soit Ollama, Llama.cpp, ou simplement une bibliothèque Python
Je me demande aussi quelle est la meilleure façon de faire des benchmarks pour le comparer à d’autres modèles, et s’il existe des outils prêts à l’emploi
- L’approche llamafile semble la meilleure
  Le binaire fonctionne en ligne de commande ou lance un petit serveur web
  llamafile propose une build de Mixtral-8x7B-Instruct, donc ce modèle pourra probablement aussi être packagé, éventuellement dans un format quantifié
  Il faudrait confirmer avec quelqu’un qui connaît mieux l’écosystème, mais il semble que le nouveau modèle puisse aussi être exécuté tel quel dans llamafile
  https://github.com/Mozilla-Ocho/llamafile
- Le plus simple est de le faire tourner avec vllm(https://github.com/vllm-project/vllm) sur environ deux A100, et les benchmarks peuvent se faire avec lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
- Pour tester des LLM sur MacBook, LM Studio est excellent : https://lmstudio.ai/
  Il est très facile d’y chercher de nouveaux modèles sur Hugging Face et de les tester directement dans l’application
- Il y a un utilisateur nommé The Bloke sur Hugging Face, qui met en ligne des modèles pré-quantifiés peu après la sortie des modèles en taille complète
  Il suffit de surveiller sa page et d’espérer qu’une version 4 bits tienne sur le GPU
  Il est probablement déjà dessus
- On peut l’essayer ici sur Together :
  https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
Le doublon est ici : https://news.ycombinator.com/item?id=39986047
C’est le post avec un lien vers le tweet plutôt que vers le profil :
https://twitter.com/MistralAI/status/1777869263778291896
8x22B, si c’est aussi bon que Mixtral 8x7B, ça promet une période vraiment intéressante
- J’ai entendu dire que Command R était le premier open source à battre GPT-4 sur des benchmarks
- Il y a déjà un 8x7B, donc il n’y aurait aucune raison d’en vouloir un autre s’il n’était pas meilleur, non ?
C’est un peu hors sujet, mais je me demande si on est enfin revenus au niveau de ChatGPT 4 de l’époque où les gens disaient que c’était magique
Je parle d’avant la forte baisse de performances liée aux ajustements pour le rendre plus politiquement correct
- J’ai testé plusieurs LLM sur MacBook, et à mon avis ils restent encore tous très loin derrière, quelle que soit la version de GPT-4 choisie comme comparaison
  En revanche, il existe beaucoup de modèles au niveau de GPT-3, ainsi qu’un bon nombre de modèles finement ajustés pour des tâches spécifiques
  Ce qui manque surtout aux modèles ouverts, c’est la prise en charge des langues
  Je n’ai vu qu’un seul modèle produire des résultats utilisables en norvégien, alors que ça n’a jamais été un problème avec GPT-4
- Pour les modèles ouverts, j’estime qu’on a au moins atteint le niveau des premières versions de ChatGPT 4
Est-ce une course pour sortir chacun le meilleur petit modèle avant l’arrivée de Llama 3 ?
- 262GB, on peut difficilement appeler ça petit
  Cela dit, tout le monde semble vouloir publier maintenant, car si les résultats de Llama 3 sont meilleurs, ce sera plus embarrassant de le sortir après coup
- Vu les rumeurs annonçant Llama 3 dans les deux prochaines semaines, c’est assez plausible
Mixtral 8x7B était agréable à utiliser, donc j’ai hâte d’essayer ce modèle aussi
Des benchmarks non officiels sont ici :
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
- J’aimerais qu’il y ait GPT-4 dedans
  C’est encore le modèle à battre
La quantification 4 bits devrait nécessiter 85 Go de VRAM, donc ça devrait bien tenir sur quatre GPU grand public de 24 Go, avec un peu de marge pour l’optimisation du cache KV
- En 4 bits, cela pourrait même consommer moins que ça
  Parce qu’il y a pas mal de paramètres partagés entre les modèles experts
  En revanche, si on ne le fait pas tourner avec une taille de batch de 1, cela peut devenir plus pénible qu’une configuration à 8 GPU
  Il est quasiment certain que la plupart, voire tous les experts, seront activés au sein du batch
- La quantification 2 bits de Mixtral 8x7B restait utilisable pour certains usages même sur un GPU de 8 Go
  Je me demande comment ce nouveau modèle se comportera sur des configurations GPU bon marché de 8 à 16 Go
Il est très important de noter qu’il s’agit d’un modèle de base, et non d’un modèle instruction
Pour le chat, ce sont les modèles affinés par instruction qui sont utiles
- Je me demande ce que ça fait d’utiliser directement un modèle de base puissant
  Est-ce que ça se contente simplement de compléter le texte du prompt comme une suite ?
La sortie tombe juste au moment où Llama 3 doit être publié
- Le même jour, Google Gemini Pro a presque proposé un accès ouvert au long contexte multimodal, et OpenAI a aussi mis à jour GPT-4-Turbo, donc la journée a été particulièrement riche en annonces

Mistral AI lance son nouveau modèle MOE 8x22B

À lire aussi

1 commentaires

Avis sur Hacker News