Je me demande quel est le moyen le plus simple de faire tourner ce modèle quand on a les poids et le matériel
Même en déchargeant la moitié du modèle en RAM, j’aimerais savoir avec quel outil le charger, que ce soit Ollama, Llama.cpp, ou simplement une bibliothèque Python
Je me demande aussi quelle est la meilleure façon de faire des benchmarks pour le comparer à d’autres modèles, et s’il existe des outils prêts à l’emploi
L’approche llamafile semble la meilleure
Le binaire fonctionne en ligne de commande ou lance un petit serveur web
llamafile propose une build de Mixtral-8x7B-Instruct, donc ce modèle pourra probablement aussi être packagé, éventuellement dans un format quantifié
Il faudrait confirmer avec quelqu’un qui connaît mieux l’écosystème, mais il semble que le nouveau modèle puisse aussi être exécuté tel quel dans llamafile https://github.com/Mozilla-Ocho/llamafile
Pour tester des LLM sur MacBook, LM Studio est excellent : https://lmstudio.ai/
Il est très facile d’y chercher de nouveaux modèles sur Hugging Face et de les tester directement dans l’application
Il y a un utilisateur nommé The Bloke sur Hugging Face, qui met en ligne des modèles pré-quantifiés peu après la sortie des modèles en taille complète
Il suffit de surveiller sa page et d’espérer qu’une version 4 bits tienne sur le GPU
Il est probablement déjà dessus
8x22B, si c’est aussi bon que Mixtral 8x7B, ça promet une période vraiment intéressante
J’ai entendu dire que Command R était le premier open source à battre GPT-4 sur des benchmarks
Il y a déjà un 8x7B, donc il n’y aurait aucune raison d’en vouloir un autre s’il n’était pas meilleur, non ?
C’est un peu hors sujet, mais je me demande si on est enfin revenus au niveau de ChatGPT 4 de l’époque où les gens disaient que c’était magique
Je parle d’avant la forte baisse de performances liée aux ajustements pour le rendre plus politiquement correct
J’ai testé plusieurs LLM sur MacBook, et à mon avis ils restent encore tous très loin derrière, quelle que soit la version de GPT-4 choisie comme comparaison
En revanche, il existe beaucoup de modèles au niveau de GPT-3, ainsi qu’un bon nombre de modèles finement ajustés pour des tâches spécifiques
Ce qui manque surtout aux modèles ouverts, c’est la prise en charge des langues
Je n’ai vu qu’un seul modèle produire des résultats utilisables en norvégien, alors que ça n’a jamais été un problème avec GPT-4
Pour les modèles ouverts, j’estime qu’on a au moins atteint le niveau des premières versions de ChatGPT 4
Est-ce une course pour sortir chacun le meilleur petit modèle avant l’arrivée de Llama 3 ?
262GB, on peut difficilement appeler ça petit
Cela dit, tout le monde semble vouloir publier maintenant, car si les résultats de Llama 3 sont meilleurs, ce sera plus embarrassant de le sortir après coup
Vu les rumeurs annonçant Llama 3 dans les deux prochaines semaines, c’est assez plausible
Mixtral 8x7B était agréable à utiliser, donc j’ai hâte d’essayer ce modèle aussi
J’aimerais qu’il y ait GPT-4 dedans
C’est encore le modèle à battre
La quantification 4 bits devrait nécessiter 85 Go de VRAM, donc ça devrait bien tenir sur quatre GPU grand public de 24 Go, avec un peu de marge pour l’optimisation du cache KV
En 4 bits, cela pourrait même consommer moins que ça
Parce qu’il y a pas mal de paramètres partagés entre les modèles experts
En revanche, si on ne le fait pas tourner avec une taille de batch de 1, cela peut devenir plus pénible qu’une configuration à 8 GPU
Il est quasiment certain que la plupart, voire tous les experts, seront activés au sein du batch
La quantification 2 bits de Mixtral 8x7B restait utilisable pour certains usages même sur un GPU de 8 Go
Je me demande comment ce nouveau modèle se comportera sur des configurations GPU bon marché de 8 à 16 Go
Il est très important de noter qu’il s’agit d’un modèle de base, et non d’un modèle instruction
Pour le chat, ce sont les modèles affinés par instruction qui sont utiles
Je me demande ce que ça fait d’utiliser directement un modèle de base puissant
Est-ce que ça se contente simplement de compléter le texte du prompt comme une suite ?
La sortie tombe juste au moment où Llama 3 doit être publié
Le même jour, Google Gemini Pro a presque proposé un accès ouvert au long contexte multimodal, et OpenAI a aussi mis à jour GPT-4-Turbo, donc la journée a été particulièrement riche en annonces
1 commentaires
Avis sur Hacker News
Même en déchargeant la moitié du modèle en RAM, j’aimerais savoir avec quel outil le charger, que ce soit Ollama, Llama.cpp, ou simplement une bibliothèque Python
Je me demande aussi quelle est la meilleure façon de faire des benchmarks pour le comparer à d’autres modèles, et s’il existe des outils prêts à l’emploi
Le binaire fonctionne en ligne de commande ou lance un petit serveur web
llamafile propose une build de Mixtral-8x7B-Instruct, donc ce modèle pourra probablement aussi être packagé, éventuellement dans un format quantifié
Il faudrait confirmer avec quelqu’un qui connaît mieux l’écosystème, mais il semble que le nouveau modèle puisse aussi être exécuté tel quel dans llamafile
https://github.com/Mozilla-Ocho/llamafile
Il est très facile d’y chercher de nouveaux modèles sur Hugging Face et de les tester directement dans l’application
Il suffit de surveiller sa page et d’espérer qu’une version 4 bits tienne sur le GPU
Il est probablement déjà dessus
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
C’est le post avec un lien vers le tweet plutôt que vers le profil :
https://twitter.com/MistralAI/status/1777869263778291896
Je parle d’avant la forte baisse de performances liée aux ajustements pour le rendre plus politiquement correct
En revanche, il existe beaucoup de modèles au niveau de GPT-3, ainsi qu’un bon nombre de modèles finement ajustés pour des tâches spécifiques
Ce qui manque surtout aux modèles ouverts, c’est la prise en charge des langues
Je n’ai vu qu’un seul modèle produire des résultats utilisables en norvégien, alors que ça n’a jamais été un problème avec GPT-4
Cela dit, tout le monde semble vouloir publier maintenant, car si les résultats de Llama 3 sont meilleurs, ce sera plus embarrassant de le sortir après coup
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
C’est encore le modèle à battre
Parce qu’il y a pas mal de paramètres partagés entre les modèles experts
En revanche, si on ne le fait pas tourner avec une taille de batch de 1, cela peut devenir plus pénible qu’une configuration à 8 GPU
Il est quasiment certain que la plupart, voire tous les experts, seront activés au sein du batch
Je me demande comment ce nouveau modèle se comportera sur des configurations GPU bon marché de 8 à 16 Go
Pour le chat, ce sont les modèles affinés par instruction qui sont utiles
Est-ce que ça se contente simplement de compléter le texte du prompt comme une suite ?