1 points par GN⁺ 2024-04-12 | 1 commentaires | Partager sur WhatsApp

1 commentaires

 
GN⁺ 2024-04-12
Avis sur Hacker News
  • Pour exécuter le modèle, il est possible d'utiliser des outils comme Ollama, Llama.cpp ou des bibliothèques Python. Il est également possible de charger environ la moitié du modèle en RAM.
  • Pour comparer les performances du modèle, on peut utiliser les benchmarks non officiels fournis sur Hugging Face. Il faut toutefois noter qu'ils concernent le modèle de base, et qu'il existe donc une différence avec les modèles instruct fine-tunés utilisés en pratique pour le chat.
  • Si le modèle Mixtral-8x22B-v0.1 offre des performances aussi bonnes que l'ancien Mixtral 8x7b, c'est un modèle très prometteur.
  • Certains s'interrogent sur la possibilité de retrouver le niveau de performance pour lequel ChatGPT 4 avait été initialement jugé comme « fonctionnant comme par magie ». Il y a une certaine déception face à l'idée que ses performances aient été dégradées au nom du politiquement correct.
  • On a l'impression que, avant la sortie de Llama3, tout le monde est en compétition pour proposer le meilleur petit modèle.
  • Une quantification en 4 bits nécessite 85 Go de VRAM, ce qui permet de le faire tourner avec 4 GPU grand public de 24 Go. Il reste même de la marge pour optimiser le cache KV.
  • Il est étrange que, plus d'un jour après la publication des poids du modèle, Mistral n'ait toujours fait aucune annonce officielle ni fourni de model card, et que le modèle ne soit même pas disponible sur la plateforme de Mistral elle-même.