Lancement de Mistral NeMo

(mistral.ai)

6 points par GN⁺ 2024-07-19 | 1 commentaires | Partager sur WhatsApp

Lancement de Mistral NeMo, un modèle de 12 milliards de paramètres développé en collaboration avec NVIDIA
Offre une large fenêtre de contexte allant jusqu’à 128k tokens
Niveau parmi les meilleurs de sa catégorie en raisonnement, connaissances du monde et précision en code
Utilise une architecture standard, ce qui permet une adoption facile dans les systèmes utilisant Mistral 7B
Publication de checkpoints de base préentraînés et ajustés par instructions sous licence Apache 2.0 afin de favoriser l’adoption par les chercheurs et les entreprises
Entraîné avec prise en compte de la quantification, permettant une inférence FP8 sans perte de performance

Modèle multilingue

Conçu pour des applications multilingues mondiales
Entraîné pour l’appel de fonctions et doté d’une grande fenêtre de contexte
Particulièrement performant en anglais, français, allemand, espagnol, italien, portugais, chinois, japonais, coréen, arabe et hindi
Vise à fournir un modèle d’IA de pointe aux utilisateurs de toutes les langues

Tekken, un tokenizer plus efficace

Utilise Tekken, un nouveau tokenizer basé sur Tiktoken
Compresse plus efficacement le texte en langage naturel et le code source dans plus de 100 langues qu’un tokenizer SentencePiece
Environ 30 % plus efficace pour le code source, le chinois, l’italien, le français, l’allemand, l’espagnol et le russe
Respectivement 2 fois et 3 fois plus efficace en coréen et en arabe
Meilleure performance de compression dans environ 85 % des langues par rapport au tokenizer de Llama 3

Affinage par instructions

Mistral NeMo passe par des étapes avancées de fine-tuning et d’alignement
Nettement meilleur que Mistral 7B pour suivre précisément les instructions, raisonner, gérer des conversations multi-tours et générer du code

Liens

Les poids des modèles de base et d’instructions sont hébergés sur HuggingFace
Possibilité d’essayer Mistral NeMo avec mistral-inference et de l’ajuster avec mistral-finetune
Packagé comme microservice d’inférence NVIDIA NIM, disponible sur ai.nvidia.com

1 commentaires

GN⁺ 2024-07-19

Avis sur Hacker News

Mistral NeMo est un modèle 12B développé en collaboration avec NVIDIA, offrant une grande fenêtre de contexte allant jusqu’à 128k tokens
- Il utilise une architecture standard, ce qui le rend facile à utiliser et permet de le substituer facilement dans les systèmes utilisant Mistral 7B
- Des checkpoints préentraînés sont fournis sous licence Apache 2.0 afin de favoriser son adoption par les chercheurs et les entreprises
- La prise en compte de la quantification permet une inférence en FP8 sans perte de performances
Mistral NeMo utilise un nouveau tokenizer, Tekken, entraîné sur plus de 100 langues, qui compresse le texte et le code source plus efficacement que SentencePiece
- Une question est soulevée sur les raisons d’un retour à SentencePiece alors que le byte-pair encoding a pourtant été démontré comme étant une méthode d’encodage plus efficace
Un billet sur Mistral NeMo est également disponible sur le blog de NVIDIA
- Il est empaqueté sous forme de microservice d’inférence NVIDIA NIM, offrant une inférence optimisée en performances via le moteur NVIDIA TensorRT-LLM
- Il est conçu pour tenir dans la mémoire des GPU NVIDIA L40S, NVIDIA GeForce RTX 4090 et NVIDIA RTX 4500
- Il a été entraîné avec Megatron-LM sur 3 072 GPU H100 80GB Tensor Core
Les grands modèles sortent rapidement, ce qui signifie que les entreprises ont trouvé comment faire monter en charge des processus évolutifs
- Une question est posée sur le fait de savoir si publier des modèles sur HuggingFace constitue réellement un business
- Le téléchargement des fichiers du modèle représente environ 25 GB, et il s’agit d’un modèle quantifié en 8fp
Certains estiment que l’expérience d’inscription à NVIDIA Enterprise pour essayer la version empaquetée « NIM » est peu agréable
- Il serait préférable, selon eux, de pouvoir télécharger librement les fichiers du modèle
- Il y a une frustration face au fait que NVIDIA exige une procédure complexe malgré sa position dominante sur le matériel
Certains estiment que si Mistral prend vraiment au sérieux le progrès de l’open source, l’entreprise devrait partager le corpus utilisé pour entraîner le modèle
- Une question est également soulevée sur les raisons pour lesquelles une version GGUF n’est pas prête dès le jour de sortie
Une question est posée sur le fait de savoir si l’entraînement multilingue apporte un « crossover »
- Il y a de la curiosité sur le fait de savoir si ce qui a été appris en allemand peut être exploité lorsqu’il répond à des prompts en anglais
Certains disent ne pas bien comprendre le modèle économique consistant à publier gratuitement des modèles d’IA générative open source
- Une question est posée sur les raisons de proposer gratuitement un modèle entraîné avec 3 072 H100s

Lancement de Mistral NeMo

Modèle multilingue

Tekken, un tokenizer plus efficace

Affinage par instructions

Liens

À lire aussi

1 commentaires

Avis sur Hacker News