6 points par GN⁺ 2024-07-19 | 1 commentaires | Partager sur WhatsApp
  • Lancement de Mistral NeMo, un modèle de 12 milliards de paramètres développé en collaboration avec NVIDIA
  • Offre une large fenêtre de contexte allant jusqu’à 128k tokens
  • Niveau parmi les meilleurs de sa catégorie en raisonnement, connaissances du monde et précision en code
  • Utilise une architecture standard, ce qui permet une adoption facile dans les systèmes utilisant Mistral 7B
  • Publication de checkpoints de base préentraînés et ajustés par instructions sous licence Apache 2.0 afin de favoriser l’adoption par les chercheurs et les entreprises
  • Entraîné avec prise en compte de la quantification, permettant une inférence FP8 sans perte de performance

Modèle multilingue

  • Conçu pour des applications multilingues mondiales
  • Entraîné pour l’appel de fonctions et doté d’une grande fenêtre de contexte
  • Particulièrement performant en anglais, français, allemand, espagnol, italien, portugais, chinois, japonais, coréen, arabe et hindi
  • Vise à fournir un modèle d’IA de pointe aux utilisateurs de toutes les langues

Tekken, un tokenizer plus efficace

  • Utilise Tekken, un nouveau tokenizer basé sur Tiktoken
  • Compresse plus efficacement le texte en langage naturel et le code source dans plus de 100 langues qu’un tokenizer SentencePiece
  • Environ 30 % plus efficace pour le code source, le chinois, l’italien, le français, l’allemand, l’espagnol et le russe
  • Respectivement 2 fois et 3 fois plus efficace en coréen et en arabe
  • Meilleure performance de compression dans environ 85 % des langues par rapport au tokenizer de Llama 3

Affinage par instructions

  • Mistral NeMo passe par des étapes avancées de fine-tuning et d’alignement
  • Nettement meilleur que Mistral 7B pour suivre précisément les instructions, raisonner, gérer des conversations multi-tours et générer du code

Liens

  • Les poids des modèles de base et d’instructions sont hébergés sur HuggingFace
  • Possibilité d’essayer Mistral NeMo avec mistral-inference et de l’ajuster avec mistral-finetune
  • Packagé comme microservice d’inférence NVIDIA NIM, disponible sur ai.nvidia.com

1 commentaires

 
GN⁺ 2024-07-19
Avis sur Hacker News
  • Mistral NeMo est un modèle 12B développé en collaboration avec NVIDIA, offrant une grande fenêtre de contexte allant jusqu’à 128k tokens

    • Il utilise une architecture standard, ce qui le rend facile à utiliser et permet de le substituer facilement dans les systèmes utilisant Mistral 7B
    • Des checkpoints préentraînés sont fournis sous licence Apache 2.0 afin de favoriser son adoption par les chercheurs et les entreprises
    • La prise en compte de la quantification permet une inférence en FP8 sans perte de performances
  • Mistral NeMo utilise un nouveau tokenizer, Tekken, entraîné sur plus de 100 langues, qui compresse le texte et le code source plus efficacement que SentencePiece

    • Une question est soulevée sur les raisons d’un retour à SentencePiece alors que le byte-pair encoding a pourtant été démontré comme étant une méthode d’encodage plus efficace
  • Un billet sur Mistral NeMo est également disponible sur le blog de NVIDIA

    • Il est empaqueté sous forme de microservice d’inférence NVIDIA NIM, offrant une inférence optimisée en performances via le moteur NVIDIA TensorRT-LLM
    • Il est conçu pour tenir dans la mémoire des GPU NVIDIA L40S, NVIDIA GeForce RTX 4090 et NVIDIA RTX 4500
    • Il a été entraîné avec Megatron-LM sur 3 072 GPU H100 80GB Tensor Core
  • Les grands modèles sortent rapidement, ce qui signifie que les entreprises ont trouvé comment faire monter en charge des processus évolutifs

    • Une question est posée sur le fait de savoir si publier des modèles sur HuggingFace constitue réellement un business
    • Le téléchargement des fichiers du modèle représente environ 25 GB, et il s’agit d’un modèle quantifié en 8fp
  • Certains estiment que l’expérience d’inscription à NVIDIA Enterprise pour essayer la version empaquetée « NIM » est peu agréable

    • Il serait préférable, selon eux, de pouvoir télécharger librement les fichiers du modèle
    • Il y a une frustration face au fait que NVIDIA exige une procédure complexe malgré sa position dominante sur le matériel
  • Certains estiment que si Mistral prend vraiment au sérieux le progrès de l’open source, l’entreprise devrait partager le corpus utilisé pour entraîner le modèle

    • Une question est également soulevée sur les raisons pour lesquelles une version GGUF n’est pas prête dès le jour de sortie
  • Une question est posée sur le fait de savoir si l’entraînement multilingue apporte un « crossover »

    • Il y a de la curiosité sur le fait de savoir si ce qui a été appris en allemand peut être exploité lorsqu’il répond à des prompts en anglais
  • Certains disent ne pas bien comprendre le modèle économique consistant à publier gratuitement des modèles d’IA générative open source

    • Une question est posée sur les raisons de proposer gratuitement un modèle entraîné avec 3 072 H100s