Mistral AI ouvre un accès anticipé à ses premiers endpoints d’IA

(mistral.ai)

2 points par GN⁺ 2023-12-12 | 1 commentaires | Partager sur WhatsApp

Mistral AI a ouvert la bêta de la plateforme, qui permet aux développeurs de déployer et personnaliser des modèles génératifs ouverts en production
La configuration initiale comprend trois endpoints de chat pour traiter des instructions textuelles et un endpoint d’embeddings, chacun avec un compromis différent entre performances et prix
mistral-tiny et mistral-small reposent sur des modèles ouverts publics, tandis que mistral-medium propose un modèle prototype en cours de test dans un environnement de déploiement
L’API suit une spécification d’interface de chat largement utilisée et prend en charge les clients Python et JavaScript, ainsi que l’ajustement des sorties via un system prompt
Tout le monde peut s’inscrire pour utiliser l’API, mais la capacité sera augmentée progressivement et des aspérités peuvent subsister avant un self-service complet

Bêta de la plateforme et configuration des endpoints

Mistral AI met des modèles génératifs ouverts à la disposition des développeurs, avec des méthodes de déploiement et de personnalisation pour la production
Le premier service de plateforme a été lancé en bêta, avec une configuration de départ simple
- Trois endpoints de chat pour la génération à partir d’instructions textuelles
- Un endpoint d’embeddings pensé pour les usages de recherche
- Chaque endpoint offre un compromis différent entre performances et prix
Endpoints de génération
- mistral-tiny
  - L’endpoint le plus économique, qui propose actuellement Mistral 7B Instruct v0.2
  - Il ne prend en charge que l’anglais et obtient un score MT-Bench de 7,6
  - Le modèle instruction-tuned peut être téléchargé sur Hugging Face
- mistral-small
  - Propose le dernier modèle, Mixtral 8x7B
  - Couvre l’anglais, le français, l’italien, l’allemand, l’espagnol et le code
  - Son score MT-Bench est de 8,3
  - Les détails du modèle sont disponibles dans le billet de blog consacré à Mixtral
- mistral-medium
  - L’endpoint de la plus haute qualité, qui propose actuellement un modèle prototype en cours de test dans un environnement de déploiement
  - Il fait partie des meilleurs modèles actuellement proposés selon les benchmarks standard
  - Couvre l’anglais, le français, l’italien, l’allemand, l’espagnol et le code
  - Son score MT-Bench est de 8,6
Alignement des modèles et embeddings
- Pour rendre les modèles suivant les instructions plus faciles à contrôler et à utiliser, Mistral AI combine fine-tuning efficace et optimisation directe des préférences
- Les modèles sont préentraînés sur des données extraites du web ouvert, puis passent par un fine-tuning sur instructions basé sur des annotations
- mistral-embed est un endpoint d’embeddings qui fournit un modèle d’embeddings en 1024 dimensions
- Le modèle d’embeddings est conçu pour les fonctionnalités de recherche et obtient un score de recherche MTEB de 55,26

Accès à l’API et fonctionnement de la bêta

L’API suit une spécification d’interface de chat largement utilisée
Les endpoints peuvent être appelés via des bibliothèques clientes Python et JavaScript
Lorsque le contrôle des sorties est important dans une application, les réponses du modèle peuvent être ajustées plus fortement via un system prompt
Tout le monde peut s’inscrire pour utiliser l’API, et Mistral AI augmente progressivement la capacité
L’équipe commerciale peut aider à comprendre les besoins des utilisateurs et à accélérer l’accès
Des aspérités peuvent subsister tant que la plateforme ne sera pas stabilisée en self-service complet
NVIDIA prend en charge l’intégration avec TensorRT-LLM et Triton, ainsi que les travaux de compatibilité de TRT-LLM avec les sparse mixture of experts

1 commentaires

GN⁺ 2023-12-12

Avis sur Hacker News

Je suis surpris que cette actu ne soit pas restée épinglée toute la journée en tête de HN
Une petite entreprise qui semble compter une trentaine de personnes a obtenu une valorisation de 2 milliards de dollars, et a sorti un modèle MoE 7B×8 avec le meilleur modèle 7B du moment et des performances de niveau 70B, pour un coût d’inférence comparable à celui d’un 14B
Cela pourrait représenter une menace potentielle plus sérieuse pour OpenAI que Google ou Anthropic. Grâce à ses investissements massifs récents, l’entreprise semble pouvoir monter en charge à trafic raisonnable dans un avenir proche, et attirer des chercheurs de haut niveau lassés de l’ostentation et du drama désormais omniprésents dans le secteur
- C’est parce qu’il y a déjà eu pas mal de gros fils de discussion
  Mixtral of experts - https://news.ycombinator.com/item?id=38598559 - décembre 2023, 272 commentaires
  Mistral-8x7B-Chat - https://news.ycombinator.com/item?id=38594578 - décembre 2023, 69 commentaires
  Mistral AI Valued at $2B - https://news.ycombinator.com/item?id=38593616 - décembre 2023, 221 commentaires
  Mistral's mixtral-8x7B-32kseqlen on Vercel - https://news.ycombinator.com/item?id=38584179 - décembre 2023, 30 commentaires
  French AI startup Mistral secures €2B valuation - https://news.ycombinator.com/item?id=38580758 - décembre 2023, 76 commentaires
  Mistral "Mixtral" 8x7B 32k model [magnet] - https://news.ycombinator.com/item?id=38570537 - décembre 2023, 236 commentaires
  Ce n’est pas exactement la même actualité, mais comme les discussions suivent globalement la même direction, on peut considérer tout ou partie de ces posts comme des doublons partiels
- C’est de loin l’entreprise la plus impressionnante issue de la vague IA actuelle
  En environ six mois, elle a livré une référence parmi les modèles 7B, puis est rapidement montée en puissance
  En mars, j’avais tourné en dérision leur tour de financement, en y voyant un signe de battage excessif — lever 300 millions de dollars avec une équipe de trois personnes et une idée — mais je n’avais manifestement pas tous les détails. Leur capacité d’exécution est vraiment remarquable
  Ils semblent capables de capter tous les cas d’usage qui n’ont pas besoin des performances de GPT-4, et pourraient bientôt viser aussi le segment des grands modèles
- Même en lisant le billet de blog et le site, il est un peu difficile de comprendre exactement de quoi il s’agit
  Du coup, seules les personnes déjà assez familières avec l’IA en percevront probablement l’importance. Cela dit, l’explication ci-dessus aide clairement
- Mistral est en France, et l’UE est en ce moment plutôt dans une dynamique de douche froide sur la régulation de l’IA. À long terme, cela risque d’être un handicap
- En France, la formation en ingénierie et en informatique met vraiment l’accent sur les maths et la théorie. C’est un atout en IA
Si les benchmarks se traduisent en performances réelles, c’est très impressionnant [1]
mistral-medium surpasse largement GPT-3.5 et Gemini Pro, le meilleur modèle public actuellement proposé par Google, sur l’ensemble des benchmarks comparables disponibles : https://screenbud.com/shot/c0d904e3-24a3-4c23-a1e4-2f18bc021...
[1] Si Mistral 7B sert de référence, l’écart de performances réel devrait être encore plus grand. Le fait que le filtre de sécurité soit optionnel constitue aussi un gros avantage pour les applications sûres
- Si le prochain grand modèle d’IA de Google est déjà battu par une petite entreprise disposant de bien moins de ressources, c’est assez amer pour Google
- Le score Winogrande est supérieur à celui de GPT-4. C’est surprenant, car les autres métriques paraissent plus proches de GPT-3
- Je ne suis pas sûr que Gemini Pro soit vraiment « disponible »
  Tant que le modèle n’est pas publié, je ne crois pas aux benchmarks promotionnels. Avant la sortie, les résultats peuvent trop varier selon le niveau de dégradation des performances imposé par les questions de sécurité
- Si leur nouveau modèle est publié en open source, ce sera vraiment intéressant
- J’ai vu une vidéo où Mixtral lui-même s’en sortait étonnamment bien sur diverses tâches. Il y avait même des domaines où GPT-4 ne faisait pas toujours aussi bien
https://docs.mistral.ai/platform/pricing
Les tarifs ont aussi été publiés.
Pour 1 million de tokens en sortie, Mistral-medium coûte 8 dollars, Mistral-small 1,94 dollar, gpt-3.5-turbo-1106 2 dollars, gpt-4-1106-preview 30 dollars, gpt-4 60 dollars et gpt-4-32k 120 dollars.
Ce tarif semble indiquer que Mistral est assez confiant dans le fait que mistral-medium est nettement meilleur que gpt-3.5.
- Je me demande s'il existe des estimations des besoins énergétiques de ces modèles.
  En faisant un calcul approximatif, l'inférence d'un modèle 30B sur une GTX 4090 devrait produire environ 30 tokens par seconde [1], soit autour de 100 000 tokens par heure.
  Si l'on suppose qu'un tel système consomme environ 1 kW, cela représente environ 10 kWh par million de tokens.
  Avec les tarifs actuels de l'électricité, il ne semble sans doute pas facile de descendre sous 2 à 4 dollars par million de tokens pour un modèle 30B.
  [1] https://old.reddit.com/r/LocalLLaMA/comments/13j5cxf/how_man...
- En tenant compte aussi des tokens en entrée, on serait au total plutôt proche de 5,25 euros contre 1,5 euro par million de tokens.
  Mistral-small semble être le modèle le plus directement en concurrence avec gpt-3.5, et il est moins cher, autour de 1,2 euro par million de tokens.
  Pour référence, j'ai supposé que les poids des tokens en entrée et en sortie étaient identiques, et je n'ai pas pu voir les prix en dollars.
- Il n'est pas encore prudent de partir sur cette hypothèse. L'accès reste limité, donc en pratique cela ressemble à un système sur invitation. On ne pourra le tester et le vérifier qu'une fois qu'il y aura une certaine disponibilité générale.
- Je me demande si Mistral et GPT utilisent le même tokenizer.
- medium semble plutôt chercher à concurrencer Claude d'Anthropic que les produits d'OpenAI.
  https://www-files.anthropic.com/production/images/model_pric...
Dire que « les endpoints sont proposés en early access » signifie en réalité qu'« il existe une liste d'attente de durée inconnue pour accéder à l'early access des endpoints ».
Si on essaie d'y accéder, on voit s'afficher : “Access to our API is currently invitation-only, but we'll let you know when you can subscribe to get access to our best models.”
- Vu que la vérification d'e-mail a été cassée de plusieurs façons pendant la dernière heure, ils ne semblaient peut-être pas aussi bien préparés à la communication qu'on aurait pu le penser.
“Mistral-embed, our embedding endpoint, serves an embedding model with a 1024 embedding dimension. Our embedding model has been designed with retrieval capabilities in mind. It achieves a retrieval score of 55.26 on MTEB.”
Je me demande s'il y a des informations indiquant si ce modèle d'embedding est open source, ou s'il est prévu qu'il le devienne.
“Mistral-Medium outperforms GPT-4 in Winogrande benchmark 88% vs 87.5%”
Source : https://twitter.com/yupiop12/status/1734137238177698106
Il est intéressant de voir que plusieurs plateformes comme Lemonfox.ai proposent des modèles fine-tunés de Mistral à un prix plus bas.
Elles ont déjà annoncé une API Mistral 8x7B. Si l'objectif est la monétisation, on peut se demander s'ils continueront à publier en open source des modèles comme la version medium à l'avenir.
- Sans publication des poids, on peut se demander pourquoi les gens devraient s'y intéresser. Au moment où cela pourrait rivaliser avec GPT-4, il est fort possible que GPT-5 soit déjà sorti.
J'ai remarqué par hasard que le serveur TextSynth de Fabrice Bellard prend désormais en charge le modèle Mistral 7B.
“2023-10-21: CUDA support in the Windows version, mistral model support. Speculative sampling is supported. BNF grammar and JSON schema sampling.”
“mistral_7B_instruct_q4 - 3.9GB - Mistral 7B chat model”
https://bellard.org/ts_server/
“Mistral-medium. Our highest-quality endpoint currently serves a prototype model, that is currently among the top serviced models available based on standard benchmarks.”
Intéressant. Ce modèle surpasse ChatGPT 3.5. On ne sait pas de quel type de modèle il s'agit, et il n'est pas open source.
- Ah, donc j'imagine que celui utilisé dans ollama porte le nom de version tiny.
  “Mistral-tiny. Our most cost-effective endpoint currently serves Mistral 7B Instruct v0.2, a new minor release of Mistral 7B Instruct. Mistral-tiny only works in English. It obtains 7.6 on MT-Bench. The instructed model can be downloaded here.”

Mistral AI ouvre un accès anticipé à ses premiers endpoints d’IA

Bêta de la plateforme et configuration des endpoints

Endpoints de génération

Alignement des modèles et embeddings

Accès à l’API et fonctionnement de la bêta

À lire aussi

1 commentaires

Avis sur Hacker News