- Modèle de langage utilisant une approche de génération parallèle basée sur un modèle de diffusion (diffusion) pour dépasser les limites de vitesse des LLM à décodage séquentiel
- Grâce à une architecture de raffinement parallèle (parallel refinement) qui génère et corrige plusieurs tokens à la fois, il atteint une vitesse de réponse plus de 5 fois supérieure
- Avec un débit de 1 009 tokens/s, un contexte de 128K, la sortie JSON et la prise en charge des outils, il est optimisé pour les applications en temps réel
- Son efficacité est démontrée dans des environnements sensibles à la latence, comme l’assistance au code, les boucles d’agents, les interfaces vocales et les pipelines de recherche·RAG
- Entièrement compatible avec l’API OpenAI, il peut être intégré immédiatement sans modification de l’infrastructure existante
Présentation de Mercury 2
- Mercury 2 est le modèle de langage d’inférence le plus rapide au monde
- Son objectif est d’offrir une réactivité instantanée dans les environnements IA de production
- Le principal goulot d’étranglement des LLM existants vient de leur architecture de décodage séquentiel autorégressif (one token at a time)
- Cela entraîne une accumulation de latence dans les workflows IA de type boucle itérative
Architecture d’inférence en temps réel basée sur la diffusion
- Mercury 2 adopte une approche de raffinement parallèle (parallel refinement) au lieu du décodage séquentiel
- Il génère plusieurs tokens simultanément et converge en un petit nombre d’étapes
- Son fonctionnement s’apparente davantage à celui d’un « éditeur » qui révise l’ensemble d’un brouillon de façon itérative qu’à celui d’une « machine à écrire »
- Cela permet au final une vitesse de génération plus de 5 fois supérieure et une nouvelle courbe de vitesse
- L’inférence basée sur la diffusion permet une inférence de haute qualité tout en minimisant la latence et les coûts
Performances et spécifications
- Vitesse : 1 009 tokens/s sur GPU NVIDIA Blackwell
- Prix : 0,25 $ par million de tokens en entrée, 0,75 $ par million de tokens en sortie
- Qualité : un niveau compétitif face aux principaux modèles optimisés pour la vitesse
- Fonctionnalités : raisonnement ajustable (tunable reasoning), contexte de 128K, utilisation d’outils, sortie alignée sur un schéma JSON
- Optimisation de la latence : latence p95, réactivité constante dans les environnements à forte concurrence, maintien d’un débit stable
- Un responsable de NVIDIA a indiqué que Mercury 2, combiné à l’infrastructure IA de NVIDIA, dépasse les 1 000 tokens/s
Cas d’usage en production
1. Code et édition
- Il fournit des réponses immédiates dans les boucles de travail des développeurs pour l’autocomplétion, le refactoring et les agents de code
- Max Brunsfeld, cofondateur de Zed, a souligné une « vitesse de suggestion aussi rapide qu’une partie de la pensée »
2. Boucles d’agents
- Il réduit la latence des appels dans les workflows d’agents nécessitant des appels de raisonnement en plusieurs étapes
- Viant utilise Mercury 2 pour l’optimisation de campagnes en temps réel et le renforcement de systèmes publicitaires autonomes
- Wispr Flow évalue la vitesse de Mercury 2 pour les conversations en temps réel et le raffinement de transcriptions
- Skyvern indique qu’il est « au moins deux fois plus rapide que GPT-5.2 »
3. Voix et interactions en temps réel
- Les interfaces vocales ont les contraintes de latence les plus strictes
- Happyverse AI met en œuvre avec Mercury 2 des avatars conversationnels naturels en temps réel
- OpenCall évoque la possibilité de construire des agents vocaux plus réactifs grâce à une faible latence et une haute qualité
4. Recherche et pipelines RAG
- Il réduit la latence cumulée des processus de recherche multiple, reranking et résumé, rendant l’inférence en temps réel possible
- En collaboration avec Mercury 2, SearchBlox a mis en œuvre une IA de recherche en temps réel,
fournissant une intelligence en quelques secondes dans divers domaines comme le support client, le risque et l’e-commerce
Déploiement et intégration
- Mercury 2 est disponible immédiatement et entièrement compatible avec l’API OpenAI
- Il peut être intégré aux systèmes existants sans modification du code
- Pour les évaluations en entreprise, un accompagnement est proposé sur l’adéquation des workloads, la validation des performances et la conception des évaluations
- Formule officielle : « Mercury 2 is live. Welcome to diffusion. »
Aucun commentaire pour le moment.