Mercury 2 : un LLM d’inférence ultra-rapide basé sur la diffusion

(inceptionlabs.ai)

7 points par GN⁺ 2026-02-26 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Modèle de langage utilisant une approche de génération parallèle basée sur un modèle de diffusion (diffusion) pour dépasser les limites de vitesse des LLM à décodage séquentiel
Grâce à une architecture de raffinement parallèle (parallel refinement) qui génère et corrige plusieurs tokens à la fois, il atteint une vitesse de réponse plus de 5 fois supérieure
Avec un débit de 1 009 tokens/s, un contexte de 128K, la sortie JSON et la prise en charge des outils, il est optimisé pour les applications en temps réel
Son efficacité est démontrée dans des environnements sensibles à la latence, comme l’assistance au code, les boucles d’agents, les interfaces vocales et les pipelines de recherche·RAG
Entièrement compatible avec l’API OpenAI, il peut être intégré immédiatement sans modification de l’infrastructure existante

Présentation de Mercury 2

Mercury 2 est le modèle de langage d’inférence le plus rapide au monde
- Son objectif est d’offrir une réactivité instantanée dans les environnements IA de production
Le principal goulot d’étranglement des LLM existants vient de leur architecture de décodage séquentiel autorégressif (one token at a time)
- Cela entraîne une accumulation de latence dans les workflows IA de type boucle itérative

Mercury 2 adopte une approche de raffinement parallèle (parallel refinement) au lieu du décodage séquentiel
- Il génère plusieurs tokens simultanément et converge en un petit nombre d’étapes
- Son fonctionnement s’apparente davantage à celui d’un « éditeur » qui révise l’ensemble d’un brouillon de façon itérative qu’à celui d’une « machine à écrire »
Cela permet au final une vitesse de génération plus de 5 fois supérieure et une nouvelle courbe de vitesse
L’inférence basée sur la diffusion permet une inférence de haute qualité tout en minimisant la latence et les coûts

Vitesse : 1 009 tokens/s sur GPU NVIDIA Blackwell
Prix : 0,25 $ par million de tokens en entrée, 0,75 $ par million de tokens en sortie
Qualité : un niveau compétitif face aux principaux modèles optimisés pour la vitesse
Fonctionnalités : raisonnement ajustable (tunable reasoning), contexte de 128K, utilisation d’outils, sortie alignée sur un schéma JSON
Optimisation de la latence : latence p95, réactivité constante dans les environnements à forte concurrence, maintien d’un débit stable
Un responsable de NVIDIA a indiqué que Mercury 2, combiné à l’infrastructure IA de NVIDIA, dépasse les 1 000 tokens/s

Il fournit des réponses immédiates dans les boucles de travail des développeurs pour l’autocomplétion, le refactoring et les agents de code
Max Brunsfeld, cofondateur de Zed, a souligné une « vitesse de suggestion aussi rapide qu’une partie de la pensée »

Il réduit la latence des appels dans les workflows d’agents nécessitant des appels de raisonnement en plusieurs étapes
Viant utilise Mercury 2 pour l’optimisation de campagnes en temps réel et le renforcement de systèmes publicitaires autonomes
Wispr Flow évalue la vitesse de Mercury 2 pour les conversations en temps réel et le raffinement de transcriptions
Skyvern indique qu’il est « au moins deux fois plus rapide que GPT-5.2 »

Les interfaces vocales ont les contraintes de latence les plus strictes
Happyverse AI met en œuvre avec Mercury 2 des avatars conversationnels naturels en temps réel
OpenCall évoque la possibilité de construire des agents vocaux plus réactifs grâce à une faible latence et une haute qualité

Il réduit la latence cumulée des processus de recherche multiple, reranking et résumé, rendant l’inférence en temps réel possible
En collaboration avec Mercury 2, SearchBlox a mis en œuvre une IA de recherche en temps réel,
fournissant une intelligence en quelques secondes dans divers domaines comme le support client, le risque et l’e-commerce

Mercury 2 est disponible immédiatement et entièrement compatible avec l’API OpenAI
Il peut être intégré aux systèmes existants sans modification du code
Pour les évaluations en entreprise, un accompagnement est proposé sur l’adéquation des workloads, la validation des performances et la conception des évaluations
Formule officielle : « Mercury 2 is live. Welcome to diffusion. »