7 points par GN⁺ 2026-02-26 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Modèle de langage utilisant une approche de génération parallèle basée sur un modèle de diffusion (diffusion) pour dépasser les limites de vitesse des LLM à décodage séquentiel
  • Grâce à une architecture de raffinement parallèle (parallel refinement) qui génère et corrige plusieurs tokens à la fois, il atteint une vitesse de réponse plus de 5 fois supérieure
  • Avec un débit de 1 009 tokens/s, un contexte de 128K, la sortie JSON et la prise en charge des outils, il est optimisé pour les applications en temps réel
  • Son efficacité est démontrée dans des environnements sensibles à la latence, comme l’assistance au code, les boucles d’agents, les interfaces vocales et les pipelines de recherche·RAG
  • Entièrement compatible avec l’API OpenAI, il peut être intégré immédiatement sans modification de l’infrastructure existante

Présentation de Mercury 2

  • Mercury 2 est le modèle de langage d’inférence le plus rapide au monde
    • Son objectif est d’offrir une réactivité instantanée dans les environnements IA de production
  • Le principal goulot d’étranglement des LLM existants vient de leur architecture de décodage séquentiel autorégressif (one token at a time)
    • Cela entraîne une accumulation de latence dans les workflows IA de type boucle itérative

Architecture d’inférence en temps réel basée sur la diffusion

  • Mercury 2 adopte une approche de raffinement parallèle (parallel refinement) au lieu du décodage séquentiel
    • Il génère plusieurs tokens simultanément et converge en un petit nombre d’étapes
    • Son fonctionnement s’apparente davantage à celui d’un « éditeur » qui révise l’ensemble d’un brouillon de façon itérative qu’à celui d’une « machine à écrire »
  • Cela permet au final une vitesse de génération plus de 5 fois supérieure et une nouvelle courbe de vitesse
  • L’inférence basée sur la diffusion permet une inférence de haute qualité tout en minimisant la latence et les coûts

Performances et spécifications

  • Vitesse : 1 009 tokens/s sur GPU NVIDIA Blackwell
  • Prix : 0,25 $ par million de tokens en entrée, 0,75 $ par million de tokens en sortie
  • Qualité : un niveau compétitif face aux principaux modèles optimisés pour la vitesse
  • Fonctionnalités : raisonnement ajustable (tunable reasoning), contexte de 128K, utilisation d’outils, sortie alignée sur un schéma JSON
  • Optimisation de la latence : latence p95, réactivité constante dans les environnements à forte concurrence, maintien d’un débit stable
  • Un responsable de NVIDIA a indiqué que Mercury 2, combiné à l’infrastructure IA de NVIDIA, dépasse les 1 000 tokens/s

Cas d’usage en production

1. Code et édition

  • Il fournit des réponses immédiates dans les boucles de travail des développeurs pour l’autocomplétion, le refactoring et les agents de code
  • Max Brunsfeld, cofondateur de Zed, a souligné une « vitesse de suggestion aussi rapide qu’une partie de la pensée »

2. Boucles d’agents

  • Il réduit la latence des appels dans les workflows d’agents nécessitant des appels de raisonnement en plusieurs étapes
  • Viant utilise Mercury 2 pour l’optimisation de campagnes en temps réel et le renforcement de systèmes publicitaires autonomes
  • Wispr Flow évalue la vitesse de Mercury 2 pour les conversations en temps réel et le raffinement de transcriptions
  • Skyvern indique qu’il est « au moins deux fois plus rapide que GPT-5.2 »

3. Voix et interactions en temps réel

  • Les interfaces vocales ont les contraintes de latence les plus strictes
  • Happyverse AI met en œuvre avec Mercury 2 des avatars conversationnels naturels en temps réel
  • OpenCall évoque la possibilité de construire des agents vocaux plus réactifs grâce à une faible latence et une haute qualité

4. Recherche et pipelines RAG

  • Il réduit la latence cumulée des processus de recherche multiple, reranking et résumé, rendant l’inférence en temps réel possible
  • En collaboration avec Mercury 2, SearchBlox a mis en œuvre une IA de recherche en temps réel,
    fournissant une intelligence en quelques secondes dans divers domaines comme le support client, le risque et l’e-commerce

Déploiement et intégration

  • Mercury 2 est disponible immédiatement et entièrement compatible avec l’API OpenAI
  • Il peut être intégré aux systèmes existants sans modification du code
  • Pour les évaluations en entreprise, un accompagnement est proposé sur l’adéquation des workloads, la validation des performances et la conception des évaluations
  • Formule officielle : « Mercury 2 is live. Welcome to diffusion. »

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.