OpenAI dévoile la série GPT-Realtime-2, dotée de capacités de raisonnement de niveau GPT-5
(openai.com)- OpenAI lance trois nouveaux modèles audio dans son API vocale temps réel, avec des fonctions de raisonnement, de traduction et de transcription, afin de permettre aux développeurs de créer des applications vocales plus naturelles et plus intelligentes
- GPT-Realtime-2 est le premier modèle vocal doté de capacités de raisonnement de niveau GPT-5 ; il maintient une conversation naturelle tout en gérant les appels d’outils et les interruptions
- GPT-Realtime-Translate est un modèle de traduction en direct qui traduit en temps réel plus de 70 langues d’entrée vers 13 langues de sortie
- GPT-Realtime-Whisper est un modèle de transcription vocale en streaming qui convertit la parole en texte au fil de l’élocution, utilisable pour les sous-titres, les comptes rendus de réunion ou le support client
- Une étape charnière où la voix dépasse le simple schéma requête-réponse pour devenir une interface capable d’effectuer simultanément raisonnement, traduction, transcription et exécution d’outils
Vue d’ensemble des 3 nouveaux modèles audio temps réel
- OpenAI ajoute trois modèles à l’API pour aider les développeurs à concevoir des expériences vocales plus naturelles, plus intelligentes et capables d’agir en temps réel
- GPT-Realtime-2 : premier modèle vocal doté d’un raisonnement de niveau GPT-5, capable de traiter des demandes complexes et de mener la conversation naturellement
- GPT-Realtime-Translate : effectue une traduction vocale en temps réel de plus de 70 langues d’entrée vers 13 langues de sortie, au rythme du locuteur
- GPT-Realtime-Whisper : fournit une transcription vocale-texte en streaming en direct pendant que l’utilisateur parle
La voix devient une interface logicielle
- La voix s’impose comme l’une des façons les plus naturelles d’utiliser un logiciel : demander de l’aide en conduisant, modifier un voyage à l’aéroport, obtenir de l’assistance dans sa langue ou avancer sans taper au clavier
- Un produit vocal utile exige plus qu’un enchaînement rapide des tours de parole ou une voix naturelle : il faut comprendre le sens, suivre le contexte, se rétablir quand la demande change, utiliser des outils pendant la conversation et répondre sur le ton approprié
- Les modèles annoncés font évoluer l’audio temps réel d’un simple schéma requête-réponse vers une interface vocale qui écoute, raisonne, traduit, transcrit et agit
Trois nouveaux schémas émergents pour l’IA vocale
- Voice-to-Action : l’utilisateur exprime son besoin à voix haute, puis le système raisonne et utilise des outils pour accomplir la tâche
- Cas Zillow : création d’un assistant capable d’entendre, de raisonner et d’exécuter des demandes comme « trouve-moi une maison dans ma fourchette BuyAbility, évite les routes encombrées et réserve une visite samedi »
- Systems-to-Voice : le logiciel transforme le contexte en indications vocales en temps réel
- Cas d’une appli de voyage : diffusion d’informations vocales proactives comme « votre vol entrant est retardé, mais la correspondance reste possible. Nous avons trouvé votre nouvelle porte et nous vous guidons par l’itinéraire le plus court dans le terminal ; vos bagages suivront normalement »
- Voice-to-Voice : l’IA fait vivre une conversation en temps réel au-delà des langues, des tâches et d’un contexte évolutif
- Cas Deutsche Telekom : construction d’une expérience de support vocal où le modèle traduit en temps réel la langue choisie par le client
- Ces schémas peuvent aussi se combiner, et Priceline travaille sur une vision où la voix gère l’ensemble du voyage : recherche de vols et d’hôtels, modification de réservation, mises à jour sur les temps d’attente TSA et traduction des échanges sur place
GPT-Realtime-2 : un modèle vocal temps réel qui raisonne et agit
- Optimisé pour les interactions vocales en temps réel, il peut raisonner, appeler des outils, gérer les corrections et interruptions, et produire des réponses adaptées au contexte
- Preambles : de courtes formules comme « je vérifie » ou « un instant » signalent à l’utilisateur que l’agent traite sa demande
- Appels d’outils en parallèle et transparence des outils : il peut lancer plusieurs outils à la fois tout en conservant la réactivité avec des formulations comme « je vérifie votre agenda » ou « je lance la recherche »
- Comportement de récupération renforcé : au lieu d’échouer silencieusement ou d’interrompre la conversation avec des réponses du type « je ne peux pas traiter cela maintenant », le modèle se rétablit plus naturellement
- Fenêtre de contexte étendue : passage de 32K à 128K pour prendre en charge des sessions plus longues et des flux de travail plus complexes
- Compréhension métier renforcée : meilleure conservation du vocabulaire important en production, comme les termes spécialisés, noms propres et terminologie médicale
- Ton et restitution contrôlables : ton calme pour résoudre un problème, empathique quand l’utilisateur est contrarié, plus enjoué lorsqu’un succès est confirmé
- Effort de raisonnement ajustable : cinq niveaux, minimal, low, medium, high, xhigh ; la valeur par défaut est low, afin d’équilibrer faible latence pour les interactions simples et raisonnement plus approfondi pour les demandes complexes
Benchmarks de performance de GPT-Realtime-2
- GPT-Realtime-2 (high) obtient sur Big Bench Audio un score supérieur de 15,2 % à GPT-Realtime-1.5 sur les capacités d’intelligence audio
- GPT-Realtime-2 (xhigh) enregistre sur Audio MultiChallenge un score supérieur de 13,8 % à GPT-Realtime-1.5 pour le suivi d’instructions, avec des progrès en raisonnement, gestion du contexte et contrôlabilité
- Citation de Josh Weisberg, SVP chez Zillow : après optimisation des prompts sur les benchmarks adversariaux les plus difficiles, le taux de réussite des appels a progressé de 26 points (95 % contre 69 %) ; le système est aussi plus robuste sur la conformité Fair Housing, et la combinaison entre capacités agentiques et solidité des garde-fous convient bien à la voix en production chez Zillow
GPT-Realtime-Translate : traduction vocale multilingue en temps réel
- Il devient possible de créer des expériences vocales multilingues où chaque participant parle dans sa langue préférée, écoute une conversation traduite en temps réel et peut lire une transcription en direct
- La prise en charge de plus de 70 langues d’entrée et 13 langues de sortie vise le support client, la vente transfrontalière, l’éducation, les événements, les médias et les plateformes mondiales de créateurs
- Le modèle doit suivre le rythme du locuteur tout en préservant le sens, et gérer les formulations naturelles, les changements de contexte, les accents régionaux et le langage propre à un domaine
- Deutsche Telekom le teste pour les interactions vocales multilingues ; sa faible latence et sa fluidité renforcée rendent les conversations interlangues plus naturelles
- Cas Vimeo : GPT-Realtime-Translate peut traduire en temps réel pendant la lecture de vidéos de formation produit, afin que les clients mondiaux entendent les mises à jour dans leur langue sans devoir produire une version distincte
- Citation de Prateek Sachan, CTO de BolnaAI : lors d’évaluations en hindi, tamoul et télougou, le taux d’erreur sur les mots (WER) est inférieur de 12,5 % à celui d’autres modèles, avec moins de bascules de secours, un taux d’achèvement des tâches élevé et une latence compatible avec des conversations naturelles
GPT-Realtime-Whisper : transcription en streaming à faible latence
- Nouveau modèle de transcription en streaming conçu pour la conversion voix-texte à faible latence, qui transcrit l’audio au moment même où l’on parle
- Il peut servir aux sous-titres en direct, aux notes de réunion générées pendant la conversation, aux agents vocaux nécessitant une compréhension continue de l’utilisateur, ainsi qu’aux workflows de suivi rapide dans des interactions vocales fréquentes comme le support client, la santé, la vente ou le recrutement
- Il permet d’exploiter immédiatement les données vocales temps réel dans des workflows métier, par exemple pour créer des sous-titres en réunion, en classe, en diffusion ou lors d’événements, ou pour générer notes et résumés au fil de la conversation
Sécurité et politique d’usage
- Des protections multicouches et mesures d’atténuation sont appliquées à la Realtime API afin d’éviter les usages abusifs
- Des classificateurs actifs (active classifiers) surveillent les sessions et peuvent interrompre la conversation en cas de détection de violations des règles sur les contenus nuisibles
- Les développeurs peuvent ajouter leurs propres garde-fous de sécurité via le Agents SDK
- Conformément aux règles d’usage, il est interdit de réutiliser ou diffuser des sorties à des fins nuisibles, notamment spam ou tromperie
- Il faut indiquer clairement à l’utilisateur final qu’il interagit avec une IA, sauf si cela est évident dans le contexte
- Prise en charge complète de la résidence des données dans l’UE et application des engagements de confidentialité entreprise
Prix et disponibilité
- GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper sont tous disponibles dans la Realtime API
- GPT-Realtime-2 : 32 $ par million de tokens audio en entrée (0,40 $ pour les tokens d’entrée mis en cache), 64 $ par million de tokens audio en sortie
- GPT-Realtime-Translate : 0,034 $ par minute
- GPT-Realtime-Whisper : 0,017 $ par minute
- Les nouveaux modèles vocaux temps réel peuvent être testés dans Playground, et il est possible via Codex d’ajouter GPT-Realtime-2 à une application existante ou de démarrer un nouveau projet
Aucun commentaire pour le moment.