OpenAI dévoile la série GPT-Realtime-2, dotée de capacités de raisonnement de niveau GPT-5

(openai.com)

2 points par GN⁺ 1 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

OpenAI lance trois nouveaux modèles audio dans son API vocale temps réel, avec des fonctions de raisonnement, de traduction et de transcription, afin de permettre aux développeurs de créer des applications vocales plus naturelles et plus intelligentes
GPT-Realtime-2 est le premier modèle vocal doté de capacités de raisonnement de niveau GPT-5 ; il maintient une conversation naturelle tout en gérant les appels d’outils et les interruptions
GPT-Realtime-Translate est un modèle de traduction en direct qui traduit en temps réel plus de 70 langues d’entrée vers 13 langues de sortie
GPT-Realtime-Whisper est un modèle de transcription vocale en streaming qui convertit la parole en texte au fil de l’élocution, utilisable pour les sous-titres, les comptes rendus de réunion ou le support client
Une étape charnière où la voix dépasse le simple schéma requête-réponse pour devenir une interface capable d’effectuer simultanément raisonnement, traduction, transcription et exécution d’outils

Vue d’ensemble des 3 nouveaux modèles audio temps réel

OpenAI ajoute trois modèles à l’API pour aider les développeurs à concevoir des expériences vocales plus naturelles, plus intelligentes et capables d’agir en temps réel
GPT-Realtime-2 : premier modèle vocal doté d’un raisonnement de niveau GPT-5, capable de traiter des demandes complexes et de mener la conversation naturellement
GPT-Realtime-Translate : effectue une traduction vocale en temps réel de plus de 70 langues d’entrée vers 13 langues de sortie, au rythme du locuteur
GPT-Realtime-Whisper : fournit une transcription vocale-texte en streaming en direct pendant que l’utilisateur parle

La voix devient une interface logicielle

La voix s’impose comme l’une des façons les plus naturelles d’utiliser un logiciel : demander de l’aide en conduisant, modifier un voyage à l’aéroport, obtenir de l’assistance dans sa langue ou avancer sans taper au clavier
Un produit vocal utile exige plus qu’un enchaînement rapide des tours de parole ou une voix naturelle : il faut comprendre le sens, suivre le contexte, se rétablir quand la demande change, utiliser des outils pendant la conversation et répondre sur le ton approprié
Les modèles annoncés font évoluer l’audio temps réel d’un simple schéma requête-réponse vers une interface vocale qui écoute, raisonne, traduit, transcrit et agit

Trois nouveaux schémas émergents pour l’IA vocale

Voice-to-Action : l’utilisateur exprime son besoin à voix haute, puis le système raisonne et utilise des outils pour accomplir la tâche
- Cas Zillow : création d’un assistant capable d’entendre, de raisonner et d’exécuter des demandes comme « trouve-moi une maison dans ma fourchette BuyAbility, évite les routes encombrées et réserve une visite samedi »
Systems-to-Voice : le logiciel transforme le contexte en indications vocales en temps réel
- Cas d’une appli de voyage : diffusion d’informations vocales proactives comme « votre vol entrant est retardé, mais la correspondance reste possible. Nous avons trouvé votre nouvelle porte et nous vous guidons par l’itinéraire le plus court dans le terminal ; vos bagages suivront normalement »
Voice-to-Voice : l’IA fait vivre une conversation en temps réel au-delà des langues, des tâches et d’un contexte évolutif
- Cas Deutsche Telekom : construction d’une expérience de support vocal où le modèle traduit en temps réel la langue choisie par le client
Ces schémas peuvent aussi se combiner, et Priceline travaille sur une vision où la voix gère l’ensemble du voyage : recherche de vols et d’hôtels, modification de réservation, mises à jour sur les temps d’attente TSA et traduction des échanges sur place

GPT-Realtime-2 : un modèle vocal temps réel qui raisonne et agit

Optimisé pour les interactions vocales en temps réel, il peut raisonner, appeler des outils, gérer les corrections et interruptions, et produire des réponses adaptées au contexte
Preambles : de courtes formules comme « je vérifie » ou « un instant » signalent à l’utilisateur que l’agent traite sa demande
Appels d’outils en parallèle et transparence des outils : il peut lancer plusieurs outils à la fois tout en conservant la réactivité avec des formulations comme « je vérifie votre agenda » ou « je lance la recherche »
Comportement de récupération renforcé : au lieu d’échouer silencieusement ou d’interrompre la conversation avec des réponses du type « je ne peux pas traiter cela maintenant », le modèle se rétablit plus naturellement
Fenêtre de contexte étendue : passage de 32K à 128K pour prendre en charge des sessions plus longues et des flux de travail plus complexes
Compréhension métier renforcée : meilleure conservation du vocabulaire important en production, comme les termes spécialisés, noms propres et terminologie médicale
Ton et restitution contrôlables : ton calme pour résoudre un problème, empathique quand l’utilisateur est contrarié, plus enjoué lorsqu’un succès est confirmé
Effort de raisonnement ajustable : cinq niveaux, minimal, low, medium, high, xhigh ; la valeur par défaut est low, afin d’équilibrer faible latence pour les interactions simples et raisonnement plus approfondi pour les demandes complexes

Benchmarks de performance de GPT-Realtime-2

GPT-Realtime-2 (high) obtient sur Big Bench Audio un score supérieur de 15,2 % à GPT-Realtime-1.5 sur les capacités d’intelligence audio
GPT-Realtime-2 (xhigh) enregistre sur Audio MultiChallenge un score supérieur de 13,8 % à GPT-Realtime-1.5 pour le suivi d’instructions, avec des progrès en raisonnement, gestion du contexte et contrôlabilité
Citation de Josh Weisberg, SVP chez Zillow : après optimisation des prompts sur les benchmarks adversariaux les plus difficiles, le taux de réussite des appels a progressé de 26 points (95 % contre 69 %) ; le système est aussi plus robuste sur la conformité Fair Housing, et la combinaison entre capacités agentiques et solidité des garde-fous convient bien à la voix en production chez Zillow

GPT-Realtime-Translate : traduction vocale multilingue en temps réel

Il devient possible de créer des expériences vocales multilingues où chaque participant parle dans sa langue préférée, écoute une conversation traduite en temps réel et peut lire une transcription en direct
La prise en charge de plus de 70 langues d’entrée et 13 langues de sortie vise le support client, la vente transfrontalière, l’éducation, les événements, les médias et les plateformes mondiales de créateurs
Le modèle doit suivre le rythme du locuteur tout en préservant le sens, et gérer les formulations naturelles, les changements de contexte, les accents régionaux et le langage propre à un domaine
Deutsche Telekom le teste pour les interactions vocales multilingues ; sa faible latence et sa fluidité renforcée rendent les conversations interlangues plus naturelles
Cas Vimeo : GPT-Realtime-Translate peut traduire en temps réel pendant la lecture de vidéos de formation produit, afin que les clients mondiaux entendent les mises à jour dans leur langue sans devoir produire une version distincte
Citation de Prateek Sachan, CTO de BolnaAI : lors d’évaluations en hindi, tamoul et télougou, le taux d’erreur sur les mots (WER) est inférieur de 12,5 % à celui d’autres modèles, avec moins de bascules de secours, un taux d’achèvement des tâches élevé et une latence compatible avec des conversations naturelles

GPT-Realtime-Whisper : transcription en streaming à faible latence

Nouveau modèle de transcription en streaming conçu pour la conversion voix-texte à faible latence, qui transcrit l’audio au moment même où l’on parle
Il peut servir aux sous-titres en direct, aux notes de réunion générées pendant la conversation, aux agents vocaux nécessitant une compréhension continue de l’utilisateur, ainsi qu’aux workflows de suivi rapide dans des interactions vocales fréquentes comme le support client, la santé, la vente ou le recrutement
Il permet d’exploiter immédiatement les données vocales temps réel dans des workflows métier, par exemple pour créer des sous-titres en réunion, en classe, en diffusion ou lors d’événements, ou pour générer notes et résumés au fil de la conversation

Sécurité et politique d’usage

Des protections multicouches et mesures d’atténuation sont appliquées à la Realtime API afin d’éviter les usages abusifs
Des classificateurs actifs (active classifiers) surveillent les sessions et peuvent interrompre la conversation en cas de détection de violations des règles sur les contenus nuisibles
Les développeurs peuvent ajouter leurs propres garde-fous de sécurité via le Agents SDK
Conformément aux règles d’usage, il est interdit de réutiliser ou diffuser des sorties à des fins nuisibles, notamment spam ou tromperie
Il faut indiquer clairement à l’utilisateur final qu’il interagit avec une IA, sauf si cela est évident dans le contexte
Prise en charge complète de la résidence des données dans l’UE et application des engagements de confidentialité entreprise

Prix et disponibilité

GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper sont tous disponibles dans la Realtime API
GPT-Realtime-2 : 32 $ par million de tokens audio en entrée (0,40 $ pour les tokens d’entrée mis en cache), 64 $ par million de tokens audio en sortie
GPT-Realtime-Translate : 0,034 $ par minute
GPT-Realtime-Whisper : 0,017 $ par minute
Les nouveaux modèles vocaux temps réel peuvent être testés dans Playground, et il est possible via Codex d’ajouter GPT-Realtime-2 à une application existante ou de démarrer un nouveau projet

OpenAI dévoile la série GPT-Realtime-2, dotée de capacités de raisonnement de niveau GPT-5

Vue d’ensemble des 3 nouveaux modèles audio temps réel

La voix devient une interface logicielle

Trois nouveaux schémas émergents pour l’IA vocale

GPT-Realtime-2 : un modèle vocal temps réel qui raisonne et agit

Benchmarks de performance de GPT-Realtime-2

GPT-Realtime-Translate : traduction vocale multilingue en temps réel

GPT-Realtime-Whisper : transcription en streaming à faible latence

Sécurité et politique d’usage

Prix et disponibilité

À lire aussi

Aucun commentaire pour le moment.