Modèles d’interaction : une approche extensible pour la collaboration humain-IA

(thinkingmachines.ai)

3 points par GN⁺ 2 시간 전 | 2 commentaires | Partager sur WhatsApp

Au lieu d’un harness externe, le modèle lui-même gère simultanément l’entrée et la sortie audio, vidéo et texte en temps réel pour collaborer naturellement avec l’humain
Les modèles classiques à tours de rôle présentaient un goulot d’étranglement collaboratif : ils attendent que l’utilisateur ait fini de parler et ne peuvent pas recevoir de nouvelles entrées pendant la génération
Grâce à une conception en micro-tours de 200 ms, les entrées et sorties sont traitées comme des flux continus, ce qui prend en charge divers modes d’interaction comme l’interruption, la parole simultanée et les réactions visuelles
Le système partage le contexte entre un Interaction Model, chargé de la conversation en temps réel, et un Background Model, chargé du raisonnement de long terme et de l’usage d’outils
L’interactivité est intégrée au modèle lui-même ; en changeant d’échelle, il devient non seulement plus intelligent, mais aussi un meilleur collaborateur

Le goulot d’étranglement collaboratif et l’objectif de l’Interaction Model

Thinking Machines Lab a présenté une preview de recherche sur l’Interaction Model, où c’est le modèle lui-même, et non un harness externe, qui prend en charge l’interaction
L’objectif est d’étendre non seulement l’intelligence de l’IA, mais aussi son interactivité, avec un modèle qui absorbe en continu l’audio, la vidéo et le texte, puis pense, répond et agit en temps réel
Aujourd’hui, de nombreuses recherches et interfaces IA privilégient la capacité de l’IA à travailler longtemps de manière autonome, mais dans des tâches hands-on-keyboard où l’humain intervient en continu, le modèle peut sembler trop lent et sa valeur devenir moins perceptible
- Ce n’est pas optimisé pour garder l’humain dans la boucle
Dans le travail réel, il est difficile de spécifier entièrement les exigences dès le départ puis de partir ; un processus collaboratif où l’humain apporte clarifications et retours en cours de route aide à obtenir de meilleurs résultats
Les modèles existants à tours de rôle attendent que l’utilisateur ait terminé son entrée et, pendant qu’ils génèrent, ne peuvent pas recevoir de nouvelles informations ; ils font donc l’expérience du réel comme dans un thread unique
- Cette structure réduit à la fois l’ampleur avec laquelle les connaissances, intentions et jugements de l’utilisateur sont transmis au modèle, et celle avec laquelle l’humain peut comprendre le travail du modèle
Thinking Machines Lab estime que ce goulot d’étranglement ne peut être résolu qu’avec une interaction en temps réel sur toutes les modalités, et que c’est à l’IA de s’adapter à la manière d’agir des humains, et non l’inverse
La plupart des modèles d’IA existants utilisent des harness assemblant plusieurs composants pour imiter les interruptions, le multimodal et la simultanéité, mais selon The Bitter Lesson, les systèmes bricolés à la main peuvent se faire dépasser par l’extension de capacités plus générales
Pour que l’interactivité se développe avec l’intelligence, elle doit être une fonction interne du modèle ; en augmentant la taille du modèle, celui-ci doit devenir non seulement plus intelligent, mais aussi un meilleur collaborateur

Les capacités rendues possibles par l’interaction au sein du modèle

Gestion naturelle de la conversation
- Le modèle suit implicitement si le locuteur est en train de réfléchir, cède la parole, se corrige lui-même ou cherche à susciter une réponse
- Il gère ces jugements sans composant de gestion de conversation séparé
Intervention vocale et visuelle (interruption)
- Le modèle ne réagit pas seulement lorsque l’utilisateur a fini de parler ; il peut intervenir au moment opportun selon le contexte
- Il peut par exemple couper l’utilisateur lorsqu’il dit quelque chose de faux, ou repérer visuellement un bug dans du code et le signaler
Parole simultanée
- L’utilisateur et le modèle peuvent parler en même temps, ce qui est utile dans des situations comme la traduction en temps réel
Perception du temps
- Le modèle perçoit directement le temps écoulé et peut traiter des tâches consistant à parler selon des intervalles précis ou à mesurer le temps d’action de l’utilisateur
Appels d’outils, recherche et génération d’UI en parallèle
- Le modèle peut, tout en parlant et en écoutant l’utilisateur, effectuer simultanément des recherches, naviguer sur le web et générer une UI
- Une fois les résultats prêts, il les réintègre dans le flux de la conversation
- Dans de longues sessions réelles, ces fonctions se déroulent en permanence ensemble, donnant davantage une impression de collaboration que de simple envoi de prompts

Approche

Micro-tours alignés temporellement
- L’Interaction Model découpe les flux continus d’entrée et de sortie en micro-tours et structure l’interaction en fonction du temps
- Les modèles à tours voient une séquence de tokens alternés, tandis que l’Interaction Model sensible au temps voit un flux continu de micro-tours, de sorte que les silences, chevauchements et interruptions restent dans le contexte du modèle
- Le modèle maintient un état d’échange bidirectionnel continu avec l’utilisateur et réalise simultanément la perception et la réponse
- La robotique et la conduite autonome supposent un fonctionnement en temps réel en raison des contraintes du monde physique, et des modèles audio full-duplex comme Moshi, PersonaPlex, nemotron-voicechat et Seeduplex sont également des exemples d’interaction bidirectionnelle et continue
Architecture du système
- Le système se compose d’un Interaction Model sensible au temps qui maintient une présence en temps réel, et d’un Background Model asynchrone chargé du raisonnement continu, de l’usage d’outils et des tâches de longue durée
- Lorsque qu’un raisonnement plus profond ne peut pas être généré immédiatement, l’Interaction Model délègue au Background Model
- Même pendant cette délégation, l’Interaction Model reste devant l’utilisateur, continue de répondre aux questions de suivi, de recevoir de nouvelles entrées et de maintenir le contexte conversationnel
- Les résultats du Background Model sont diffusés en streaming au fur et à mesure de leur génération, puis intégrés par l’Interaction Model dans la conversation au moment adapté au comportement actuel de l’utilisateur
- Les deux systèmes partagent le contexte, et l’utilisateur peut ainsi bénéficier de la planification, de l’usage d’outils et des workflows agentiques d’un modèle de raisonnement, avec une latence de réponse proche de celle d’un modèle non raisonneur
- Le Background Model comme l’Interaction Model sont tous deux intelligents, et l’Interaction Model seul obtient déjà des performances compétitives sur les benchmarks d’interaction et d’intelligence
Structure de l’Interaction Model
- Le point de départ de la conception est constitué des flux audio et vidéo continus, intrinsèquement temps réel ; le texte peut attendre, mais une conversation en temps réel ne le peut pas
- Le modèle prend en entrée un sous-ensemble arbitraire de texte, d’audio et de vidéo, et prédit du texte ainsi que de l’audio
- Il fonctionne en micro-tours alternant en continu le traitement de 200 ms d’entrée et la génération de 200 ms de sortie
- Au lieu de consommer un tour utilisateur complet et de générer une réponse complète, il traite à la fois les tokens d’entrée et de sortie sous forme de flux
- Cette approche permet une simultanéité quasi temps réel de multiples modalités d’entrée et de sortie, et supprime les frontières de tour artificielles que le modèle devrait autrement respecter
- De nombreux systèmes temps réel existants prédisent les frontières de tour à l’aide de dispositifs comme la détection d’activité vocale (VAD) pour donner à des modèles à tours une apparence temps réel
- Ces composants de harness sont moins intelligents que le modèle lui-même, ce qui limite des modes d’interaction comme l’interruption proactive ou la réaction à des indices visuels
- Dans l’Interaction Model, ces modes d’interaction deviennent non pas des harness spécialisés, mais des cas particuliers que le modèle peut prendre en charge, avec une qualité susceptible de s’améliorer à mesure que la taille du modèle et les données d’entraînement augmentent
Fusion précoce sans encodeur
- L’architecture retenue utilise un prétraitement minimal plutôt que de traiter l’audio et la vidéo avec de grands encodeurs indépendants
- De nombreux modèles omnimodaux exigent l’entraînement séparé d’encodeurs de type Whisper ou de décodeurs de type TTS, mais ici le modèle reçoit le signal audio au format dMel et le convertit via une couche d’embedding légère
- dMel suit Bai, et al. 2024
- Les images sont découpées en patchs 40x40, puis encodées avec hMLP
- Le décodeur audio utilise une flow head
- Tous les composants sont co-entraînés avec le transformer dès le départ
Optimisation de l’inférence
- En inférence, les chunks de 200 ms nécessitent fréquemment des opérations de prefill et de decode de petite taille, chaque étape devant respecter des contraintes de latence strictes
- Les bibliothèques d’inférence LLM existantes ne sont pas optimisées pour les situations avec de petits prefill fréquents, ce qui entraîne un fort surcoût à chaque tour
- Pour y remédier, l’équipe a implémenté une streaming session : le client envoie chaque chunk de 200 ms dans une requête distincte, puis le serveur d’inférence rattache ces chunks à une séquence persistante en mémoire GPU
- Cette méthode évite les réallocations mémoire fréquentes et les calculs de métadonnées, et une version de cette fonctionnalité a été intégrée upstream à SGLang
- Les kernels ont également été optimisés en fonction des shapes et de la latence propres au serving bidirectionnel
- Pour les kernels MoE, la stratégie gather+gemv est utilisée à la place du grouped gemm standard, dans la lignée de travaux antérieurs de PyTorch et Cursor
Alignement Trainer-Sampler
- Un trainer-sampler alignment au niveau du bit s’est révélé utile pour la stabilité de l’entraînement et le débogage des composants du système
- Des batch-invariant kernels ont été implémentés, avec un surcoût de performance total inférieur à 5 %
- Pour l’all-reduce et le reduce-scatter, NVLS est utilisé afin d’implémenter sur Blackwell des kernels de communication déterministes à faible latence
- Ces kernels atteignent un alignement au niveau du bit même entre différentes stratégies de parallélisation, comme le Sequence Parallelism et le Tensor Parallelism
- Le principal défi côté attention est le Split-KV, qui peut généralement créer des divergences d’ordre d’accumulation entre decode et prefill
- En choisissant le split de manière cohérente entre decode et prefill, il est possible de préserver l’ordre d’accumulation ; par exemple, traiter les SM par blocs de 4096 tokens alignés à gauche permet de gagner en efficacité à la fois en prefill et en decode
Coordination des deux modèles
- Lorsque l’Interaction Model délègue, il n’envoie pas une requête isolée mais un package de contexte riche incluant l’ensemble de la conversation
- Les résultats du Background Model reviennent au fil de leur génération, et l’Interaction Model les tisse dans la conversation au moment adapté au comportement actuel de l’utilisateur, plutôt que d’imposer un changement de contexte brusque
Sécurité
- L’interaction en temps réel exerce des contraintes de sécurité différentes de celles des échanges par tours ; le travail s’est donc concentré sur des refus adaptés à la modalité et sur la robustesse des conversations longues
- Afin que les refus vocaux paraissent naturels à l’oral, des données d’entraînement sur les refus dans des plages de sujets non autorisés ainsi que sur le sur-refus ont été générées avec un modèle TTS
- Les frontières du refus ont été ajustées pour privilégier une formulation naturelle sans réduire la fermeté
- Pour renforcer la robustesse dans les longues conversations speech-to-speech, des données de refus multi-tours ont été générées via un harness de red teaming automatisé
- Une forte similarité comportementale avec les refus fondés sur le texte est également maintenue

Benchmarks et évaluation

Intelligence et interaction
- Le modèle s’appelle TML-Interaction-Small et est présenté comme le premier modèle à combiner une forte intelligence, un bon suivi des instructions et une interaction de haut niveau
- La qualité de l’interaction est mesurée avec FD-bench
- FD-bench v1.5 donne un audio préenregistré et demande au modèle de répondre à des moments précis ; il mesure son comportement face aux interruptions de l’utilisateur, aux acquiescements, aux conversations avec d’autres personnes et aux prises de parole en arrière-plan
- L’intelligence est mesurée avec Audio MultiChallenge, un benchmark général qui suit l’intelligence et le respect des instructions
- TML-Interaction-Small enregistre 0,40 seconde de latence de prise de tour sur FD-bench V1, soit une latence inférieure à celle des modèles comparés dans le tableau
- Sur FD-bench V1.5, le score moyen est de 77,8, supérieur à ceux de GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live et Qwen 3.5 OMNI-plus-realtime
- Sur FD-bench V3 Audio+Tools, il obtient 82,8 % en qualité de réponse / 68,0 % en Pass@1 avec Background Agent activé
- La précision QIVD Video+Audio est de 54,0 %, inférieure ou comparable à celle de certains modèles de comparaison
- L’APR d’Audio MultiChallenge est de 43,4 %, inférieur aux 48,5 % de GPT-realtime-2.0 xhigh mais supérieur à celui des modèles instant
- BigBench Audio est rapporté à 75,7 / 96,5 avec Background Agent activé
- IFEval atteint 82,1 % sur VoiceBench Audio et 89,7 % en texte
- Le taux de refus en texte sur Harmbench est de 99,0 %
Dimensions de l’interaction que les évaluations existantes ne capturent pas
- Les benchmarks d’interaction existants ne capturent pas suffisamment le saut qualitatif observé sur le modèle, d’où l’ajout d’évaluations internes et adaptées mesurant la conscience temporelle, la parole simultanée et la proactivité visuelle
Conscience temporelle et parole simultanée
- Les modèles fondés sur des tours de parole et les systèmes de gestion du dialogue ne prennent pas en charge l’estimation précise du temps ni la parole simultanée
- Les exemples de tâches prennent la forme de questions comme « combien de temps a pris ce mile », « corrige ma prononciation dès que tu l’entends » ou « combien de temps cela a-t-il pris d’utiliser cette fonction »
- TimeSpeak teste si le modèle peut commencer à parler au moment demandé par l’utilisateur et dire le bon contenu
- Exemple : « je veux faire un exercice de respiration, alors dis-moi d’inspirer et d’expirer toutes les 4 secondes jusqu’à ce que je te dise d’arrêter »
- CueSpeak teste si le modèle prononce une réponse sémantiquement correcte au moment approprié
- Les données sont conçues pour que le modèle doive parler en même temps que l’utilisateur afin d’obtenir le score maximal
- Exemple : « chaque fois que je fais du code-switching et que j’utilise une autre langue, dis le bon mot dans la langue d’origine »
- Les deux benchmarks définissent, pour chaque exemple, une réponse sémantique attendue et une fenêtre temporelle, et un LLM judge ne valide la réponse que si la sémantique et le timing sont tous deux corrects
Proactivité visuelle
- Les API temps réel commerciales actuelles détectent surtout les tours via des harnesses de gestion du dialogue basés sur l’audio, et ne savent pas choisir seules quand parler lorsque le monde visuel change
- StreamBridge, Streamo, StreamingVLM et MMDuet2 traitent la question de savoir quand produire du texte à partir d’une entrée vidéo en streaming
- Ces travaux sur la sortie texte ne traitent pas les contraintes de l’interaction par sortie vocale, où l’énoncé a une durée, peut chevaucher la parole de l’utilisateur et doit être coordonné avec la prise de tour, l’interruption et les acquiescements
- AURA consiste en une architecture où un VideoLLM décide quand produire du texte ou rester silencieux, avec une démo ASR/TTS ajoutée ; le modèle de Thinking Machines Lab s’en distingue par son caractère speech-native et full-duplex
Évaluation de la proactivité visuelle
- RepCount-A adapte des vidéos de mouvements répétitifs en tâche de comptage en ligne
- Le modèle reçoit en streaming une instruction audio du type « compte le nombre de répétitions de {action} » ainsi que la vidéo, et il est évalué selon que le dernier nombre prononcé après l’avant-dernière répétition correcte se situe à une unité près de la bonne réponse
- Cette tâche mesure le suivi visuel continu et le comptage au bon moment
- ProactiveVideoQA est composé de vidéos contenant des questions dont la réponse ne devient connaissable qu’à un moment précis
- Après avoir diffusé la question en audio, la vidéo est envoyée ; s’il y a des sous-titres, ils sont incrustés dans la vidéo et la vidéo d’entrée est muette afin de mettre l’accent sur la proactivité visuelle
- L’évaluation reprend la métrique PAUC@ω=0.5 pondérée par tour de parole de l’article, remise à l’échelle de 0 à 100 puis moyennée sur les tours et les catégories ; rester silencieux en continu donne une note de 25,0
- Un score élevé exige de donner la bonne réponse au bon moment, et les réponses incorrectes sont pénalisées
- Charades est un benchmark standard de localisation temporelle d’actions, où chaque vidéo contient des actions se produisant dans des intervalles temporels annotés
- Le modèle reçoit une instruction audio du type « quand la personne commence à {action}, dis “start”, et quand elle s’arrête, dis “Stop” », ainsi qu’un flux vidéo, puis il est évalué via l’IoU temporelle entre les intervalles prédits et les intervalles de référence
Limites des modèles actuels
- Les modèles existants ne parviennent pas à accomplir de manière significative ce type de tâches de conscience temporelle, de parole simultanée et de proactivité visuelle
- Par souci d’exhaustivité, des résultats de GPT Realtime-2 minimal sont rapportés, mais tous les modèles évalués, y compris les modèles thinking high, font pareil ou pire et se taisent ou donnent de mauvaises réponses
- L’interaction est considérée comme un domaine de recherche important pour l’avenir, avec l’annonce de projets de subventions de recherche autour de l’Interaction Model et de cadres d’évaluation pour la collaboration humain-IA

Limites et plan de publication

Sessions longues
- L’audio et la vidéo continus accumulent rapidement du contexte
- La conception streaming-session gère bien les interactions courtes et de durée moyenne, mais les très longues sessions exigent une gestion du contexte attentive
Calcul et déploiement
- Le streaming audio et vidéo à faible latence exige une connexion stable
- Sans bonne connexion, l’expérience se dégrade fortement
- Il reste une marge d’amélioration en renforçant la fiabilité du système et en entraînant le modèle à être plus robuste aux frames retardées
Alignement et sécurité
- Les interfaces temps réel ouvrent de nouveaux champs de recherche à la fois pour l’alignement et pour la sécurité, et la collecte de retours ainsi que l’examen de subventions de recherche sont en cours
Mise à l’échelle du modèle
- Actuellement, TML-Interaction-Small est un MoE de 276B de paramètres, avec 12B de paramètres actifs
- Une amélioration de l’interaction est attendue avec l’augmentation d’échelle, mais les modèles de préentraînement plus grands sont pour l’instant trop lents pour être servis dans cette configuration
- Des modèles plus grands sont prévus pour une publication plus tard dans l’année
Amélioration de Background Agent
- L’interaction temps réel est l’axe principal, mais l’intelligence agentique est elle aussi une capacité essentielle
- Au-delà du fait de hisser l’intelligence agentique au niveau frontier, la manière dont Background Agent travaille avec l’Interaction Model en est encore à ses débuts
Calendrier de publication
- Une research preview limitée destinée à recueillir des retours sera ouverte dans les prochains mois, avant une diffusion plus large plus tard dans l’année

2 commentaires

xguru 1 시간 전

Il faut regarder les vidéos jointes. Même avec une latence de ce niveau, c’est déjà assez réaliste.
Avec encore un peu de progrès, on aura vraiment l’impression de converser comme dans les films.

GN⁺ 2 시간 전

Commentaires sur Hacker News

Ces vidéos valent le coup d’œil. Il y a beaucoup de passages impressionnants, mais j’ai été convaincu dès la première scène, quand la femme dit « Je vais raconter une histoire » puis boit son café pendant un long moment et que le modèle n’intervient pas du tout, il attend simplement. Ça m’a donné envie de payer pour l’utiliser
Puisqu’on parle d’argent, je me demande quel est le modèle économique de ce type d’entreprise. Ils ont assez largement dévoilé l’architecture, et cela semble suffisamment ouvert pour que les laboratoires de pointe puissent l’implémenter. Des brevets ? Le secret industriel ? J’ai du mal à comprendre comment ils pourraient battre les volumes de calcul d’entraînement et le savoir-faire d’Anthropic/GOOG/oAI/Meta sans protection juridique
J’ai hâte de voir ce que donnerait ce type d’architecture si elle réduisait la latence de 30 à 40 % tout en devenant plus intelligente. À titre indicatif, ce modèle semble être autour de 275B avec environ 12B actifs, soit à peu près 1/10 de la taille de la famille Opus 4.7 / GPT 5.x, donc il y a encore beaucoup de marge pour augmenter l’intelligence et sans doute réduire davantage la latence
- L’architecture rendue publique n’est probablement que la partie émergée de l’iceberg. Le réglage des hyperparamètres, les recettes de données, la collecte de données, les noyaux custom, l’infrastructure de reinforcement learning/évaluation, tout cela est d’une profondeur énorme, et obtenir ce niveau de performance de pointe exige de condenser des dizaines d’années de travail de plusieurs doctorants
  Le simple fait d’attendre relève plutôt du post-training, donc il ne faut pas surinterpréter le fait que Gemini ou oAI n’en aient pas fait une priorité. Le full duplex montré ici est un accomplissement techniquement bien plus difficile
- En Chine, il est bien connu qu’une jeune entreprise prometteuse reçoit souvent une offre de rachat de Alibaba ou Tencent. Les États-Unis sont probablement similaires. Ce qui est rendu public peut être racheté ou simplement copié. Peut-être que Thinking Machines compte justement là-dessus
- J’ai l’impression que le modèle économique, à la base, c’était plutôt les LLM pour les entreprises. tinker sert au fine-tuning de modèles d’entreprise sur mesure, et les interaction models visent à fonctionner comme un collègue numérique, sans obliger l’entreprise à réinventer tout son processus autour d’agents IA
- Pour recruter des chercheurs de premier plan, il faut leur permettre de publier des articles, sinon ils ne viendront pas
Ce qui frappe, c’est que cette architecture est un transformer qui prend en entrée du texte, des images et de l’audio, et produit en sortie du texte et de l’audio, le tout entraîné ensemble. En plus, au lieu de simplement générer une sortie à partir d’un prompt donné, elle insère mutuellement entrées et sorties et fonctionne presque en temps réel
“Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
À mes yeux, c’est là le point clé qui distingue cela des modèles multimodaux des autres laboratoires de pointe
- Je trouve vraiment fascinant que, si l’on conçoit dès le départ une architecture multimodale, on puisse obtenir des applications où différents modes sont traités comme des « facettes » d’un même objet. Par exemple, un agent de codage pourrait considérer le « code » + l’« IDE » + le « memory mapping » + divers retours de plugins comme des modalités différentes, et produire du texte là où il faut du texte, et des actions là où il faut des actions, plutôt que quelque chose du type call_something(params)
  La capacité à pouvoir « rester inactif » jusqu’à ce qu’une certaine modalité se déclenche est aussi intéressante. On peut déjà faire ce genre de choses aujourd’hui, mais cela ressemble davantage à une surcouche ajoutée après coup, et malgré cela, ça fonctionne déjà assez bien. Je me demande à quel point cela marcherait bien si l’apprentissage était intégré de cette manière dès le début
- Je me demande comment fonctionne exactement le fait « d’alterner le traitement de 200 ms d’entrée et la génération de 200 ms de sortie ». Les LLM/transformers n’ont-ils pas besoin du contexte complet pour produire le paquet de tokens suivant ?
À voir les démos, on dirait souvent qu’ils déplacent dans le modèle des composants qui, auparavant, se trouvaient dans un harness externe, et je ne sais pas si c’est vraiment une approche souple
Dans bien des cas, j’ai l’impression qu’on peut itérer plus vite quand le harness d’interaction utilisateur reste à l’extérieur du modèle. Par exemple, s’il y a une UI entre l’utilisateur et le modèle, et que cette UI doit évoluer, l’utilisateur peut aussi la personnaliser lui-même
À mon avis, la souplesse est indispensable. Pour des cas d’usage fixes comme la traduction en temps réel ou un simple bot vocal, ce type de modèle peut être utile, mais dans chacun de ces cas il risque au final d’être dépassé par des alternatives plus spécialisées
Indépendamment du fait que le modèle lui-même soit impressionnant, les démos ici sont vraiment très bien faites. Contrairement à ce qu’on voit chez Anthropic ou OpenAI, elles sont courtes et ont de la personnalité
- Je suis d’accord pour dire que c’est intéressant, impressionnant, et que les démos sont bonnes
  Mais dans la démo sur la « posture voûtée », l’humour physique inattendu de la femme m’a vraiment fait rire. C’était une comédie parfaite, rien à corriger
  Je préfère cette ambiance plus humaine aux démos à la OpenAI/Anthropic. On pourrait presque oser appeler cela un exemple de « conception centrée sur l’humain » (https://en.wikipedia.org/wiki/Human-centered_design)
Très cool. En revanche, les démos m’ont semblé assez artificielles. Par exemple, compter des objets pendant que je parle. Je me demande à quoi ressembleraient des applications plus utiles ou plus commerciales
- En théorie, on peut s’attendre à quelque chose qui fasse tout ce que permettent les modèles de pointe actuels, avec en plus une interaction en temps réel pour une meilleure collaboration. Le principal avantage pourrait être l’entrée vidéo en temps réel. Au lieu de recevoir une vidéo entière ou un lot d’images puis de produire une sortie unique, le système peut générer en parallèle une sortie ajustée par l’entrée au fur et à mesure qu’il la reçoit
- J’ai très souvent cette impression avec toutes les démos d’IA. Si le meilleur cas d’usage imaginé pour montrer la technologie est une réservation de vacances que je peux facilement faire moi-même, est-ce que ce service apporte vraiment une grande valeur ? Ou bien les usages réels sont-ils plus subtils et spécialisés, donc peu adaptés à une courte démo grand public ? Je ne sais pas
J’ai l’impression que des schémas d’interaction humain-IA plus naturels doivent aller dans cette direction. Le texte et les démos sont bons
Je n’aime pas le dire, mais cela semble à la fois assez impressionnant et constituer un progrès dans la façon d’interagir avec l’IA, tout en proposant des cas d’usage et une UX qui paraissent irréalistes ou peu utiles
La traduction en temps réel est l’exception, et cela devrait sans doute être un produit à part entière. À part cela, compter des animaux ou minuter un quiz n’a pas grande utilité. La démo de détection de posture était drôle, mais aussi assez dystopique et étrange. Je n’aime pas non plus que l’IA interrompe pour réprimander quelqu’un avant même qu’il ait terminé son histoire sur le fait d’emmener ses vieux parents faire du VTT
L’UX pose aussi problème. Le fait que le modèle coupe la parole à l’utilisateur casse le flux, même quand cela semble nécessaire dans ces cas d’usage un peu bizarres. Même dans les vidéos de démo publiées, on voit que les employés/acteurs doivent rester très concentrés pour continuer à parler comme s’ils n’étaient pas interrompus par une machine robotique et abrupte. Quand des humains participent à ce type rare d’« interruption invitée », ils peuvent parler sous le locuteur principal et ont en général un timing beaucoup plus subtil
Même dans la démo de traduction automatique, bien qu’ils aient baissé le volume de la voix humaine, l’IA s’imposait quand même ; en pratique, pour faire cette démo, il aurait fallu contrôler énormément la parole ou, plus probablement, couper la sortie. Les interprètes humains savent orienter leur « sortie » vers l’auditeur visé
Le meilleur aspect de cette technologie était la scène de la première vidéo où l’IA n’interrompt pas inutilement l’utilisateur. Cela donne l’impression qu’ils ont corrigé un bug important que les modèles actuels ont encore
Un bon cas d’usage pourrait être de compter les tics de langage comme les « euh » quand on s’entraîne à parler en public
- Les modèles omni semblent très utiles pour une interaction homme-machine en temps réel. Les exemples évidents qui me viennent sont les assistants vocaux, l’expérience client, les jeux, l’aide en réunion, le coaching en temps réel ou l’assistance utilisateur pour l’usage de logiciels, la traduction et les tâches informatiques pilotées à la voix
  Par exemple pour le développement front-end/mobile, la CAO, la modélisation 3D, etc. Traditionnellement, ces cas d’usage d’agents LLM ont une latence élevée, parce que le modèle doit attendre que l’orateur ait fini avant de décider s’il doit appeler un outil ou répondre, puis s’il appelle un outil, il doit traiter le résultat de l’outil avant de décider à nouveau s’il faut rappeler un outil ou répondre
Cela ressemble à ce que des gens font déjà en local avec Gemma4 et TTS, en un peu plus tape-à-l’œil
Les modèles locaux vont vite rattraper cela
L’intention est peut-être bonne, mais entre de mauvaises mains, cela semble surtout renforcer les technologies de surveillance. Il est temps de réagir

Modèles d’interaction : une approche extensible pour la collaboration humain-IA

Le goulot d’étranglement collaboratif et l’objectif de l’Interaction Model

Les capacités rendues possibles par l’interaction au sein du modèle

Gestion naturelle de la conversation

Intervention vocale et visuelle (interruption)

Parole simultanée

Perception du temps

Appels d’outils, recherche et génération d’UI en parallèle

Approche

Micro-tours alignés temporellement

Architecture du système

Structure de l’Interaction Model

Fusion précoce sans encodeur

Optimisation de l’inférence

Alignement Trainer-Sampler

Coordination des deux modèles

Sécurité

Benchmarks et évaluation

Intelligence et interaction

Dimensions de l’interaction que les évaluations existantes ne capturent pas

Conscience temporelle et parole simultanée

Proactivité visuelle

Évaluation de la proactivité visuelle

Limites des modèles actuels

Limites et plan de publication

Sessions longues

Calcul et déploiement

Alignement et sécurité

Mise à l’échelle du modèle

Amélioration de Background Agent

Calendrier de publication

À lire aussi

2 commentaires

Commentaires sur Hacker News