Show HN : un agent vidéo IA en temps réel avec moins d’une seconde de latence

(news.ycombinator.com)

2 points par GN⁺ 2024-10-02 | 1 commentaires | Partager sur WhatsApp

Tavus s’est concentré sur la réduction du temps de réponse à moins d’une seconde afin de créer une interface vidéo IA capable de converser naturellement avec les humains
Dans une conversation rapide, l’intervalle entre deux prises de parole n’est que d’environ 250 ms, donc un agent vidéo doit combiner une faible latence avec une compréhension du contexte conversationnel
Le premier Phoenix-1 nécessitait un H100 par conversation, ce qui posait des limites de coût et de scalabilité ; Phoenix-2 vise une génération à plus de 70 fps sur du matériel moins puissant grâce au passage au Gaussian Splatting
Dans l’ensemble du pipeline, ils ont réduit les coûts de vision, ASR, LLM, TTS et génération vidéo, et côté LLM, le vrai goulot d’étranglement perçu n’était pas le nombre de tokens par seconde mais le time-to-first token
Se baser uniquement sur le silence pour déterminer la fin d’un tour de parole provoque des interruptions et de la latence de réponse ; grâce à la détection de fin de tour et à l’anticipation de l’entrée, ils ont ramené une latence de 3 à 5 secondes à moins d’une seconde, voire 600 ms dans les meilleurs cas

L’objectif visé par Tavus : une vitesse de réponse qui semble humaine

Tavus est une société de recherche en IA et une plateforme de développement d’API vidéo qui crée depuis 2020 des modèles vidéo IA pour des jumeaux numériques ou des avatars
Ils proposent comme démonstration hassaanraza.com, où l’on peut discuter avec le jumeau numérique de Hassaan, ainsi que tavus.io, où se trouve le « demo twin » Carter
La vidéo conversationnelle pourrait devenir une manière plus naturelle d’interagir avec les ordinateurs, mais cela exige à la fois une faible latence et une compréhension qui reflète le contexte de la conversation
L’objectif de latence est inférieur à 1 seconde
- Dans une conversation rapide entre amis, l’intervalle entre deux prises de parole est d’environ 250 ms
- Les sujets plus complexes ou les échanges avec des inconnus impliquent un temps de « réflexion » supplémentaire
- En dessous de 1000 ms, une conversation semble déjà assez réaliste

Une implémentation qui concilie latence, scalabilité et coût

L’architecture devait satisfaire simultanément des contraintes de latence, de scalabilité et de coût, ce qui les a amenés à repenser le système dès le départ pour le faible délai
Modèle vidéo et coût matériel
- Au début du développement, pour exécuter le modèle Phoenix-1 à plus de 30 fps, il fallait charger tous les composants et tous les poids du modèle dans la mémoire GPU, et un H100 dédié était nécessaire pour chaque conversation
- Cette approche était difficile à faire monter en charge et très coûteuse
- Phoenix-2 est un nouveau modèle intégrant plusieurs améliorations, notamment sur la vitesse d’inférence
  - Passage d’un backbone basé sur NeRF au Gaussian Splatting
  - Exigence de génération d’images à plus de 70 fps, donc plus rapide que le temps réel, sur du matériel moins puissant
  - Travail d’optimisation de l’usage de la mémoire GPU et des cœurs afin de permettre l’exécution sur des machines de moindre capacité
  - L’usage du streaming et d’une parallélisation plutôt que du traitement par lots a aussi servi à réduire le temps et les coûts
LLM et détection de fin de tour de parole
- Pour ramener la latence entre deux prises de parole sous la seconde, ils ont fortement optimisé chaque maillon : vision, ASR, LLM, TTS et génération vidéo
- Le plus gros goulot d’étranglement était le LLM
  - Plus que la vitesse en tokens par seconde, c’est le time-to-first token qui comptait pour la latence réellement perçue
  - Même des services comme Groq affichaient un haut débit de tokens par seconde, mais un time-to-first token trop lent pour cet usage, et la plupart des fournisseurs étaient trop lents
- Le goulot d’étranglement suivant concernait la détection du moment où l’utilisateur avait fini de parler
  - Déterminer l’arrêt à partir du temps de silence ajoutait de la latence
  - Si le seuil était trop court, l’agent IA coupait la parole à l’utilisateur ; s’il était trop long, la réponse arrivait trop tard
  - Il fallait un modèle dédié capable de détecter précisément la fin de tour (end-of-turn) à partir des signaux conversationnels et d’anticiper l’entrée pour préparer la réponse à l’avance
- Grâce à ces optimisations, ils ont fait passer une latence de 3 à 5 secondes à moins d’une seconde, voire 600 ms dans les cas les plus rapides, tout en exécutant le système sur du matériel moins puissant

Démo et cas d’usage

Tavus compte parmi ses clients Delphi, une plateforme de réplication de coachs professionnels et d’experts, où certains utilisateurs ont des conversations avec des jumeaux numériques durant plusieurs minutes, une heure, voire quatre heures
Après avoir vu la démo, les personnes souhaitant essayer l’API peuvent s’inscrire gratuitement sur tavus.io

1 commentaires

GN⁺ 2024-10-02

Commentaires Hacker News

J’aime le site web et le bruit du modem, le chapeau de cowboy aussi
L’expérience de chat avec les deux avatars n’est pas bonne, ça coupe souvent et c’est déroutant
La reconnaissance d’image est bonne, l’avatar pouvait reconnaître des objets quand il répondait lentement
Merci d’avoir partagé les difficultés concrètes, ça va s’améliorer avec le temps
La version Hassan était meilleure, elle reconnaissait l’arrière-plan et parlait du modèle sur le mur
- Discussion à propos d’un set LEGO
Dans la salle de bain, la caméra pointait une serviette et il a dit « Quelle salle de bain chaleureuse »
J’avais l’impression de parler à une vraie personne, je ne pouvais pas la traiter comme du code
- Cela m’a fait réfléchir à l’effort conscient qu’implique une conversation avec une personne
- Quand j’utilise Google Search, je n’emploie que le minimum de mots-clés
- Je crains que cette technologie n’entraîne les gens à adopter un comportement similaire
Si vous vous intéressez à l’IA multimodale à faible latence, Tavus sponsorise un hackathon à SF les 19 et 20 octobre
- Une piste à distance est aussi proposée
Fonctionnalités de la démo : 9,5/10
- Effet glaçant : 10/10
Je ne suis pas habitué aux déploiements GPU, mais cela semble coûter cher et les ressources sont difficiles à obtenir
- Je me demande comment ils gèrent des ressources GPU cloud à grande échelle
- Est-ce qu’ils allouent un GPU par connexion WebSocket ? Si oui, cela coûterait très cher
Techniquement, c’est très impressionnant, l’avatar Carter a l’air tendu
- Il y a quelque chose d’étrange avec la bouche et les dents, mais la réactivité est rapide
- J’ai déjà vu plus de latence sur Zoom
- Je pense que c’est l’avenir des centres d’appels, et si les avatars deviennent plus expressifs, le CSAT montera
Travail techniquement stupéfiant, un temps de réponse inférieur à une seconde est extrêmement impressionnant
- C’est effrayant de pouvoir parler à une fausse personne sur FaceTime
- Je me demande ce qu’ils pensent de l’impact social
- Il existe aujourd’hui une crise de solitude due au manque de liens humains
ChatGPT a du mal à détecter les pauses dans la conversation
- Il coupe toujours la parole

Show HN : un agent vidéo IA en temps réel avec moins d’une seconde de latence

L’objectif visé par Tavus : une vitesse de réponse qui semble humaine

Une implémentation qui concilie latence, scalabilité et coût

Modèle vidéo et coût matériel

LLM et détection de fin de tour de parole

Démo et cas d’usage

À lire aussi

1 commentaires

Commentaires Hacker News