2 points par GN⁺ 2024-10-02 | 1 commentaires | Partager sur WhatsApp
  • Hassaan et Quinn, cofondateurs de Tavus, présentent leur société de recherche en IA et leur plateforme de développement d'API vidéo
  • Depuis 2020, ils développent des modèles vidéo IA pour des « jumeaux numériques » ou des avatars
  • Ils partagent les défis liés à la création d'une interface vidéo IA permettant des conversations réalistes avec des humains

Défis

  • Pour être efficace, une vidéo conversationnelle nécessite une latence très faible et une compréhension du contexte de la conversation
  • Dans une conversation rapide entre amis, il s'écoule environ 250 ms entre deux prises de parole, mais les sujets complexes ou les échanges avec une nouvelle personne demandent un temps de « réflexion » supplémentaire
  • Une latence inférieure à 1000 ms rend la conversation plus réaliste

Décisions d'architecture

  • Trouver le bon équilibre entre latence, scalabilité et coût a représenté un défi majeur
  • Il a fallu tout reconstruire depuis zéro pour réduire la latence
  • Il fallait aussi réduire les coûts de calcul tout en prenant en charge des milliers de conversations simultanées

Développement initial

  • Au début du développement, chaque conversation devait être exécutée sur un H100 dédié
  • Cette approche n'était ni scalable ni économique

Développement du modèle Phoenix-2

  • Un nouveau modèle, Phoenix-2, a été développé avec plusieurs améliorations
  • Le passage d'un backbone basé sur NeRF à Gaussian Splatting a permis de générer des images plus vite qu'en temps réel
  • L'utilisation de la mémoire et des cœurs GPU a été optimisée pour permettre une exécution sur du matériel modeste
  • D'autres méthodes ont aussi été utilisées pour gagner du temps et réduire les coûts, comme le streaming vs batching et la parallélisation des processus

Optimisation

  • Chaque composant (vision, ASR, LLM, TTS, génération vidéo) a dû être optimisé pour fonctionner à très haute vitesse
  • Le plus gros problème concernait le LLM
  • Même si le débit en tokens par seconde (t/s) est élevé, un temps trop long jusqu'au premier token (ttft) pose problème
  • La plupart des fournisseurs étaient beaucoup trop lents

Détection de fin de parole

  • La détection de fin de parole s'est révélée difficile
  • La solution de base consiste à « décider » la fin de parole après un certain temps de silence, mais cela ajoute de la latence
  • Il était crucial de bien caler le timing pour éviter que l'agent IA n'interrompe l'utilisateur

Résultats

  • Grâce à ces optimisations, la latence a été réduite de 3 à 5 secondes à moins d'une seconde (jusqu'à 600 ms)
  • Une latence inférieure à une seconde a aussi été atteinte sur du matériel modeste
  • L'entreprise compte plusieurs clients, comme Delphi, et les conversations avec les jumeaux numériques durent de quelques minutes à jusqu'à 4 heures

Récapitulatif de GN⁺

  • Le modèle vidéo IA de Tavus vise des conversations naturelles avec des humains
  • L'architecture a été reconstruite et optimisée pour réduire la latence
  • Le modèle Phoenix-2 peut générer des images plus vite qu'en temps réel, même sur du matériel modeste
  • Cette technologie pourrait devenir un élément important de l'interface homme-machine
  • Parmi les autres projets aux fonctionnalités similaires figure Duplex de Google

1 commentaires

 
GN⁺ 2024-10-02
Commentaires Hacker News
  • J’aime le site web et le bruit du modem, le chapeau de cowboy aussi
  • L’expérience de chat avec les deux avatars n’est pas bonne, ça coupe souvent et c’est déroutant
  • La reconnaissance d’image est bonne, l’avatar pouvait reconnaître des objets quand il répondait lentement
  • Merci d’avoir partagé les difficultés concrètes, ça va s’améliorer avec le temps
  • La version Hassan était meilleure, elle reconnaissait l’arrière-plan et parlait du modèle sur le mur
    • Discussion à propos d’un set LEGO
  • Dans la salle de bain, la caméra pointait une serviette et il a dit « Quelle salle de bain chaleureuse »
  • J’avais l’impression de parler à une vraie personne, je ne pouvais pas la traiter comme du code
    • Cela m’a fait réfléchir à l’effort conscient qu’implique une conversation avec une personne
    • Quand j’utilise Google Search, je n’emploie que le minimum de mots-clés
    • Je crains que cette technologie n’entraîne les gens à adopter un comportement similaire
  • Si vous vous intéressez à l’IA multimodale à faible latence, Tavus sponsorise un hackathon à SF les 19 et 20 octobre
    • Une piste à distance est aussi proposée
  • Fonctionnalités de la démo : 9,5/10
    • Effet glaçant : 10/10
  • Je ne suis pas habitué aux déploiements GPU, mais cela semble coûter cher et les ressources sont difficiles à obtenir
    • Je me demande comment ils gèrent des ressources GPU cloud à grande échelle
    • Est-ce qu’ils allouent un GPU par connexion WebSocket ? Si oui, cela coûterait très cher
  • Techniquement, c’est très impressionnant, l’avatar Carter a l’air tendu
    • Il y a quelque chose d’étrange avec la bouche et les dents, mais la réactivité est rapide
    • J’ai déjà vu plus de latence sur Zoom
    • Je pense que c’est l’avenir des centres d’appels, et si les avatars deviennent plus expressifs, le CSAT montera
  • Travail techniquement stupéfiant, un temps de réponse inférieur à une seconde est extrêmement impressionnant
    • C’est effrayant de pouvoir parler à une fausse personne sur FaceTime
    • Je me demande ce qu’ils pensent de l’impact social
    • Il existe aujourd’hui une crise de solitude due au manque de liens humains
  • ChatGPT a du mal à détecter les pauses dans la conversation
    • Il coupe toujours la parole