- Hassaan et Quinn, cofondateurs de Tavus, présentent leur société de recherche en IA et leur plateforme de développement d'API vidéo
- Depuis 2020, ils développent des modèles vidéo IA pour des « jumeaux numériques » ou des avatars
- Ils partagent les défis liés à la création d'une interface vidéo IA permettant des conversations réalistes avec des humains
Défis
- Pour être efficace, une vidéo conversationnelle nécessite une latence très faible et une compréhension du contexte de la conversation
- Dans une conversation rapide entre amis, il s'écoule environ 250 ms entre deux prises de parole, mais les sujets complexes ou les échanges avec une nouvelle personne demandent un temps de « réflexion » supplémentaire
- Une latence inférieure à 1000 ms rend la conversation plus réaliste
Décisions d'architecture
- Trouver le bon équilibre entre latence, scalabilité et coût a représenté un défi majeur
- Il a fallu tout reconstruire depuis zéro pour réduire la latence
- Il fallait aussi réduire les coûts de calcul tout en prenant en charge des milliers de conversations simultanées
Développement initial
- Au début du développement, chaque conversation devait être exécutée sur un H100 dédié
- Cette approche n'était ni scalable ni économique
Développement du modèle Phoenix-2
- Un nouveau modèle, Phoenix-2, a été développé avec plusieurs améliorations
- Le passage d'un backbone basé sur NeRF à Gaussian Splatting a permis de générer des images plus vite qu'en temps réel
- L'utilisation de la mémoire et des cœurs GPU a été optimisée pour permettre une exécution sur du matériel modeste
- D'autres méthodes ont aussi été utilisées pour gagner du temps et réduire les coûts, comme le streaming vs batching et la parallélisation des processus
Optimisation
- Chaque composant (vision, ASR, LLM, TTS, génération vidéo) a dû être optimisé pour fonctionner à très haute vitesse
- Le plus gros problème concernait le LLM
- Même si le débit en tokens par seconde (t/s) est élevé, un temps trop long jusqu'au premier token (ttft) pose problème
- La plupart des fournisseurs étaient beaucoup trop lents
Détection de fin de parole
- La détection de fin de parole s'est révélée difficile
- La solution de base consiste à « décider » la fin de parole après un certain temps de silence, mais cela ajoute de la latence
- Il était crucial de bien caler le timing pour éviter que l'agent IA n'interrompe l'utilisateur
Résultats
- Grâce à ces optimisations, la latence a été réduite de 3 à 5 secondes à moins d'une seconde (jusqu'à 600 ms)
- Une latence inférieure à une seconde a aussi été atteinte sur du matériel modeste
- L'entreprise compte plusieurs clients, comme Delphi, et les conversations avec les jumeaux numériques durent de quelques minutes à jusqu'à 4 heures
Récapitulatif de GN⁺
- Le modèle vidéo IA de Tavus vise des conversations naturelles avec des humains
- L'architecture a été reconstruite et optimisée pour réduire la latence
- Le modèle Phoenix-2 peut générer des images plus vite qu'en temps réel, même sur du matériel modeste
- Cette technologie pourrait devenir un élément important de l'interface homme-machine
- Parmi les autres projets aux fonctionnalités similaires figure Duplex de Google
1 commentaires
Commentaires Hacker News