2 points par GN⁺ 2024-11-04 | 1 commentaires | Partager sur WhatsApp
  • Standard Intelligence mène des recherches sur l’apprentissage cross-modal scalable et publie en open source hertz-dev, un modèle de base de type transformer dédié à l’audio.

  • hertz-dev compte 8,5 milliards de paramètres et est spécialisé dans la modélisation audio.

  • hertz-codec

    • Il s’agit d’un autoencodeur audio convolutif qui convertit une voix mono en 16 kHz en une représentation latente à 8 Hz.
    • À un débit binaire de 1 kbps, il surpasse Soundstream et Encodec, avec des performances comparables à DAC.
    • Il dispose de 5 millions de paramètres pour l’encodeur et de 95 millions pour le décodeur.
  • hertz-vae

    • Décodeur transformer de 1,8 milliard de paramètres, il sert de prior appris pour le VAE audio.
    • Il prédit la prochaine trame audio encodée à l’aide de 8 192 représentations latentes échantillonnées.
  • hertz-dev

    • Il s’agit d’un empilement de transformers de 6,6 milliards de paramètres.
    • En initialisant une partie des poids d’un modèle de langage préentraîné, il a été entraîné pendant une seule époque sur 500 milliards de tokens.
    • Ce modèle constitue un bon point de départ pour les chercheurs souhaitant le fine-tuner pour diverses tâches.
    • Sur une RTX 4090, la latence théorique est de 65 ms et la latence moyenne réelle de 120 ms.
  • Perspectives

    • Hertz-dev offre un aperçu de l’avenir des interactions vocales en temps réel et constitue un modèle que les chercheurs peuvent facilement fine-tuner et faire évoluer.
    • Une version plus grande de Hertz est en cours de développement, avec un tuning par apprentissage par renforcement censé améliorer fortement les capacités brutes du modèle et sa cohérence finale.
  • Exemples générés

    • Pour montrer les capacités de modélisation audio de hertz-dev, des exemples de génération mono et bi-canal ainsi que des conversations en temps réel entre le modèle et un humain sont fournis.
  • Objectif de Standard Intelligence

    • L’objectif est de construire une intelligence artificielle générale, et l’équipe compte actuellement 4 personnes.
    • L’entreprise recrute des personnes intéressées par la construction de l’AGI et accueille également volontiers les contacts de personnes intéressées par un investissement.

1 commentaires

 
GN⁺ 2024-11-04
Avis Hacker News
  • Les personnes qui travaillent sur des modèles vocaux se demandent si les sons produits par le système ont des effets physiologiques

    • Le modèle est bien supérieur aux moteurs TTS open source existants
    • Ce serait bien d’ajouter des capacités multimodales pour qu’il puisse aussi accepter du texte
    • On pourrait affiner la sortie, comme avec Piper, pour reproduire une intonation plus naturelle
    • Il serait utile de chaîner un LLM texte vers Piper, puis Piper vers Hertz-dev
  • Hertz est présenté comme le premier modèle, mais il existe un modèle similaire appelé Moshi

  • L’approche de conduite autonome de Tesla, basée uniquement sur la vision, rend la technologie plus accessible et plus facile à faire évoluer

    • Elle permet de collecter des jeux de données massifs et d’itérer rapidement
    • Une fois un certain niveau de maturité atteint, il est possible que des données issues de capteurs supplémentaires soient réintégrées
  • Exploration d’idées autour des systèmes d’interaction vocale

    • Actuellement, la plupart des interactions vocales convertissent la voix en texte avant de la reconvertir en audio
    • S’il était possible de développer un système qui réponde directement par la voix sans passer par le texte, il pourrait produire des réponses naturelles et spontanées
    • On se demande si le modèle d’interaction vocale suit le processus standard voix-texte-voix ou s’il explore un traitement voix-à-voix
  • On se demande quelle est la licence des poids du modèle

  • Les échantillons vocaux produisent souvent des sons dénués de sens, mais ils sont excellents sur le plan acoustique

    • Avec SD et les LLMs, on peut déboguer en étudiant la réaction à de petites modifications
    • Comme Hertz-dev utilise le son en entrée, il est difficile de distinguer quels tokens il faut ajuster
    • Pour un usage en temps réel, ce genre de bidouillage est impossible
    • On se demande comment étudier de manière systématique le comportement de Hertz-dev
  • Exploration des VUI (Voice User Interface), qui semblent utiles

    • Les VUI sont vues comme l’avenir de l’interaction avec l’informatique
    • Elles pourraient ouvrir l’accès à de nouveaux groupes d’utilisateurs, comme les enfants et les personnes âgées
  • Les paramètres du codec rappellent les codecs vocaux militaires de 2010

    • Ils utilisent des trames de 120 ms et un encodage audio en 16 KHz
    • Lien IEEE
  • La voix semble légèrement déformée et il y a du bruit de fond

    • On se demande si cela vient des limites du modèle ou de la qualité des données d’entraînement
  • Lien vers le dépôt Hertz-dev