-
Standard Intelligence mène des recherches sur l’apprentissage cross-modal scalable et publie en open source
hertz-dev, un modèle de base de type transformer dédié à l’audio. -
hertz-devcompte 8,5 milliards de paramètres et est spécialisé dans la modélisation audio. -
hertz-codec
- Il s’agit d’un autoencodeur audio convolutif qui convertit une voix mono en 16 kHz en une représentation latente à 8 Hz.
- À un débit binaire de 1 kbps, il surpasse Soundstream et Encodec, avec des performances comparables à DAC.
- Il dispose de 5 millions de paramètres pour l’encodeur et de 95 millions pour le décodeur.
-
hertz-vae
- Décodeur transformer de 1,8 milliard de paramètres, il sert de prior appris pour le VAE audio.
- Il prédit la prochaine trame audio encodée à l’aide de 8 192 représentations latentes échantillonnées.
-
hertz-dev
- Il s’agit d’un empilement de transformers de 6,6 milliards de paramètres.
- En initialisant une partie des poids d’un modèle de langage préentraîné, il a été entraîné pendant une seule époque sur 500 milliards de tokens.
- Ce modèle constitue un bon point de départ pour les chercheurs souhaitant le fine-tuner pour diverses tâches.
- Sur une RTX 4090, la latence théorique est de 65 ms et la latence moyenne réelle de 120 ms.
-
Perspectives
- Hertz-dev offre un aperçu de l’avenir des interactions vocales en temps réel et constitue un modèle que les chercheurs peuvent facilement fine-tuner et faire évoluer.
- Une version plus grande de Hertz est en cours de développement, avec un tuning par apprentissage par renforcement censé améliorer fortement les capacités brutes du modèle et sa cohérence finale.
-
Exemples générés
- Pour montrer les capacités de modélisation audio de
hertz-dev, des exemples de génération mono et bi-canal ainsi que des conversations en temps réel entre le modèle et un humain sont fournis.
- Pour montrer les capacités de modélisation audio de
-
Objectif de Standard Intelligence
- L’objectif est de construire une intelligence artificielle générale, et l’équipe compte actuellement 4 personnes.
- L’entreprise recrute des personnes intéressées par la construction de l’AGI et accueille également volontiers les contacts de personnes intéressées par un investissement.
1 commentaires
Avis Hacker News
Les personnes qui travaillent sur des modèles vocaux se demandent si les sons produits par le système ont des effets physiologiques
Hertz est présenté comme le premier modèle, mais il existe un modèle similaire appelé Moshi
L’approche de conduite autonome de Tesla, basée uniquement sur la vision, rend la technologie plus accessible et plus facile à faire évoluer
Exploration d’idées autour des systèmes d’interaction vocale
On se demande quelle est la licence des poids du modèle
Les échantillons vocaux produisent souvent des sons dénués de sens, mais ils sont excellents sur le plan acoustique
Exploration des VUI (Voice User Interface), qui semblent utiles
Les paramètres du codec rappellent les codecs vocaux militaires de 2010
La voix semble légèrement déformée et il y a du bruit de fond
Lien vers le dépôt Hertz-dev