ChatGPT peut désormais voir, entendre et parler

kuroneko · 2023-09-26T10:09:40+09:00

De nouvelles fonctionnalités vocales et d’image sont disponibles dans ChatGPT. Il devient possible de converser naturellement par la voix et de poser des questions en joignant des images. La voix est convertie en texte via Whisper, et les réponses sont transformées en voix de comédien professionnel grâce à un nouveau modèle de TTS. Ce nouveau modèle de TTS peut reproduire fidèlement la voix d’une personne à partir de seulement quelques secondes d’échantillon vocal. Ce modèle est également utilisé pour la fonctionnalité de traduction de podcasts de Spotify, qui traduit en plusieurs langues tout en conservant la voix du podcasteur. Plusieurs images peuvent être jointes en une seule fois, et le système reconnaît en détail non seulement le texte présent dans les images, mais aussi les objets. Il est possible de demander comment utiliser un outil ou un appareil, ou de discuter de recettes à partir des ingrédients présents dans un réfrigérateur. Il devient également possible d’analyser des graphiques ou de résoudre des problèmes de mathématiques. Dans l’application mobile, un outil de dessin permet d’indiquer une zone précise de l’image sur laquelle se concentrer. Pour des raisons de sécurité et de protection de la vie privée, les fonctions d’analyse ou de commentaire sur des personnes sont fortement limitées. Le déploiement commencera dans les deux prochaines semaines, d’abord pour les utilisateurs Plus et Enterprise. La voix fonctionne uniquement sur iOS et Android, tandis que la pièce jointe d’images est disponible sur toutes les plateformes.

(openai.com)

22 points par kuroneko 2023-09-26 | 4 commentaires | Partager sur WhatsApp

De nouvelles fonctionnalités vocales et d’image sont disponibles dans ChatGPT.
Il devient possible de converser naturellement par la voix et de poser des questions en joignant des images.
La voix est convertie en texte via Whisper, et les réponses sont transformées en voix de comédien professionnel grâce à un nouveau modèle de TTS.
- Ce nouveau modèle de TTS peut reproduire fidèlement la voix d’une personne à partir de seulement quelques secondes d’échantillon vocal.
- Ce modèle est également utilisé pour la fonctionnalité de traduction de podcasts de Spotify, qui traduit en plusieurs langues tout en conservant la voix du podcasteur.
Plusieurs images peuvent être jointes en une seule fois, et le système reconnaît en détail non seulement le texte présent dans les images, mais aussi les objets.
- Il est possible de demander comment utiliser un outil ou un appareil, ou de discuter de recettes à partir des ingrédients présents dans un réfrigérateur.
- Il devient également possible d’analyser des graphiques ou de résoudre des problèmes de mathématiques.
- Dans l’application mobile, un outil de dessin permet d’indiquer une zone précise de l’image sur laquelle se concentrer.
- Pour des raisons de sécurité et de protection de la vie privée, les fonctions d’analyse ou de commentaire sur des personnes sont fortement limitées.
Le déploiement commencera dans les deux prochaines semaines, d’abord pour les utilisateurs Plus et Enterprise.
La voix fonctionne uniquement sur iOS et Android, tandis que la pièce jointe d’images est disponible sur toutes les plateformes.

4 commentaires

alstjr7375 2023-09-26

Skynet arrive...

ciber27 2023-09-26

L’OS du film Her va donc devenir possible.

kuroneko 2023-09-26

C’était brièvement apparu lors de la toute première sortie de GPT-4, mais le fait qu’il ne se contente pas de reconnaître des images et qu’il les comprenne, c’est vraiment fascinant.

Dans les exemples, il y a un passage où l’on demande comment régler la selle d’un vélo,
et on dirait que ce n’est pas juste de la reconnaissance d’image, mais presque comme s’il consultait le manuel pour trouver l’outil adapté...

Je me demandais s’il fallait un abonnement Plus, mais là, ça change quand même un peu la donne... Je suis trop curieux.

kuroneko 2023-09-26

Résumé IA du fil HN

modeless : il estime que la latence est actuellement le principal problème des assistants vocaux, et pense qu’en construisant un modèle de prise de parole alternée dans une conversation vocale, il sera possible d’avoir des échanges plus naturels.
TheEzEzz : il a construit, à l’aide de Llama et d’autres outils, un système de commandes vocales à faible latence, proche d’une conversation naturelle. Il pense qu’une recherche continue dans ce domaine pourrait permettre de développer de nouvelles applications.
cyrux004 : il s’interroge sur la capacité des modèles exécutés en local à atteindre les mêmes performances que les modèles basés sur le cloud, en particulier pour les systèmes complexes.
TheEzEzz : il reconnaît que cela dépend des applications et prévoit qu’une approche hybride se généralisera, où les modèles locaux assurent le traitement initial et ne sollicitent de grands modèles cloud qu’en cas de besoin.
simian1983 : il demande ce qui se passerait si le système recevait des requêtes absurdes ou malveillantes.
TheEzEzz : il répond que le système est entraîné à ignorer les phrases non pertinentes afin que le bruit de fond ne perturbe pas les requêtes.
furyofantares : il souligne l’importance de pouvoir interrompre la réponse d’un assistant vocal, comme on le ferait en parlant à une personne.
dotancohen : il suggère que les interruptions pourraient être un signe d’humanité que les systèmes d’IA ne maîtrisent pas encore.
jonplackett : il estime qu’un véritable assistant vocal de niveau humain devrait être capable de comprendre l’intonation, qui transmet des informations importantes absentes du texte.

ChatGPT peut désormais voir, entendre et parler

À lire aussi

4 commentaires