- OpenAI introduit de nouvelles fonctionnalités vocales et d’image dans ChatGPT
- Ces nouvelles fonctionnalités offrent une interface plus intuitive, permettant aux utilisateurs de converser à la voix ou de montrer des images à ChatGPT
- Les utilisateurs peuvent exploiter ces fonctionnalités de diverses façons, par exemple en prenant une photo d’un monument pour échanger en temps réel, ou en photographiant leur réfrigérateur et leur garde-manger pour décider du menu du dîner
- Déploiement prévu au cours des deux prochaines semaines pour les utilisateurs Plus et Enterprise ; la fonctionnalité vocale sera disponible sur iOS et Android, et la fonctionnalité d’image sur toutes les plateformes
- La nouvelle fonctionnalité vocale est propulsée par un modèle de text-to-speech capable de générer un audio de type humain à partir de texte et de quelques secondes d’un échantillon vocal
- La fonctionnalité vocale a été développée en collaboration avec des comédiens de doublage professionnels et utilise Whisper, le système open source de reconnaissance vocale d’OpenAI, pour convertir les paroles en texte
- La fonctionnalité de compréhension d’image est propulsée par GPT-3.5 et GPT-4, qui appliquent des capacités de raisonnement linguistique à une grande variété d’images
- OpenAI déploie progressivement ces fonctionnalités afin de garantir un usage sûr et utile, tout en préparant les utilisateurs à des systèmes plus puissants à l’avenir
- La nouvelle technologie vocale présente des risques potentiels pour des acteurs malveillants pouvant usurper l’identité de personnalités publiques ou commettre des fraudes
- Les modèles fondés sur la vision posent également de nouveaux défis, par exemple les hallucinations concernant des personnes ou les problèmes liés à la dépendance à l’interprétation d’images par le modèle dans des domaines à haut risque
- OpenAI a pris des mesures pour respecter la vie privée des individus en limitant la capacité de ChatGPT à analyser les personnes et à faire des déclarations directes à leur sujet
- OpenAI communique de manière transparente sur les limites du modèle, en soulignant en particulier ses limites dans la recherche et pour les langues utilisant des écritures non romanes
- Les utilisateurs Plus et Enterprise pourront essayer les fonctionnalités vocales et d’image au cours des deux prochaines semaines, et d’autres groupes d’utilisateurs, y compris les développeurs, y auront accès peu après
1 commentaires
Réactions sur Hacker News