1 points par GN⁺ 2023-09-26 | 1 commentaires | Partager sur WhatsApp
  • OpenAI introduit de nouvelles fonctionnalités vocales et d’image dans ChatGPT
  • Ces nouvelles fonctionnalités offrent une interface plus intuitive, permettant aux utilisateurs de converser à la voix ou de montrer des images à ChatGPT
  • Les utilisateurs peuvent exploiter ces fonctionnalités de diverses façons, par exemple en prenant une photo d’un monument pour échanger en temps réel, ou en photographiant leur réfrigérateur et leur garde-manger pour décider du menu du dîner
  • Déploiement prévu au cours des deux prochaines semaines pour les utilisateurs Plus et Enterprise ; la fonctionnalité vocale sera disponible sur iOS et Android, et la fonctionnalité d’image sur toutes les plateformes
  • La nouvelle fonctionnalité vocale est propulsée par un modèle de text-to-speech capable de générer un audio de type humain à partir de texte et de quelques secondes d’un échantillon vocal
  • La fonctionnalité vocale a été développée en collaboration avec des comédiens de doublage professionnels et utilise Whisper, le système open source de reconnaissance vocale d’OpenAI, pour convertir les paroles en texte
  • La fonctionnalité de compréhension d’image est propulsée par GPT-3.5 et GPT-4, qui appliquent des capacités de raisonnement linguistique à une grande variété d’images
  • OpenAI déploie progressivement ces fonctionnalités afin de garantir un usage sûr et utile, tout en préparant les utilisateurs à des systèmes plus puissants à l’avenir
  • La nouvelle technologie vocale présente des risques potentiels pour des acteurs malveillants pouvant usurper l’identité de personnalités publiques ou commettre des fraudes
  • Les modèles fondés sur la vision posent également de nouveaux défis, par exemple les hallucinations concernant des personnes ou les problèmes liés à la dépendance à l’interprétation d’images par le modèle dans des domaines à haut risque
  • OpenAI a pris des mesures pour respecter la vie privée des individus en limitant la capacité de ChatGPT à analyser les personnes et à faire des déclarations directes à leur sujet
  • OpenAI communique de manière transparente sur les limites du modèle, en soulignant en particulier ses limites dans la recherche et pour les langues utilisant des écritures non romanes
  • Les utilisateurs Plus et Enterprise pourront essayer les fonctionnalités vocales et d’image au cours des deux prochaines semaines, et d’autres groupes d’utilisateurs, y compris les développeurs, y auront accès peu après

1 commentaires

 
GN⁺ 2023-09-26
Réactions sur Hacker News
  • Les nouvelles fonctionnalités vocales et d’image de ChatGPT ont du potentiel, mais la latence entre les requêtes et les réponses suscite des inquiétudes.
  • Cette technologie pourrait être utilisée pour la planification robotique, ce qui pourrait permettre à des robots à usage général d’effectuer des tâches simples.
  • Les avancées de ChatGPT pourraient déstabiliser de nombreuses startups qui tentaient de développer des capacités multimodales.
  • Certains expriment leur déception face au retrait de la fonctionnalité de navigation web sans annonce appropriée.
  • Les nouvelles fonctionnalités pourraient servir à intégrer une reconnaissance d’image robuste basée sur l’IA dans des interfaces utilisateur d’applications et à générer du code exécutable d’automatisation de tests.
  • L’expérience utilisateur la plus intuitive semble être le chat textuel, mais les interactions avec les images sont également intéressantes.
  • L’ajout de la prise en charge des images pourrait être détourné par des étudiants pour obtenir des réponses à leurs devoirs.
  • Des critiques portent sur le manque de communication autour des nouvelles fonctionnalités d’OpenAI et de leur déploiement.
  • Les nouvelles fonctionnalités pourraient réduire la complexité et la latence liées à l’intégration de divers services d’IA dans des projets personnels.
  • Certains reprochent à ChatGPT de rester en mode « démo impressionnante » et de ne pas exploiter pleinement son potentiel, par exemple en utilisant la voix pour expliquer des programmes.