ChatGPT adopte la conversation vocale et l’entrée par image

(openai.com)

1 points par GN⁺ 2023-09-26 | 1 commentaires | Partager sur WhatsApp

OpenAI déploie progressivement dans ChatGPT la conversation vocale et l’entrée par image, permettant d’aller au-delà du texte pour dialoguer à l’oral et poser des questions à partir de photos
La fonction vocale est disponible sur opt-in dans l’application mobile, avec un choix parmi 5 voix, et Whisper convertit la parole de l’utilisateur en texte
La fonction image prend en charge les photos, captures d’écran et documents mêlant texte et image ; sur mobile, un outil de dessin permet de désigner une zone précise
Le déploiement commence sur deux semaines pour les utilisateurs Plus et Enterprise ; la voix est proposée sur iOS et Android, et l’image sur toutes les plateformes
En raison de risques comme la synthèse vocale réaliste, l’interprétation d’images de personnes ou la dépendance dans des domaines à haut risque, OpenAI applique un déploiement limité accompagné de garde-fous

Les nouveaux modes d’entrée de ChatGPT : parler, montrer, poser des questions

ChatGPT introduit des fonctions permettant aux utilisateurs de parler à voix haute ou de montrer des images pour poser des questions
Ces nouveautés visent à rendre l’usage de ChatGPT plus intuitif, sans dépendre uniquement du clavier
Exemples d’usage :
- prendre en photo un monument en voyage et demander en direct ce qui le rend intéressant
- montrer le contenu du réfrigérateur et du garde-manger pour demander une idée de dîner et une recette étape par étape
- photographier un exercice de maths d’un enfant, entourer une série de problèmes et demander des indices

Premiers utilisateurs et plateformes concernés

Les utilisateurs Plus et Enterprise pourront utiliser les fonctions vocales et image au cours des deux prochaines semaines
La fonction vocale sera disponible sur iOS et Android, avec activation par opt-in dans les réglages
La fonction image sera disponible sur toutes les plateformes
L’accès sera ensuite élargi à d’autres groupes d’utilisateurs, y compris les développeurs

Fonctionnement de la voix

Les utilisateurs peuvent avoir avec ChatGPT une conversation vocale bidirectionnelle
- pendant un déplacement
- pour demander une histoire du soir pour la famille
- ou pour trancher un débat à table
Pour lancer la voix dans l’application mobile, il faut activer la conversation vocale dans Settings → New Features
Il faut ensuite appuyer sur le bouton casque en haut à droite de l’écran d’accueil, puis choisir sa voix préférée parmi 5 voix
Cette nouvelle fonction repose sur un modèle de synthèse vocale capable de générer un son naturel à partir de texte et de quelques secondes d’échantillon vocal seulement
Chaque voix a été conçue par OpenAI en collaboration avec des comédiens professionnels
Les paroles de l’utilisateur sont converties en texte par Whisper, le système open source de reconnaissance vocale d’OpenAI

Fonctionnement de l’image

Les utilisateurs peuvent montrer une ou plusieurs images à ChatGPT et poursuivre la conversation
L’entrée par image peut servir à :
- diagnostiquer pourquoi un barbecue ne s’allume pas
- planifier des repas en montrant l’intérieur du réfrigérateur
- analyser des graphiques complexes contenant des données professionnelles
Pour attirer l’attention sur une zone précise, il est possible d’utiliser l’outil de dessin de l’application mobile
Pour ajouter une image, il faut appuyer sur le bouton photo pour prendre un cliché ou sélectionner une image
- sur iOS et Android, il faut d’abord appuyer sur le bouton plus
- il est possible de discuter de plusieurs images à la fois ou d’indiquer avec l’outil de dessin la zone que l’assistant doit regarder
La compréhension d’image est assurée par GPT‑3.5 multimodal et GPT‑4
Ces modèles appliquent leurs capacités de raisonnement linguistique à des images variées, notamment des photos, des captures d’écran et des documents combinant texte et image

Déploiement progressif et garde-fous

OpenAI choisit de déployer progressivement ces outils afin d’améliorer le produit tout en réduisant les risques
Cette stratégie devient d’autant plus importante avec des modèles avancés intégrant la voix et la vision, où le potentiel de mésusage augmente
Risques et limites liés à la voix
- Cette nouvelle technologie vocale peut produire une voix synthétique réaliste à partir de seulement quelques secondes d’une voix réelle
- Elle ouvre des usages créatifs et des applications d’accessibilité, mais comporte aussi des risques tels que l’usurpation d’identité ou l’escroquerie
- OpenAI réserve cette technologie à un cas d’usage précis : le chat vocal
- Le chat vocal utilise des voix de comédiens avec lesquels OpenAI a collaboré directement
- Spotify utilise cette technologie dans son pilote Voice Translation
- Cette fonction traduit des podcasts dans d’autres langues en conservant la voix du podcasteur, afin d’élargir la portée du storytelling
- Lien associé : Voice Translation
Risques et limites liés à l’entrée par image
- Les modèles fondés sur la vision posent de nouveaux défis, comme les hallucinations sur les personnes ou la dépendance à l’interprétation d’images dans des domaines à haut risque
- OpenAI a testé les modèles avec des red teams et divers alpha-testeurs avant un déploiement plus large
- Les domaines de test incluaient des zones de risque comme l’extrémisme et les compétences scientifiques
- Le travail mené avec Be My Eyes a servi à mieux comprendre les usages et les limites de l’image
- Be My Eyes est une application mobile gratuite destinée aux personnes aveugles ou malvoyantes
- Les utilisateurs ont jugé utile de pouvoir tenir des conversations générales sur des images contenant des personnes, par exemple lorsqu’une personne apparaît en arrière-plan sur un téléviseur
- Comme ChatGPT n’est pas toujours exact et doit aussi respecter la vie privée, OpenAI a mis en place des mesures techniques limitant fortement sa capacité à analyser les personnes et à faire des affirmations directes à leur sujet
- Les usages réels et les retours serviront à améliorer les garde-fous tout en conservant l’utilité de l’outil

Limites du modèle et précautions d’usage

Les utilisateurs peuvent être tentés de s’appuyer sur ChatGPT pour des sujets spécialisés comme la recherche ; il est donc important de comprendre les limites du modèle et d’éviter tout usage à haut risque sans vérification
Le modèle est performant pour la transcription de texte en anglais, mais moins dans certaines autres langues, en particulier celles utilisant des systèmes d’écriture non latins
OpenAI ne recommande pas aux utilisateurs non anglophones d’utiliser ChatGPT dans ce but
L’approche de sécurité pour l’entrée par image et le travail mené avec Be My Eyes sont détaillés dans la system card for image input

1 commentaires

GN⁺ 2023-09-26

Avis de Hacker News

L’interface vocale a un potentiel énorme, mais cette démo est assez décevante, avec quelques secondes de latence entre la question et la réponse, comme les autres assistants vocaux médiocres
Ce n’est pas une fatalité. Une démo locale faite avec Llama 2 répond en environ 0,5 seconde, ce qui donne davantage l’impression de parler à une vraie personne qu’à un Siri
Il faudrait la empaqueter pour que les gens puissent l’essayer, mais il y a un problème délicat : déterminer si l’utilisateur a fini de parler. Les systèmes de reconnaissance vocale prêts à l’emploi n’intègrent pas de jeux de données ni de modèles de prise de tour de parole conversationnelle, et une entreprise comme OpenAI pourrait probablement en créer assez facilement
- Tout à fait d’accord. Pour offrir une excellente expérience vocale, la latence est essentielle. Une courte démo sur laquelle je travaille pour la commande vocale se trouve ici : https://youtu.be/WfvLIEHwiyo
  La latence aller-retour complète — voix vers texte, LLM, POS pour la validation des SKU, puis génération vocale — est de l’ordre de quelques centaines de millisecondes. La validation des SKU rend aussi les hallucinations impossibles, et à ce niveau cela paraît assez naturel. Transformer une latence aussi faible en système général ouvrirait probablement énormément d’applications
- Oui. Il doit être prêt dès que j’ai fini de parler, et je dois pouvoir l’interrompre
  Si c’est possible, il peut commencer à parler prudemment quand je fais une courte pause, puis s’arrêter immédiatement si je continue
  Je n’ai pas envie de me soucier de la façon de structurer l’interaction comme une chaîne explicite d’appel/réponse, ni de devoir faire attention à ne pas m’arrêter de parler avant d’avoir fini ma pensée de peur qu’il agisse au mauvais moment
- Déterminer si l’utilisateur a fini de parler est parfois difficile non seulement pour l’auditeur, mais aussi pour la personne qui parle
  Les interruptions polies, ou leur absence, pourraient bien devenir un signe permettant de distinguer si l’on parle à une IA
- Je me demande si tu peux partager un lien GitHub. Où réduis-tu la latence ? Est-ce que tu traites l’audio brut en texte ?
  D’après mon expérience, à moins d’utiliser un petit modèle comme un 7B, la génération de ChatGPT est bien plus rapide que celle de Llama en local
- Je me demande quand les ordinateurs commenceront aussi à prendre en compte l’intonation. Cela aiderait vraiment à comprendre la fin des phrases
  L’intonation contient énormément d’informations absentes du texte pur. Une IA qui ne comprend pas cette partie du langage restera forcément un peu stupide, aussi intelligente soit-elle
L’exemple du vélo est mignon et impressionnant, mais l’interaction avec l’humain semble masquer un potentiel plus grand
Avec quelques ajustements, cela devient un solveur généraliste pour la planification robotique. Il reste quelques problèmes difficiles avant d’obtenir une solution qui fonctionne dans le monde réel, mais l’un d’eux est en quelque sorte résolu
Verrons-nous, dans les cinq prochaines années, des robots polyvalents pilotés par ChatGPT effectuer du travail manuel simple ?
- L’exemple du vélo était faible pour une vidéo de démo, et même déroutant
  1. Sur la première image, il n’était pas assez malin pour reconnaître qu’il s’agissait d’un verrou de selle à boulon. Un humain pourrait le voir
  2. Le manuel n’est pas visible pour le spectateur, donc on ne sait pas comment le modèle sait qu’il s’agit d’un boulon de 4 mm, ni s’il l’a simplement deviné parce que c’était le plus plausible
  3. Je ne comprends pas non plus comment il sait que la boîte à outils utilise des clés Allen métriques
    En plus, je me demande si c’est le même modèle de vision déjà présent dans Bing Chat
- Google en a déjà fait la démo il y a quelques mois
  https://www.deepmind.com/blog/rt-2-new-model-translates-visi...
- Honnêtement, ils auraient pu utiliser un exemple plus convaincant. Reconnaître beaucoup de choses, c’est impressionnant, mais je ne sais pas à quel point la démo est vraiment utile
  Une personne avec une boîte à outils et un manuel pose une question très basique : comment abaisser la selle d’un vélo. Qui a encore un manuel de vélo, et même mon enfant de 5 ans saurait le faire
  Il y a sûrement une meilleure façon de montrer l’impact révolutionnaire de l’IA sur l’humanité. Même apprendre à faire ses lacets aurait été mieux
- C’est vrai, mais l’empreinte écologique est énorme
  Ce n’est pas non plus adapté à de petits robots légers comme des drones
- C’est la partie qui m’enthousiasme le plus. Il y a eu récemment une petite percée : https://pressroom.toyota.com/toyota-research-institute-unvei...
Avec cette annonce, pas mal de startups qui voulaient faire du multimodal par-dessus ChatGPT semblent être mortes
Vu la vitesse à laquelle les cas d’usage autour de l’image et de la voix sont traités, cela pourrait bientôt devenir l’app unique qui domine tout
On voit déjà le remplacement d’Alexa/Siri/Google Home, celui de Google Images, et la chute des startups edtech qui permettent de prendre une photo pour résoudre un problème avec l’IA ; ça risque de continuer
- Avec le recul, ces startups auraient dû être prudentes. Il fallait savoir qu’OpenAI avait Whisper, et que GPT-4 avait été conçu en tenant compte aussi du format image
  On ne peut pas dire qu’OpenAI ait ouvertement laissé fuiter ses intentions, mais la première question stratégique aurait dû être : « pourquoi OpenAI ne le fait-il pas encore, et que ferons-nous s’il décide de le faire ? »
- Cette année, parler à Google et à Siri a été vraiment frustrant. Pendant de longs trajets en voiture seul, j’ai juste envie de discuter pour apprendre des sujets au hasard
  Tout l’été, j’ai eu envie d’apprendre davantage le français, la théorie musicale, l’histoire, les maths, etc. en « parlant » avec ChatGPT. Cette fonction semble parfaitement adaptée
- Créer un outil ou une app d’IA généraliste ressemble de plus en plus à un mauvais choix. Je vois deux modèles économiques IA viables
  1. IA spécialisée par domaine : entraîner un modèle d’IA sur des sujets très techniques et précis que les modèles généralistes maîtrisent mal
  2. Intégration : si l’on construit sur des modèles d’IA existants, ne pas se concentrer sur l’ajout de fonctions, mais sur l’intégration dans les workflows existants des entreprises et des utilisateurs. Automatiser les processus internes et relier des systèmes d’une manière auparavant impossible peut créer beaucoup de valeur, et c’est aussi difficile à faire directement pour les entreprises qui développent les modèles d’IA
    Les deux iront souvent ensemble
- Quiconque a suivi les lancements de fonctionnalités d’OpenAI ne pouvait pas vraiment être surpris que ChatGPT devienne multimodal
  L’app propose déjà la saisie vocale. Pour l’instant, elle convertit encore la voix en texte avant l’envoi, mais ça marche si bien qu’il n’y a presque jamais besoin de vérifier ou de corriger. Je me demandais même pourquoi il ne répondait pas encore à la voix
  La saisie d’images était un point central et le clou de l’annonce de GPT-4 en mars : https://openai.com/research/gpt-4
- Plutôt que de mourir, ne pourraient-elles pas pivoter vers le multimodal au-dessus de Llama 2 ou d’autres modèles open source ? Ce ne serait pas un changement énorme
  Beaucoup d’entreprises, d’administrations, etc. ne peuvent pas utiliser OpenAI, qui envoie les données vers un service tiers, en raison de leurs propres politiques. Elles paieront pour quelque chose qui peut tourner on-premise ou dans leur propre cloud privé
Ce sera un coup de poignard qui rendra l’éducation en ligne impossible
Avec ChatGPT seul, on pouvait déjà copier-coller des problèmes textuels spécialisés et obtenir des réponses avec 90 % de précision. Le seul point faible était les questions contenant des graphiques ou des illustrations
Avec la prise en charge des images, les étudiants n’auront qu’à envoyer une capture d’écran ou un scan de document à ChatGPT pour obtenir une réponse valable. À mon avis, beaucoup d’étudiants abuseront volontiers de cette fonction. Pour y répondre, il faudra soit abandonner les systèmes de notation, soit imposer un enseignement en présentiel, sans devoirs, où les travaux se font uniquement à l’école sous surveillance
- Il y a une autre option. Cela ne remplace pas forcément le travail de l’étudiant, mais peut remplacer le travail de l’enseignant
  La plus grande utilité de ChatGPT, pour moi, a été d’apprendre seul divers sujets. On peut l’utiliser comme un séminaire socratique où l’on pose des questions à ChatGPT pour apprendre X
  Bien sûr, cela changera radicalement la capacité des étudiants à produire leurs devoirs, mais cela peut aussi changer radicalement la façon dont ils apprennent. Grâce au tutorat assisté par IA, l’école en ligne peut devenir bien plus qu’elle ne l’est aujourd’hui
  On peut aussi imaginer un avenir où l’éducation sera beaucoup plus décentralisée, où les élèves choisiront eux-mêmes leur programme et leurs méthodes, et auront un sentiment de propriété et de contrôle sur leur travail, au lieu de le voir comme un simple « travail d’occupation »
- C’est vrai
  Si les plus grands talents de notre époque ont décidé que, pour le progrès de l’espèce, le mieux était que les humains soient remplacés par des machines, on peut se demander à quoi sert le travail scolaire
  Si l’on a 16 ans aujourd’hui, que l’on connaît ChatGPT et les projets d’OpenAI, et qu’on vous dit de travailler dur pour obtenir un bon emploi tout en lisant l’avenir tel que le voient les technocrates, cela doit être assez déroutant
  Il doit être vraiment difficile de vouloir étudier aujourd’hui tout en refusant de tricher
- Vous passez à côté du fait que, bientôt, l’enseignant sera un LLM équipé d’une caméra tournée vers l’élève
  Dans un cours en ligne, pourquoi faudrait-il forcément regarder la vidéo d’un humain ? Pourquoi demander à un élève de produire quelque chose dans une pièce sombre ?
  L’évaluation des élèves se fera non pas à partir de devoirs, mais à partir des conversations entre l’élève et son assistant IA. L’enseignement peut être automatisé, mais pas l’apprentissage
  Pour l’instant, il y a simplement un décalage que l’éducation n’a pas encore rattrapé, et comme l’éducation coûte cher, cela se résoudra vite. Les parents doivent vraiment encourager leurs enfants à faire des exercices d’apprentissage comme avant, et faire utiliser ChatGPT comme Wikipedia. Pendant la transition, une génération souffrira
- Quand on parle d’abus de ChatGPT dans le contexte scolaire, il s’agit en général d’élèves de lycée ou plus âgés, ou d’étudiants de l’enseignement supérieur. Ils savent distinguer le bien du mal, et ont aussi la motricité et l’accès nécessaires pour utiliser l’outil
  Le besoin concret qu’ils cherchent à satisfaire est de se débarrasser des devoirs ou des dissertations pour faire XYZ. Il est probable que ChatGPT ne serve pas à XYZ. Alors il faut faire de XYZ ce à quoi ils consacrent leur temps
  À un moment donné, ils devront apprendre à rebours les compétences nécessaires, et auront besoin d’un accompagnement et d’une structure pédagogiques. Ce ne sera pas facile, et cela n’arrivera pas sans temps ni ressources, mais c’est ainsi que l’adaptation se fera
- Lors d’un examen de certification, il m’est arrivé d’avoir une application exécutée sur mon ordinateur pour vérifier que rien d’autre n’était ouvert, et de devoir garder la caméra allumée pendant tout l’examen afin que mon corps et mes mains soient visibles
  Il existe des moyens de rendre la triche assez difficile pour qu’elle n’en vaille pas la peine. Cela dit, cette technologie changera profondément ce que nous apprenons et la façon dont nous l’apprenons. C’est transformateur, et cela ne va pas ralentir
Je n’aime pas la façon dont ils ont désactivé pendant des mois la fonctionnalité de chat avec navigation web, c’est-à-dire Bing Browsing, avant de la supprimer discrètement
J’aurais aimé qu’il y ait une vraie annonce indiquant que la fonctionnalité allait être retirée. Je l’ai peut-être manquée, mais la dernière communication officielle disait qu’elle était temporairement désactivée pendant qu’ils corrigeaient quelque chose. Et puis, quand je m’en suis rendu compte, elle avait complètement disparu de la plateforme, sans un mot
- Sur mon compte, Browsing with Bing est actuellement activé comme plugin. Il avait disparu pendant quelques mois, puis est soudainement revenu il y a une ou deux semaines
- C’était décevant, et je suis d’accord pour dire qu’ils n’ont pas l’air de vouloir le réactiver de sitôt
  Cela dit, Perplexity AI exploite mieux la recherche web que ChatGPT, donc je l’utilise davantage que ChatGPT pour cette raison
- J’ai créé un compte juste pour dire ça, mais moi, j’ai actuellement cette fonctionnalité. Elle avait disparu pendant quelques mois et semble être revenue vers la semaine dernière
  Ce n’est pas non plus un plugin, mais un “modèle” séparé que l’on peut sélectionner
- D’accord. Désormais, il faut s’appuyer sur des plugins tiers
Jusqu’à présent, l’expérience utilisateur la plus intuitive, digne d’une killer app, semble être le chat textuel
Interagir en montrant des images est aussi intéressant, parce que cela donne l’impression de discuter d’un sujet avec un ami, mais il faudra voir si cela ressemble à une conversation avec quelqu’un de très intelligent, comme ChatGPT, ou avec quelqu’un de très limité qui reconnaît plus ou moins des objets
Reconnaître une clé à molette n’est pas aussi impressionnant que discuter d’histoire avec ChatGPT ou lui faire écrire du code qui fonctionne réellement
OpenAI s’en sort bien. Les gens imaginent des cas d’usage intéressants, mais la principale façon dont la plupart interagissent avec l’IA semble rester ChatGPT
En revanche, ils ne semblent pas encore avoir vraiment réussi la génération d’images, et les choses impressionnantes continuent de venir de MidJourney et Stable Diffusion
- OpenAI doit aussi lancer DALL-E 3 “début octobre”, et les images choisies pour la démo montrent une compréhension des prompts d’un niveau inédit
  Il semble même possible d’insérer des phrases complètes sous forme de texte dans les images générées
Je bricolais plusieurs projets perso qui combinaient plusieurs services d’IA pour mettre ça en œuvre, donc je suis impatient de voir la complexité et la latence de tous ces allers-retours diminuer
Si l’API sort à temps, c’est-à-dire vers Halloween, cela devrait rendre un peu plus simple la partie logicielle d’un projet multimodal avec une tête de squelette parlante équipée d’une caméra ESP32, qui se moque des costumes des gens
- Ironiquement, c’est précisément pour cette raison que je n’ai même pas tenté ce genre de chose
- Si tu le fais, ce serait super que tu partages le processus ou les détails. Ça a l’air vraiment génial, et j’aimerais bien construire quelque chose de similaire
- J’aimerais vraiment voir le projet terminé. Mon e-mail est dans mon profil
En tant que personne très impliquée dans l’automatisation des tests logiciels, ce que j’attends, c’est une reconnaissance d’image basée sur l’IA robuste pour les interfaces utilisateur d’applications
Combinée à la capacité de l’IA à écrire du code d’automatisation de tests, j’espère qu’on pourra générer du code de test Selenium ou Appium exécutable à partir d’une simple capture d’écran ou d’une séquence de captures d’écran. On a l’impression d’y être presque
- Je recommande l’article Spotlight de Google[1]. Les jeux de données créés pour cet objectif sont très intéressants
  Ils disent disposer en interne d’un jeu de données écran-action-écran, mais je doute qu’ils le rendent public. C’est sans doute l’avantage de posséder Android
  Il y a aussi le récent article IDEFICS[2] de Hugging Face. Il se présente comme une implémentation open source d’un ancien article sur Flamingo, c’est-à-dire la compréhension de tâches multimodales à partir de quelques exemples. Ce domaine va bientôt devenir très chaud
  [1] https://research.google/pubs/pub52171/
  [2] https://huggingface.co/blog/idefics
Mon plus gros reproche à OpenAI/ChatGPT, c’est leur marketing médiocre
Quand ils annoncent ce genre de fonctionnalité ou de plugin, ça me donne envie d’essayer, mais ce n’est pas encore déployé pour moi, et en tant que client payant c’est frustrant : tout ce que je peux faire, c’est vérifier chaque jour
Ils n’envoient même pas d’e-mails du type “les plugins sont disponibles” ou “le chat vocal a été activé sur votre compte”, si bien que j’oublie souvent les nouvelles fonctionnalités jusqu’à ce que je retombe dessus par hasard plus tard
Je viens d’ouvrir l’app et d’aller dans “New Features” dans les réglages : Bing Browsing était désactivé. Je ne savais même pas que ça avait fonctionné à un moment. Je suis allé sur l’App Store en pensant qu’il fallait peut-être mettre l’app à jour, mais elle était déjà à jour ; après avoir fermé puis rouvert l’app, l’entrée “New Features” elle-même avait disparu
Je ne vais pas fouiller régulièrement les réglages de l’app pour vérifier s’il y a de nouvelles fonctionnalités. Je ne comprends vraiment pas qu’il n’y ait ni e-mail, ni notification push, ni même message dans l’app
- Ils sont passés d’une société de recherche de niche à probablement la startup à la croissance la plus rapide de l’histoire
  Ce n’est pas forcément qu’ils se fichent de communiquer avec les clients, mais en interne ce doit être un chaos et un bazar complets
- Leur marketing donne l’impression d’une startup de trois personnes qui a trouvé un template SaaS de démarrage, branché Stripe à la va-vite, puis n’y a plus jamais repensé
  Pour commencer à utiliser l’API, j’ai littéralement dû résilier mon abonnement puis me réabonner. J’étais probablement sur une ancienne révision du modèle de facturation
  J’aime les entreprises qui réussissent non pas grâce au marketing et au design, mais malgré eux. Cela signifie qu’elles ont quelque chose de vraiment spécial
- On se dirige vers la singularité et tu te plains du marketing ?
- Si “tout ce que tu peux faire, c’est vérifier chaque jour”, alors leur marketing semble plutôt bien fonctionner
  Si tu partais simplement et oubliais le service, ils devraient améliorer la rétention, mais comme tu ne le feras pas, ils n’en ont pas besoin
- Si la principale plainte des utilisateurs est d’être frustrés de ne pas encore pouvoir utiliser une fonctionnalité, alors ils s’en sortent vraiment extrêmement bien
Je ne comprends pas comment ils peuvent intégrer tout ça dans une offre à 20 dollars par mois. À grande échelle, les coûts de calcul sont-ils vraiment si bas ?
Je me demande aussi comment Apple et Google vont proposer ça gratuitement. J’aimerais me glisser dans cette réunion comme une mouche sur le mur. Ils vont sûrement avoir d’énormes discussions façon dilemme de l’innovateur entre « il faut le faire » et « ça rogne les marges ».
C’est peut-être une idée un peu tirée par les cheveux, mais j’ai l’impression qu’Apple fait le bon choix en laissant la poussière retomber. Comme Zuckerberg a brûlé 20 milliards de dollars et qu’Apple a sorti le Vision Pro, je pense qu’il pourrait se passer quelque chose de similaire avec Llama. Cela dit, le logiciel est le terrain de jeu principal de Facebook, contrairement au matériel, donc j’en suis moins sûr.
- Les coûts de calcul ne sont pas bas. Comme Altman l’a dit lui-même, il est bien connu qu’OpenAI brûle actuellement beaucoup d’argent.
  Mais avec l’investissement de 10 milliards de dollars de Microsoft, ainsi que les revenus des abonnements et de l’API, ça va pour l’instant. C’est un moment crucial pour les entreprises d’IA, et OpenAI essaie en fait de capter un maximum de parts de marché en offrant 10 fois plus de valeur que les autres modèles commerciaux, à un prix inférieur.
- C’est la même raison pour laquelle, à New York, un trajet Uber qui coûtait autrefois 20 dollars coûte maintenant 80 dollars.
  Le capital-risque subventionne la conquête du marché.
- Il est aussi tout à fait possible qu’ils facturent près du coût, voire en dessous, parce qu’ils veulent les données des utilisateurs.
  Il suffit de réfléchir à combien il faudrait payer pour recruter des testeurs à grande échelle.
- Ils comptent probablement inonder le marché grâce aux financements de Microsoft, puis augmenter les prix ensuite.
- Je pense que traiter beaucoup de requêtes en parallèle peut coûter beaucoup moins cher que de les traiter une par une.

ChatGPT adopte la conversation vocale et l’entrée par image

Les nouveaux modes d’entrée de ChatGPT : parler, montrer, poser des questions

Premiers utilisateurs et plateformes concernés

Fonctionnement de la voix

Fonctionnement de l’image

Déploiement progressif et garde-fous

Risques et limites liés à la voix

Risques et limites liés à l’entrée par image

Limites du modèle et précautions d’usage

À lire aussi

1 commentaires

Avis de Hacker News