La démo « canard » de Gemini ne s’est pas déroulée en temps réel ni à la voix

(twitter.com/parmy)

1 points par GN⁺ 2023-12-08 | 1 commentaires | Partager sur WhatsApp

L’impressionnante démo du canard Gemini de Google n’a pas été réalisée en conversation en temps réel ni par saisie vocale, contrairement à ce que la vidéo publique laissait entendre
Le modèle n’a pas traité la vidéo telle quelle : il a reçu des images fixes extraites des scènes
Des prompts humains ont également été utilisés, et un porte-parole a indiqué que la narration vocale de la vidéo avait été ajoutée ensuite
La méthode réellement utilisée diffère de l’interaction en temps réel et vocale montrée dans la vidéo finale
Pour évaluer la démo Gemini, il faut distinguer la vidéo mise en scène des entrées réellement fournies au modèle

Comment la démo du canard Gemini s’est réellement déroulée

La démo Gemini de Google mettant en scène un canard ne s’est pas déroulée en temps réel
Le modèle n’a pas traité directement la vidéo en temps réel, mais a reçu en entrée des images fixes tirées de scènes de la vidéo
Des prompts humains ont été fournis au modèle, et la narration de ces prompts a été ajoutée après coup
Cette manière de procéder a été révélée par un porte-parole

Liens associés

Plus de détails dans cet article de Bloomberg Opinion : bloomberg.com/opinion/articl…

1 commentaires

GN⁺ 2023-12-08

Avis sur Hacker News

J’ai déjà fait quelque chose comme ça à l’université.
Dans notre premier cours d’informatique, on nous avait donné un Raspberry Pi, avec pour consigne de créer « quelque chose », sans expérience de code ni instructions. Le rendu n’était pas du code, seulement une démonstration fonctionnelle.
À trois, nous avons acheté un capteur d’humidité, l’avons branché au Pi et avons dit que nous allions créer un système de détection des crues, installé sous un pont, qui enverrait un e-mail aux responsables juste avant une inondation.
Lors de la démo réelle, un ami au fond de la salle avait Gmail ouvert et était prêt à envoyer un e-mail « alerte inondation », tandis que le script se contentait d’afficher des phrases entre des wait. Après avoir affiché « attente d’humidité », puis, 3 secondes plus tard, « humidité détectée » pendant qu’on plongeait le capteur dans un verre d’eau, il affichait « envoi d’un e-mail à xxx@yyy.com » ; l’ami au fond appuyait alors sur envoyer, l’e-mail arrivait, et nous avons eu la note maximale.
- Dans les systèmes de contrôle industriel, on appelle ça smoke and mirrors.
  Il arrive qu’un client veuille voir au moins une partie comme si elle était terminée alors que le gros projet ne l’est pas encore, et qu’il attende un état final sans comprendre que 90 % du travail est invisible pour l’utilisateur.
  Il est assez courant de mettre en place une fausse IHM où quelqu’un appuie sur des boutons pendant la démo, tandis que, dans la pièce d’à côté, une autre personne manipule manuellement les sorties et les entrées pour donner l’impression que tout fonctionne vraiment.
- Quand j’étais étudiant, j’ai fait quelque chose de similaire en créant un système de navigation locale.
  Pendant le projet, j’ai cassé tous les récepteurs GPS que j’avais sous la main ; ce modèle de module GPS RS-232 était vraiment fragile. Je ne pouvais donc pas faire de démonstration de navigation en temps réel, et de toute façon ce n’était pas vraiment terminé.
  Mais j’ai quand même finalisé l’interface graphique, puis fait semblant en disant « voilà à quoi ça ressemble pendant la navigation », sans jamais lancer le code de navigation. Ce n’était pas une activité comptant pour la note, mais ça me met encore un peu mal à l’aise.
- En somme, on apprenait déjà les compétences d’arnaque nécessaires plus tard dans la soi-disant industrie tech.
- Ce n’est pas de la triche ? Ça ressemble à de la triche, et ça ne donne pas non plus une très bonne image de toi.
- Au moins, littéralement, il y avait bien un backend.
C’est vraiment étrange. Google a inventé le transformer, qui est à la base de tous ces modèles ; je ne comprends pas comment ils peuvent continuer à se planter comme ça.
Google Docs est sorti en 2006, mais Microsoft est en train de lui voler son déjeuner. Google a créé la migration de VM à chaud et des datacenters entièrement automatisés, mais dans le cloud, Amazon et Microsoft sont devant. Ils travaillent sur la conduite autonome depuis plus longtemps que quiconque, mais Tesla les a rattrapés et va probablement gagner.
L’ampleur des ratés est énorme.
- En septembre 2008, j’étais chez Microsoft, et en interne il existait déjà un Office web très joli et qui fonctionnait très bien.
  Il avait un autre nom, je ne crois pas que ce soit SharePoint, et il était apparemment lié à des choses comme les notes de frais. Il aurait même fait rougir Google Docs aujourd’hui, mais ils ne voulaient pas cannibaliser leur propre produit.
- Google ne sait rien faire d’autre.
  Un produit demande de l’engagement et de l’itération, et les derniers 10 % sont les plus importants. Or Google refuse sans cesse de pousser ses produits au-delà de la ligne d’arrivée, les abandonne, puis les ajoute au tristement célèbre Google Product Graveyard.
  Franchement, à quoi bon ? Ils pourraient se contenter de maintenir la recherche et la publicité, leur cœur de métier, sans dépenser des milliards de dollars pour des dizaines de milliers d’ingénieurs coûteux recrutés via un processus d’entretien bancal.
- C’est surprenant, mais pas totalement inattendu. Google est devenu aussi célèbre pour son incompétence produit que pour sa puissance technique.
  Dominer la recherche fondamentale en IA générative tout en se vautrant de face sur les produits grand public, c’est assez cohérent pour l’entreprise qui a fait Stadia, GMail/Inbox et 17 applications de chat.
- La technologie de Google Docs reposait sur une entreprise acquise ; Google s’est juste servi de son monopole dans la recherche pour le rendre plus populaire. Ils ont appliqué la même stratégie à YouTube.
  Depuis Gmail, Google a rarement lancé par lui-même un bon produit, et même Gmail a grandi grâce au monopole de la recherche, utilisé comme panneau publicitaire gratuit.
  Il est aussi écrit : « Google Docs est né en août 2005 de Writely, un traitement de texte web lancé par l’éditeur logiciel Upstartle ».
- On parle de ratés, mais Google a plus de produits comptant plus d’un milliard d’utilisateurs que n’importe quelle autre entreprise au monde.
  Ce dont Google s’est toujours préoccupé, c’est d’amener des applications à des milliards d’utilisateurs.
  On oublie aussi que Google est aujourd’hui l’entreprise d’IA la plus rentable au monde. Tous ses produits utilisent le machine learning et l’IA.
  Alors, qui est en train de perdre ? L’objectif de Gemini n’est pas de créer un chatbot façon ChatGPT alors que Bard existe déjà, mais de l’intégrer dans 10 produits à un milliard d’utilisateurs.
La page web de Gemini et tout son contenu m’ont paru étranges. On aurait dit qu’ils essayaient de ressembler à des supports marketing d’Apple, mais qu’ils étaient tombés dans la vallée de l’étrange.
Entre les formules emphatiques, la diversité raciale/de genre ajustée au millimètre, les animations inutiles et la présentation commerciale du CEO, on aurait dit un petit acteur du secteur essayant de se faire passer pour un grand.
- Les keynotes d’OpenAI ressemblent désormais à des keynotes Google d’il y a 5 ans, et les keynotes Google à des keynotes Apple d’il y a 5 ans.
  Les keynotes Apple ressemblent à des robots tout juste sortis de la vallée de l’étrange qui prétendent être humains. Si les keynotes générées par IA dans 5 ans ressemblent à ça, alors Apple est même en avance sur les tendances en matière de keynotes.
- J’ai eu la même impression. Les noms comme Ultra et Pro, et le fait de proclamer l’ère Gemini alors qu’on ne peut même pas encore l’utiliser, m’ont semblé ringards.
  Google semble vouloir montrer qu’ils jouent dans la même cour.
- J’imagine les chefs de produit se congratuler parce qu’ils ont coché toutes les cases de pure mise en scène, sans voir que le résultat ressemble à une satire parfaite.
- Je ne comprends pas ce que signifie « diversité raciale/de genre ajustée au millimètre » ni pourquoi ce serait mauvais.
  Si le marketing utilise la diversité, c’est parce que le marché visé est lui-même divers. Cela dit, je ne vois pas bien ce que veut dire le fait qu’elle soit « ajustée au millimètre ».
Le fait que Sundar ait demandé au modèle d’énoncer beaucoup de faits susceptibles d’être vrais ou faux était un gros signal d’alerte.
À en juger par les chiffres de benchmark publiés, il s’agissait surtout d’améliorations marginales, ce qui signifie que le problème des hallucinations n’est pas résolu. Pourtant, la démo donnait l’impression qu’il l’était. Au final, j’ai surtout l’impression qu’ils ont choisi des cas où le modèle tombait juste par hasard ou donnait des informations cohérentes.
Les capacités ont été exagérées, mais il semble tout de même qu’un modèle multimodal devienne nécessaire pour converger vers des concepts cohérents sur des phénomènes réellement observables à travers plusieurs modalités. C’est une bonne avancée, mais il faut maintenant montrer de façon convaincante qu’une architecture donnée modélise réellement la causalité.
- Dans la vidéo promotionnelle de Mark Rober[1], il y avait aussi une scène où il posait une question franchement orientée en demandant pourquoi l’avion en papier avait décroché.
  C’était du genre : « Pensez-vous qu’une poche d’air chaud ait créé une basse pression et provoqué le décrochage de l’avion ? », et la question elle-même était si maladroite qu’elle semblait difficile à formuler correctement. C’était vraiment gênant.
  [1] https://www.youtube.com/watch?v=mHZSrtl4zX0&t=277s
- Le problème des hallucinations n’est pas résolu par la génération augmentée par recherche (RAG). Dire qu’il faut une architecture fondamentalement différente, ce n’est pas moi qui le dis, c’est Yann LeCun.
  On le comprend facilement en l’essayant soi-même. En raison de leur nature autorégressive, les LLM ne peuvent pas construire en interne un modèle cohérent avant de répondre. Il existe des approches comme la chaîne de pensée, mais ce ne sont que des rustines qui ne traitent le problème qu’en surface.
- Depuis les critiques autour des « perroquets stochastiques » et de « l’autocomplétion surpuissante », la question est devenue de savoir si les hallucinations des LLM peuvent, en principe, être résolues.
  Si c’est possible, ce serait quelque chose d’une importance scientifique très fondamentale, et probablement une nouvelle petite percée dans l’IA.
- Ces LLM n’ont pas de notion d’exactitude factuelle et ne sont ni entraînés ni optimisés pour cela. Il est amusant de voir les gens s’attendre à ce qu’ils se comportent comme des bots de quiz : c’est une incompréhension totale de la nature des LLM génératifs.
  Ils se contentent de produire la séquence de sortie qui leur paraît la plus plausible après une séquence d’entrée. La manière dont on définit « la plus plausible » fait l’objet de nombreux travaux de recherche, mais optimiser pour l’exactitude factuelle est une toute autre affaire.
  Dans certains cas, comme les problèmes de programmation, ils peuvent sembler intelligents, parce que le consensus approximatif des textes d’Internet pour certains prompts est assez proche des faits et moins pollué par du contenu médiocre de non-spécialistes. Ils sont aussi bons pour générer du « contenu » générique et moelleux, mais je ne vois pas bien quelle en est la valeur.
  Au bout du compte, la qualité de l’information obtenue n’est pas meilleure que celle d’une recherche Google minutieuse ; elle est simplement plus rapide, plus concise et mieux présentée.
- Les démos, au fond, sont toujours un peu comme ça, non ?
Je me suis fait avoir. L’annonce de lancement du modèle disait qu’il pouvait accepter des entrées multimodales vidéo et audio.
J’avais bien vu qu’il y avait beaucoup de montage et de coupes, mais je croyais vraiment voir des exemples d’entrées vidéo et audio. Passer du texte et des images fixes à des « yeux et des oreilles » représentait un énorme bond en avant, et j’étais complètement bluffé. Il y avait aussi une partie où il dessinait un instrument et où de la musique était générée, donc je pensais voir un modèle capable de créer de la musique à partir d’un prompt en langage naturel, comme certains modèles spécialisés.
Mais tout était faux. C’était une dramatisation d’exemples triés sur le volet de prompt engineering, assemblés pour maximiser l’enthousiasme des actionnaires. L’exemple musical n’a pas généré la musique que nous entendions dans la vidéo ; il a seulement produit une description du morceau.
Il y a une vraie différence entre une vidéo exagérée disant « ce genre de chose pourrait devenir possible » et le fait d’affirmer qu’un nouveau modèle multimodal est le meilleur, tout en manipulant les benchmarks et en trompant avec une démo.
Google semble être entré dans sa phase maléfique. OpenAI et Microsoft doivent être assez satisfaits.
- Exactement. Personnellement, je trouve que les deux peuvent être acceptables.
  Une démo prospective qui montre l’avenir du produit en indiquant clairement qu’on n’y est pas encore mais qu’on va dans cette direction, ou une démo scénarisée et montée pour présenter les fonctionnalités actuelles sous leur meilleur jour, sont des pratiques standard et acceptables.
  Mais ce qu’a fait Google est tout simplement incorrect. Ils méritent les critiques à ce sujet.
- Ce genre de fraude morale et de comportement contraire à l’éthique est toléré pour une raison ou une autre.
  On dirait même que les investisseurs veulent être trompés. Il n’y a pas vraiment de place pour une due diligence ; ils entendent des mensonges et poussent quand même des cris d’excitation comme des fans de Taylor Swift.
- Une « phase » ?
  Ces grandes entreprises s’en tirent avec autant de choses que possible, aussi longtemps que possible. Cela laisse entendre que notre seul rôle serait d’attendre qu’elles nous accordent un jour une « phase non maléfique », alors qu’en réalité il faut restaurer les réglementations antitrust qui ont été systématiquement démantelées au cours des 30 dernières années.
- Moi aussi, je pensais qu’il pouvait prendre de la vidéo en entrée.
  Comme la quantité de données dans une vidéo est énorme, je m’attendais à ce qu’il extraie environ une image par seconde pour les traiter comme des images, tout en acceptant initialement la vidéo complète en entrée.
  Il s’est avéré que ce n’était même pas ça.
- Ça me rappelle une vidéo suggérant que le département de recherche de pointe de Google était en réalité un studio d’animation. J’aimerais me souvenir plus précisément de laquelle il s’agissait.
  Produire ce genre de vidéo exagérée pour satisfaire les actionnaires fait perdre confiance dans la division recherche. Je ne crois pas qu’ils aient fait ce genre de chose quand ils ont annoncé BERT.
J’utilise la saisie Swype depuis l’époque du T9
Si je faisais une démonstration de la saisie Swype telle que je l’utilise au quotidien à quelqu’un habitué au clavier QWERTY, personne ne l’adopterait
Le taux de mots mal devinés ou à corriger est probablement de 10 à 20 %. Mais ce n’est pas un problème, parce que c’est facile à corriger et que ça ne ralentit pas du tout. Parmi les différentes méthodes de saisie de texte, c’est personnellement celle que je préfère, mais il faut du temps pour apprendre à s’en servir
Je pense que c’est vrai pour tous les produits. Si, après 100 heures à en faire une habitude et à compenser les cas limites, on montre exactement comment ça fonctionne réellement, personne n’adopterait quoi que ce soit
Je ne sais pas vraiment quelle est la solution, car les deux sont mauvais
Édition : comme j’écris au Swype sur mon téléphone, je vais laisser les fautes de frappe telles quelles, vu le contexte
- Montrer un produit sous son meilleur jour et faire la démonstration d’un mode de fonctionnement qui n’existe pas sont deux choses complètement différentes
  Ce serait comme une démo de clavier Swype avec du contrôle mental télépathique pour corriger les erreurs
- Swype rend-il l’édition plus facile ? Le correcteur orthographique d’iOS a une valeur négative. Je l’ai désactivé il y a quelques années et mes erreurs ont diminué, mais il reste toujours des fautes de frappe à corriger
  Malheureusement, l’édition de texte sous iOS est elle aussi totalement inutile. Elle impose des sélections bizarres et insère le texte corrigé d’une manière maladroite
  Je tape au QWERTY, mais la saisie de texte sur iOS est un désastre complet, et ça n’a fait qu’empirer avec le temps
- Ce n’est pas le même problème que les hallucinations des LLM
  Avec Swype, on sait déjà à quoi doit ressembler la bonne sortie. Si la sortie ne correspond pas à ce qu’on veut, on le remarque immédiatement et on corrige
  Quand on pose une question à un LLM, on ne connaît pas forcément la bonne réponse. Si la sortie a l’air suffisamment assurée, les gens la prennent pour vraie. En dehors des expériences et des tests, les gens ne posent pas à un LLM des questions dont ils connaissent déjà la réponse
- Le point essentiel ici est que la vitesse de correction est déterminante dans la perception de la valeur à long terme d’une technologie d’interface
  C’est aussi la principale raison pour laquelle la reconnaissance manuscrite n’a pas remplacé le clavier. Une fois l’écriture convertie en texte, il est plus facile de corriger les erreurs avec un pointeur et un clavier. Après quelques répétitions, la plupart des gens se disent : « autant commencer directement avec le pointeur et le clavier pour gagner du temps »
  La question devient donc : à quel point est-il facile de repérer et de corriger les erreurs dans les sorties de l’IA générative ? Malheureusement, sauf quand on connaît déjà la réponse, il peut être très difficile d’identifier les erreurs
- Je sais que le marketing reste du marketing, mais je trouve que faire une « démo » d’une manière totalement déconnectée de l’usage réel est une mauvaise pratique
  Les claviers Swype demandent de l’entraînement pour être maîtrisés, mais les démos de ce type de saisie montrent généralement un usage réaliste, même si la personne qui fait la démonstration est « experte »
  Ce genre de démo amène les gens à mal comprendre ce que le produit peut réellement faire et finit par nourrir un inévitable retour de bâton cynique. Si le produit est vraiment excellent, une démonstration réaliste de ses fonctionnalités suffit pour que les gens s’en rendent compte
La page Bloomberg liée sur Twitter a maintenant été retirée.[1] La page de remplacement est [2], et la nouvelle page indique qu’une partie était fausse. Je n’ai pas réussi à retrouver l’ancienne page dans les archives
[1] https://www.bloomberg.com/opinion/articles/2023-12-07/google...
[2] https://www.bloomberg.com/opinion/articles/2023-12-07/google...
- L’article de TechCrunch donne davantage de détails - https://techcrunch.com/2023/12/07/googles-best-gemini-demo-w...
- Ça me met tout aussi en colère quand des personnages de séries télé répondent à des messages plus vite qu’un humain ne peut taper. Ça ruine le réalisme de ma comédie romantique préférée
Je trouve que c’est un excellent exemple de la raison pour laquelle il faut remettre en question la confiance qu’on accorde aux vraies vidéos, aux audios, aux images et au marketing des entreprises, et les considérer comme générés tant qu’ils n’ont pas été vérifiés
Si la voix, les e-mails, les chats, et bientôt la vidéo, peuvent tous être générés en temps réel ou quasi réel, je me demande comment on pourra être certain qu’un employé à distance n’est pas en réalité une entité entièrement ou partiellement générée
Pour la vérification, un secret partagé est utile, mais quelle est la solution quand le corps est entièrement à distance ?
Je suis en voyage en ce moment : comment ma famille peut-elle vérifier que la personne qui envoie une demande Venmo en prétendant avoir perdu ses bagages, c’est bien moi ?
- Si on ne peut pas vérifier qu’un employé est une IA, autant le licencier et le remplacer par une IA
- PGP
- Il suffit de demander une information que seule la vraie personne peut connaître
- Créer une phrase/un mot de passe d’urgence à partager avec sa famille, et l’utiliser dans ce genre de situation
- C’est aussi pour cela que la communauté doit se faire entendre quand elle repère ce genre de choses. Parce qu’ils sapent la confiance dans les démonstrations technologiques
  Le mensonge aura déjà fait le tour du monde avant que la vérité ne franchisse la ligne de départ, mais ce n’est pas une raison pour laisser faire
La vidéo elle-même et sa description comportent une clause de non-responsabilité en ce sens. Cela dit, je suis d’accord pour dire que certaines personnes peuvent repartir avec une mauvaise compréhension du fonctionnement de Gemini.
J’aimerais que l’interaction en temps réel fasse bientôt partie de l’application. Les barrières techniques ne semblent pas si nombreuses.
- Toute la clause de non-responsabilité à l’écran se résumait à « la séquence a été globalement raccourcie », affiché en tout petits caractères en bas pendant 2 secondes.
  Ailleurs, ils ont bien révélé la plupart des détails, mais la vidéo elle-même a été conçue et montée de façon très trompeuse. Ils voulaient faire croire qu’il réagissait de manière complexe à une simple invite vocale et à un flux vidéo, alors qu’en réalité ce n’était pas le cas.
- La clause de non-responsabilité dans la description disait : « Pour cette démo, la latence a été réduite et les sorties de Gemini ont été raccourcies. »
  Ce n’est pas la même chose que « Gemini a reçu en entrée des images fixes sélectionnées, et non une vidéo ».
- Les gens ne regardent pas vraiment les clauses de non-responsabilité. Google savait que les gens retiendraient non pas la clause, mais l’impression exagérée produite, et a fait ce choix.
- Non, la clause de non-responsabilité n’était absolument pas suffisante.
  Cette vidéo a trompé beaucoup de gens, moi y compris. Ce n’était pas une de ces démos classiques ultra-optimisées et scriptées.
  C’était une publicité mensongère évidente montrant une fonctionnalité qui n’existait pas, et franchement, c’est honteux de la part de Google.
- Les annonces dans Google Search n’ont elles aussi qu’un minuscule libellé « annonce », et il existe une longue tendance à rendre les publicités plus visibles tout en les distinguant moins clairement.
  Compte tenu des contenus générés par IA et du contexte général de manipulation, je considère que cette vidéo était trompeuse. Pour moi, la seule chose impressionnante dans la vidéo était la réactivité rapide et flexible qui donnait l’impression de traiter de la vidéo en temps réel, mais rien de tout cela n’était réel. C’est presque de l’arnaque.
Moi aussi, je me suis fait avoir : je pensais que Gemini voyait et entendait via un flux vidéo/audio, et non qu’il recevait des images fixes et des invites textuelles.
La différence entre des images fixes et un flux vidéo peut ne pas sembler énorme, mais en réalité, pour que le bot n’arrête pas de débiter des bêtises, il doit comprendre une grande partie du contexte qui évolue.
De plus, dans une conversation avec un flux vidéo en temps réel, il faut reconnaître l’état où l’on ne sait pas encore, afin de garder le silence au bon moment, ce qui est notoirement difficile pour l’IA générative.
Bien sûr, on peut rendre cela plus facile avec quelques hacks et heuristiques, mais faire en sorte qu’un bot ressemble à un partenaire humain dans une conversation est vraiment difficile. C’était la partie la plus impressionnante de la « conversation » dans la vidéo, mais malheureusement tout était faux :(

La démo « canard » de Gemini ne s’est pas déroulée en temps réel ni à la voix

Comment la démo du canard Gemini s’est réellement déroulée

Liens associés

À lire aussi

1 commentaires

Avis sur Hacker News