Polémique autour de la manipulation de la démo du modèle d’IA Gemini de Google
- Le nouveau modèle d’IA Gemini de Google a suscité des réactions mitigées après sa première présentation au public
- Il a été révélé que sa démo la plus impressionnante avait en réalité été truquée, portant atteinte à la confiance des utilisateurs
- La vidéo intitulée "Hands-on with Gemini: Interacting with multimodal AI" a atteint 1 million de vues et mettait en avant les capacités d’un modèle multimodal flexible et réactif face à divers types d’entrées
Une démo différente de la réalité
- La vidéo donne l’impression d’avoir été réalisée en temps réel, mais il s’agissait en réalité d’un test des capacités de Gemini à l’aide d’images fixes et de prompts textuels
- Contrairement à une véritable interaction, la vidéo contient des éléments susceptibles d’induire en erreur sur la rapidité de réponse, la précision et la manière d’interagir avec le modèle
- Même si un avertissement indiquait : « Nous avons réduit la latence et raccourci les sorties de Gemini. », l’ensemble restait très séduisant
Écart avec les capacités documentées
- Alors que la vidéo donne l’impression d’une évaluation intuitive et sans mots, les capacités documentées montrent que le modèle ne raisonne pas à partir de gestes individuels et qu’il faut lui montrer tous les gestes d’un coup avec des indices
- Par exemple, dans la vidéo, le modèle semble détecter instantanément qu’une boule de papier change de place sous une tasse, alors qu’en réalité il faut décrire l’activité et guider le modèle
- Il est vrai que Google a déclaré que cette vidéo « montre les véritables sorties de Gemini », mais il est faux d’affirmer qu’ils ont « simplement apporté quelques montages à la démo (et l’ont indiqué de façon transparente) ». Cette vidéo n’est pas une démo et montre en réalité une interaction très différente de ce qu’elle prétend illustrer
L’avis de GN⁺
- Il est apparu que la vidéo de démonstration du modèle d’IA Gemini de Google avait été conçue de manière à exagérer les capacités réelles du modèle, ce qui soulève des doutes sur la fiabilité de la technologie.
- C’est un cas qui montre à la fois le potentiel de progrès de l’IA multimodale et les limites de la technologie actuelle, offrant une leçon importante pour comprendre l’état réel de l’IA.
- En soulignant l’importance de la transparence et de l’honnêteté quant à l’écart entre les annonces et démos d’IA et l’expérience réelle des utilisateurs, cette affaire nourrit un débat intéressant pour les professionnels du secteur.
5 commentaires
Bard avait aussi suscité beaucoup d’attentes au début.
Ça me rappelle Google Glass… À l’époque aussi, on croyait que le monde allait changer.
Courage !
C’était une vidéo impressionnante, mais j’imagine que c’est le genre de problème qui finit forcément par apparaître quand on monte et présente quelque chose en si peu de temps.
Je me dis aussi que Google doit vraiment traverser une période difficile, tout en pensant qu’on verra bien une fois que le produit sortira réellement.
Quoi qu’il en soit, comme il vaut mieux avoir de la concurrence plutôt que de laisser OpenAI avancer seul, bon courage à Google.
C’était regrettable.
J’ai l’impression que la vision et les valeurs sont justement ce qu’il faut préserver d’autant plus dans les moments difficiles.