Show HN : recréation de la fausse démo de Google Gemini avec GPT-4, cette fois réellement implémentée

(sagittarius.greg.technology)

2 points par GN⁺ 2023-12-12 | 1 commentaires | Partager sur WhatsApp

Remake de la fausse démo de Google Gemini avec GPT-4, cette fois c'est réel

Projet qui recrée la fausse démo de Google Gemini en utilisant GPT-4.
Une démo qui fonctionne réellement est proposée, et le code associé est disponible dans le dépôt GitHub.
Le projet a été réalisé par Greg Technology.

L'avis de GN⁺

Le point le plus important de cet article est l'existence d'un projet qui a réellement implémenté une ancienne fausse démo en s'appuyant sur GPT-4.
C'est un exemple intéressant montrant comment les progrès des technologies d'IA permettent de produire des résultats innovants réellement utilisables.

1 commentaires

GN⁺ 2023-12-12

Avis Hacker News

La partie qui semblait magique dans la fausse démo de Gemini, c’était que le LLM donnait l’impression de recevoir en continu les entrées audio et vidéo, et de savoir quand intervenir pour répondre.
Il semblait attendre que l’utilisateur ait fini son dessin, ou intervenir juste avant la fin, et quand l’utilisateur a colorié le canard en bleu au milieu d’une réponse, il a même dit que cela ressemblait à un canard bleu.
Il semblait aussi savoir qu’aucune réponse n’était nécessaire quand l’utilisateur se contentait d’acquiescer.
En regardant le code source, la démo prenait une capture d’écran toutes les 800 ms depuis le flux vidéo, attendait que l’utilisateur ait fini de parler, puis envoyait les 3 dernières captures d’écran.
La démo elle-même est impressionnante, mais elle montre aussi à quel point interagir de cette façon avec un LLM paraît peu naturel en l’absence d’entrées audio et vidéo continues.
Techniquement, c’est possible depuis un certain temps, mais il y a une raison pour laquelle personne ne l’a présenté comme un produit.
- Cette démo a été construite en 2 à 3 heures, avec la technique consistant à « attendre que le résultat de la dictée soit finalisé ».
  Cette approche est plus sûre parce que la transcription de la dictée est plus stable, mais elle est lente.
  Dans une autre démo, https://www.youtube.com/watch?v=fxS7OKh_4vc, les résultats de transcription « en cours » étaient envoyés en continu à GPT, et c’était vraiment rapide et excellent.
  Cela dit, il reste beaucoup de travail pour gérer les différents timings : la parole réelle d’une personne, le temps de transcription, l’envoi de la requête à GPT, et la synchronisation avec l’endroit où se trouvent les paroles et la pensée de l’utilisateur au moment où GPT répond.
  Mais la conversation en temps réel et continue est clairement le point central, et je me dis que ce serait bien que GPT soit proposé via WebSocket.
- En tant que personne sourde, cela fait 20 à 30 ans que je vois des démos de reconnaissance vocale en temps réel, et elles ont toutes l’air bonnes en démo.
  Mais quand on les utilise au quotidien, même une erreur tous les 10 mots finit avec le temps par s’accumuler jusqu’à devenir extrêmement agaçante.
- J’ai aussi parlé avec un ami de LLM multimodaux recevant une entrée en flux continu.
  Par exemple, ils écouteraient quelqu’un s’entraîner à la guitare et, arrivé à un certain passage, diraient : « OK, revenons à cette partie et retravaillons-la. »
  Quand on reçoit un flux continu de tokens et que la sortie n’est nécessaire que de temps en temps, la méthode classique de prédiction du token suivant ne semble pas très adaptée.
  Je me demande comment ce type d’entrée est appelé dans la littérature, et quelles recherches ont été menées dessus.
- Dans ce genre de cas, l’essentiel serait probablement d’entraîner le modèle avec quelque chose comme des tokens de pause.
  Peut-être que ce n’est même pas indispensable.
  Si l’on demande à GPT-4 de produire quelque chose comme .... chaque fois qu’il estime devoir attendre avant de répondre, il n’est plus nécessaire d’attendre que l’utilisateur ait fini, et l’interaction pourrait devenir beaucoup plus fluide.
- J’avais envie de brancher un chatbot GPT-4 sur un chat de groupe pour le faire réagir à ce que les gens disent, mais il était trop difficile de déterminer quand il devait parler et quand il devait laisser les humains discuter entre eux, alors j’ai fini par abandonner.
Je ne comprends pas pourquoi les entreprises mentent autant.
Je ne vois pas ce qu’elles peuvent y gagner de si énorme, et elles semblent au contraire avoir beaucoup à perdre.
Ce qui est encore plus étrange, c’est que ces outils sont déjà incroyablement impressionnants sans qu’il soit nécessaire d’en rajouter.
En tant que chercheur en apprentissage automatique, je trouve qu’il y a beaucoup de résultats remarquables, mais presque tout, des articles aux produits, est exagérément gonflé.
À court terme, cela peut aider certains, mais j’ai l’impression que cela a créé une course vers le bas qui n’est bonne pour personne.
Pour une entreprise comme Google en particulier, jouer le jeu du court terme n’est pas un choix intelligent, ou alors je comprends peut-être complètement de travers l’environnement dans lequel nous vivons.
À lire les discussions de ce fil[0], il semble aussi qu’il y ait beaucoup de gens tellement abîmés sur le plan éthique qu’ils ne se rendent même pas compte que ce qu’ils font est trompeur, et c’est un tout autre problème, encore pire.
[0] https://news.ycombinator.com/item?id=38559582
- Le jour même de la sortie de la vidéo, notre CEO m’a envoyé un message disant que la nouvelle technologie de Google était largement meilleure que GPT-4 et qu’il fallait que nous l’utilisions immédiatement.
  Je lui ai répondu que je regardais les démos avec scepticisme, mais que, comme pour toutes les avancées dans ce domaine, je l’essaierais moi-même à sa sortie.
- Dire que « ce n’est pas intelligent pour une entreprise comme Google de jouer le jeu du court terme » peut relever d’un problème principal-agent.
  Les agents, c’est-à-dire les employés et les dirigeants, optimisent leurs intérêts de carrière à court terme et ne sont pas loyaux envers les actionnaires de Google.
  Comme ils peuvent partir dans 3 ans, l’atteinte à la réputation de Google peut ne pas compter tant que ça pour eux.
  Les actionnaires, eux, veulent optimiser des facteurs de long terme comme la réputation.
  On essaie d’aligner tout cela avec une bonne gouvernance et des rémunérations en actions soumises à acquisition progressive, mais un certain décalage subsiste toujours.
  C’est là qu’une culture d’alignement quasi sectaire autour de la mission peut avoir de la valeur.
  Si l’on convainc les employés de croire réellement à la mission, ou si l’on recrute des gens qui y croient, l’alignement suit.
- Si vous vous demandez pourquoi les entreprises font cela, il suffit de regarder le titre publié par Business Today.
  « Google Gemini Outperforms Most Human Experts & GPT-4 I Artificial intelligence I Google’s DeepMind »
  C’est entièrement du marketing.
  C’est la même raison pour laquelle Satya a publié publiquement que, si les choses tournaient mal chez OpenAI, sama et d’autres rejoindraient une nouvelle équipe chez MSFT pour continuer.
- Après la démo, l’action Google n’a pas bougé immédiatement, mais elle a gagné environ 5 %, puis a rendu environ 1 % après l’annonce de la manipulation.
- Cette affaire m’a donné plus que jamais l’impression que Google est désormais dirigé non par des gens qui comprennent la technologie, mais par des profils business non techniques.
  Les personnes qui savent ne serait-ce qu’un peu comment cette technologie fonctionne — c’est-à-dire précisément celles qui ont de bonnes chances d’intervenir dans la décision d’utiliser cette technologie et d’autres produits Google — peuvent repérer immédiatement la manipulation.
  Et ces personnes sont souvent du genre à réagir très négativement à ce type de comportement trompeur.
C’était exactement cette démo que j’aurais voulu voir au lancement de Gemini
Tout ce cirque était inutile
GPT-4V est vraiment puissant, et si vous vous intéressez à la vision ou au multimodal, je vous recommande aussi d’essayer sérieusement LLaVA (https://github.com/haotian-liu/LLaVA)
Ces derniers jours, j’ai testé la variante 7B q5_k et elle m’a pas mal impressionné ; elle est assez bonne pour envisager de créer une appli de démo pour l’entreprise, voire une preuve de concept
Il faut toutefois d’abord vérifier la licence, sinon je l’utiliserai seulement en démo interne pour faire passer l’idée
- J’utilise llava avec https://github.com/Mozilla-Ocho/llamafile ; ça tourne partout sur une machine récente
- Mise à jour pour ceux qui se demandent si LLaVA peut être utilisé commercialement : c’est sous licence Apache 2.0, donc l’usage commercial est autorisé avec attribution : https://github.com/haotian-liu/LLaVA/blob/main/LICENSE
C’était tout à fait faisable avec GPT-4V
Il suffisait littéralement de prendre des captures d’écran et d’envoyer les images et le texte sous forme de chat, c’est-à-dire de manière entrelacée
On a fait quelque chose de similaire lors d’un hackathon récent (https://x.com/swyx/status/1722662234680340823)
Ce qui est étrange, c’est que Google aurait pu faire pareil, et tout le monde aurait été impressionné à juste titre ; à la place, ils ont produit une vidéo marketing trompeuse destinée au grand public
Résultat, le reste des nerds frustrés doit se charger du sale boulot consistant à expliquer que « la technologie n’en est pas encore à ce qu’on a vu à la télé », et on dirait que c’est de notre faute
Je me demande aussi combien ça coûte à faire tourner
- Pendant le développement et la démo, j’ai fait 77 requêtes à l’API GPT-vision, et la facture était de 0,47 dollar
  C’est plutôt raisonnable
Je suis désormais convaincu que Google DeepMind n’avait en réalité rien de concret côté LLM de pointe, et qu’ils bluffaient tout simplement
Je me souviens qu’au lancement de ChatGPT, Google disait avoir un bien meilleur modèle qu’ils ne publiaient pas pour des raisons de sécurité de l’IA
Ensuite ils ont sorti PaLM et PaLM 2, en disant qu’il était temps de les rendre publics pour battre ChatGPT, mais ce n’étaient pas de bons modèles
Puis ils ont fait beaucoup de bruit autour de Gemini, et si Gemini Ultra est ce qu’ils ont de mieux, il est difficile de croire qu’ils disposent d’un meilleur modèle
Il y a un an, je pensais que Google avait le meilleur modèle mais ne le publiait simplement pas ; ensuite, j’ai espéré qu’avec leur infrastructure, leurs données et leurs talents, ils pourraient créer le meilleur modèle
Mais en réalité, il semble qu’ils n’avaient rien du tout
J’ai récemment essayé d’utiliser pour de vrai l’application de traduction conversationnelle par IA que Google avait présentée il y a un moment, puis mise à jour et itérée plusieurs fois
Elle est totalement inutilisable dans une vraie conversation
J’étais plein d’espoir, car c’était une situation où elle aurait vraiment pu aider ; je me souvenais qu’elle paraissait extrêmement naturelle dans l’ancienne démo, même si je ne l’avais jamais essayée moi-même
Après l’avoir testée maintenant et avoir revu la démo d’origine, je suis sûr à 100 % qu’elle était entièrement ou partiellement truquée
Impossible que cela ait réellement fonctionné
S’ils n’arrivent même pas à faire correctement de la traduction de conversation en temps réel, bien plus utile que de dessiner un canard, alors cette nouvelle IA est aussi très suspecte
Ça ressemble exactement au même cas, et je ne comprends pas à quel point il faut être culotté pour truquer entièrement ce genre de chose
- Comment s’appelait cette appli ?
Indépendamment de cette démo impressionnante, une interface qui ne permet d’envoyer à GPT-4 que des images JPEG me semble être du gâchis
L’œil humain traite davantage les différences entre les images que les images elles-mêmes
Je me dis que la prochaine grande étape pour rendre possible le traitement vidéo en temps réel en haute résolution pourrait consister à faire gérer à l’état interne du modèle des images clés et des deltas, comme dans les codecs vidéo de type MPEG
- Quand Google parle du multimodal de Gemini, il inclut « vidéo » dans la liste des modes
  Il est tout à fait possible qu’ils ne parlent pas vraiment de vidéo, mais plutôt d’images comme dans cette démo
  D’après ce que j’ai vu, ce n’est expliqué en détail nulle part
Je trouve drôle d’avoir choisi le nom Sagittarius
Dans le zodiaque, c’est exactement à l’opposé de Gemini
- Certains avaient supposé que Facebook avait nommé son ancienne cryptomonnaie sans substance Libra, puis « Diem », ainsi pour tacler les jumeaux Winklevoss, rivaux de longue date, qui avaient créé une plateforme d’échange de cryptomonnaies appelée Gemini
  Je ne sais pas à quel point c’est spirituel sur le plan astrologique
Dans le code, la transcription vocale et la synthèse vocale semblent utiliser les fonctionnalités intégrées du navigateur
J’oublie toujours que ces fonctionnalités existent
Comme ça passe par l’API, la latence est compréhensible
Avec de l’inférence sur une infrastructure locale, ce serait quasiment instantané ; si cette personne y avait eu accès, cette démo aurait écrasé toutes les autres

Show HN : recréation de la fausse démo de Google Gemini avec GPT-4, cette fois réellement implémentée

Remake de la fausse démo de Google Gemini avec GPT-4, cette fois c'est réel

L'avis de GN⁺

À lire aussi

1 commentaires

Avis Hacker News