2 points par GN⁺ 2023-12-12 | 1 commentaires | Partager sur WhatsApp

Remake de la fausse démo de Google Gemini avec GPT-4, cette fois c'est réel

  • Projet qui recrée la fausse démo de Google Gemini en utilisant GPT-4.
  • Une démo qui fonctionne réellement est proposée, et le code associé est disponible dans le dépôt GitHub.
  • Le projet a été réalisé par Greg Technology.

L'avis de GN⁺

  • Le point le plus important de cet article est l'existence d'un projet qui a réellement implémenté une ancienne fausse démo en s'appuyant sur GPT-4.
  • C'est un exemple intéressant montrant comment les progrès des technologies d'IA permettent de produire des résultats innovants réellement utilisables.

1 commentaires

 
GN⁺ 2023-12-12
Commentaire Hacker News
  • La « magie » de la fausse démo de Gemini donnait l’impression que le LLM recevait en continu des entrées audio et vidéo, détectait le moment où l’utilisateur terminait de parler ou de dessiner, puis répondait au bon moment.
  • Après examen du code source, il s’est avéré que la démo capturait une capture d’écran du flux vidéo toutes les 800 ms, attendait que l’utilisateur ait fini son dessin, puis envoyait les trois dernières captures d’écran. Cela montre qu’interagir de cette manière avec un LLM paraît peu naturel sans entrées audio-vidéo continues.
  • Je ne comprends pas pourquoi les entreprises mentent de cette façon. Elles peuvent réellement y perdre beaucoup ; ce genre de promotion exagérée aide peut-être à court terme, mais pas sur le long terme.
  • Je suis convaincu que Google DeepMind n’avait pas réellement de LLM à l’état de l’art. Quand ChatGPT est sorti, Google a affirmé ne pas publier de meilleur modèle pour des raisons de sécurité de l’IA, mais en réalité ce n’était pas le cas.
  • GPT-4V est très impressionnant, et je recommande à toute personne intéressée par la vision ou la multimodalité d’essayer LLaVA. Personnellement, j’ai testé la variante 7B q5_k et je l’ai trouvée très impressionnante.
  • J’ai pu créer une démo similaire avec GPT-4V. Si Google avait fait un marketing honnête, tout le monde aurait été impressionné à sa juste mesure ; au lieu de cela, l’entreprise a produit une vidéo marketing trompeuse pour le grand public, ce qui a déçu les experts techniques.
  • J’ai essayé d’utiliser pour de vrai l’application de traduction de conversations par IA de Google, mais elle est totalement inutilisable dans une vraie conversation. Dans la démo, cela paraissait naturel, mais j’ai confirmé qu’en pratique cela ne fonctionnait pas.
  • Je pense qu’utiliser uniquement des images JPEG comme interface avec GPT-4 est du gaspillage. L’œil humain perçoit davantage les différences entre les frames que les « frames » elles-mêmes. Un modèle dont l’état interne fonctionnerait avec des key frames et des deltas, comme un codec vidéo, pourrait constituer la prochaine grande étape du traitement vidéo en temps réel.
  • Je suis convaincu que Google DeepMind n’avait pas réellement de modèle de langage à l’état de l’art. Au moment de la sortie de ChatGPT, Google a affirmé ne pas publier de meilleur modèle pour des raisons de sécurité de l’IA, mais en réalité ce n’était pas le cas.
  • La latence de cette démo passe par une API, donc elle peut être excusée. L’inférence sur une infrastructure locale est quasiment instantanée ; ainsi, cette démo surpasserait tout le reste si l’on pouvait accéder à cette infrastructure.
  • Le choix du nom Sagittarius est amusant, car cette constellation se trouve à l’opposé de Gemini.