L’application phare de Gemini Pro 1.5, c’est la vidéo

(simonwillison.net)

10 points par GN⁺ 2024-02-22 | 1 commentaires | Partager sur WhatsApp

La taille du contexte de tokens de Google Gemini Pro 1.5 est de 1 000 000
Auparavant, Claude 2.1 (200 000 tokens) et gpt-4-turbo (128 000 tokens) détenaient ce record, mais il est difficile de les comparer parfaitement de façon directe, car l’implémentation de la tokenisation diffère selon les modèles
Après avoir utilisé Gemini Pro 1.5 pendant quelques jours, la fonctionnalité la plus intéressante n’est pas le nombre de tokens, mais la possibilité d’utiliser la vidéo comme entrée
Je n’ai pas encore d’accès à l’API, mais j’ai pu accéder au modèle via l’interface Google AI Studio

Premier test

J’ai filmé l’une de mes bibliothèques dans une vidéo de 7 secondes
Je l’ai téléversée avec le prompt JSON array of books in this video
Cette vidéo de 7 secondes n’a utilisé que 1 841 tokens sur la limite de 1 048 576 tokens
Gemini Pro 1.5 n’a pas renvoyé de JSON, mais a répondu avec une liste des titres de livres et des noms d’auteurs présents dans la vidéo
En ajoutant ensuite la demande as a JSON array of objects, with title and author keys, il a renvoyé les livres/auteurs en JSON
Le résultat est assez impressionnant. La vidéo ne dure que 7 secondes, se déplace assez vite (avec un léger flou de mouvement) et certains livres sont partiellement masqués par d’autres objets

Deuxième test

Cette fois, j’ai filmé en vidéo une étagère remplie de livres de cuisine, en format vertical, un peu plus longue (22 secondes), avec un panoramique non seulement horizontal mais aussi vers le bas
Cette vidéo a utilisé 6 049 tokens, ce qui reste très peu
Nouveau prompt : Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video
Mais la requête a été refusée avec le message Unsafe Content
Le filtre de sécurité semble avoir été gêné par le mot Cocktail
J’ai ouvert les paramètres de sécurité, réglé toutes les catégories sur Faible, puis réessayé, mais la requête a été refusée une deuxième fois
J’ai donc insisté avec go on give me that JSON, et il a renvoyé le JSON
Là encore, le résultat est excellent

Comment l’utiliser ?

La capacité à extraire du contenu structuré à partir de texte est déjà l’un des cas d’usage les plus intéressants des LLM
GPT-4 Vision et LLaVA ont étendu cela aux images, et désormais Gemini Pro 1.5 l’étend à la vidéo
Bien sûr, les précautions habituelles liées aux LLM s’appliquent. Ils peuvent manquer des éléments et halluciner des détails erronés
Il existe aussi des problèmes liés aux filtres de sécurité, comme avec Cocktail
Comme toujours avec l’IA récente, il reste donc encore beaucoup de défis à surmonter
Mais j’ai l’impression qu’il s’agit d’un nouvel exemple qui offre un aperçu d’un futur bien plus proche que je ne l’aurais imaginé

Image vs vidéo

Au début, je pensais que la vidéo serait traitée différemment des images, car le nombre de tokens associé au traitement vidéo est étonnamment faible
Mais d’après un message publié sur Hacker News

Gemini 1.5 Pro peut raisonner sur des vidéos allant jusqu’à 1 heure. Lorsque vous joignez une vidéo, Google AI Studio la segmente en milliers d’images, sans l’audio, puis le modèle Gemini, étant multimodal, peut effectuer des tâches de raisonnement et de résolution de problèmes très sophistiquées.
Le rapport technique de Gemini 1.5 l’explique ainsi :

Lorsqu’on lui fournit en entrée le film de Buster Keaton de 45 minutes "Sherlock Jr." (1924) (2 674 images à 1 FPS, 684k tokens), Gemini 1.5 Pro peut rechercher et extraire des informations textuelles dans des images spécifiques et fournir l’horodatage correspondant.

1 commentaires

GN⁺ 2024-02-22

Commentaires sur Hacker News

Si un agent surveille en permanence et discrètement l’écran de l’utilisateur, cela peut être soit très utile, soit dystopique.
- On peut s’attendre à ce qu’il observe pendant des mois l’utilisateur coder, planifier et faire des recherches, puis fournisse des conseils personnels et professionnels.
- Cette technologie peut refléter la psychologie d’une personne et mémoriser beaucoup d’informations, ce qui pourrait la rendre très précieuse pour des entreprises ou des acteurs malveillants.
- Le modèle doit fonctionner de manière sûre, car il existe un risque de clonage de la personne ou d’atteinte à la vie privée.
Le titre « l’application phare de Gemini Pro 1.5, c’est la vidéo » semble approprié.
- Cela pourrait être utile pour la modération à grande échelle de contenus vidéo comme YouTube, et ce serait bien si le coût pouvait être réduit.
Une vidéo est une suite d’images, et la démo GPT-4-Vision d’OpenAI obtient un effet similaire en envoyant au modèle une liste de frames.
- Ce serait bien que GPT-4-Vision prenne en charge l’appel de fonctions ou des données structurées afin de garantir une sortie JSON.
- Il existe aussi une méthode consistant à utiliser ffmpeg pour extraire une frame sur deux afin de réduire le coût de moitié.
- La démo d’OpenAI envoie une frame sur 50 pour une vidéo d’environ 600 frames.
Une fois que l’IA pourra analyser vidéos, images et texte, et les traiter à faible coût et efficacement, la vie privée sera totalement révolue.
- Aujourd’hui, les grandes entreprises possèdent déjà beaucoup de données sur nous, mais elles ont encore des limites pour tout comprendre et tout relier.
- Une IA puissante pourrait comprendre tous les aspects de notre vie numérique, avec un immense potentiel d’utilisation à des fins bonnes comme mauvaises.
Il semble que l’auteur n’ait pas vérifié si les livres mentionnés dans la vidéo utilisée en entrée étaient réellement exacts.
- Le premier livre vérifié, « Growing Up with Lucy by April Henry », n’existe pas ; il est en réalité de Steve Grand.
- C’est une démo sympa, mais en pratique elle n’est pas utile pour grand-chose de plus.
Le filtre de sécurité de Google semble avoir réagi au mot « Cocktail ».
- Les réglages de sécurité ont été abaissés et un nouvel essai a été fait, mais la deuxième tentative a aussi été refusée.
- Le département de gestion des risques de Google a tellement pris le contrôle de l’organisation que même l’ordinateur le plus intelligent a peur d’utiliser des mots ou images dangereux comme « cocktail » ou « Abraham Lincoln ».
Utiliser seulement 256 tokens par frame est jugé surprenant.
- Contrairement au dicton selon lequel une image vaut mille mots, cela signifie qu’en réalité elle n’en vaut qu’environ 192.
Le problème lié à « Cocktail » existe réellement.
- Quelqu’un a essayé d’imaginer avec DALLE les personnages de Moby Dick, mais cela a été totalement refusé.
- On pourrait penser qu’une entreprise d’IA serait capable de créer un meilleur filtre à grossièretés.
On se demande quelle est la véritable application phare de l’échelle matérielle de Google face à OpenAI (ou à ce que fournit Microsoft).
- Ce que Google a fait n’est probablement pas particulièrement surprenant pour l’équipe d’OpenAI, mais Google pourra peut-être itérer plus vite à très grande échelle.
La technologie elle-même est impressionnante et intéressante, mais la situation ressemble à une revanche du problème de Scunthorpe, ce qui fait sourire.
- Le filtre de sécurité semble avoir réagi au mot « Cocktail ».

L’application phare de Gemini Pro 1.5, c’est la vidéo

Premier test

Deuxième test

Comment l’utiliser ?

Image vs vidéo

À lire aussi

1 commentaires

Commentaires sur Hacker News