L’application phare de Gemini Pro 1.5, c’est la vidéo
(simonwillison.net)- La taille du contexte de tokens de Google Gemini Pro 1.5 est de 1 000 000
- Auparavant, Claude 2.1 (200 000 tokens) et gpt-4-turbo (128 000 tokens) détenaient ce record, mais il est difficile de les comparer parfaitement de façon directe, car l’implémentation de la tokenisation diffère selon les modèles
- Après avoir utilisé Gemini Pro 1.5 pendant quelques jours, la fonctionnalité la plus intéressante n’est pas le nombre de tokens, mais la possibilité d’utiliser la vidéo comme entrée
- Je n’ai pas encore d’accès à l’API, mais j’ai pu accéder au modèle via l’interface Google AI Studio
Premier test
- J’ai filmé l’une de mes bibliothèques dans une vidéo de 7 secondes
- Je l’ai téléversée avec le prompt
JSON array of books in this video - Cette vidéo de 7 secondes n’a utilisé que 1 841 tokens sur la limite de 1 048 576 tokens
- Gemini Pro 1.5 n’a pas renvoyé de JSON, mais a répondu avec une liste des titres de livres et des noms d’auteurs présents dans la vidéo
- En ajoutant ensuite la demande
as a JSON array of objects, with title and author keys, il a renvoyé les livres/auteurs en JSON - Le résultat est assez impressionnant. La vidéo ne dure que 7 secondes, se déplace assez vite (avec un léger flou de mouvement) et certains livres sont partiellement masqués par d’autres objets
Deuxième test
- Cette fois, j’ai filmé en vidéo une étagère remplie de livres de cuisine, en format vertical, un peu plus longue (22 secondes), avec un panoramique non seulement horizontal mais aussi vers le bas
- Cette vidéo a utilisé 6 049 tokens, ce qui reste très peu
- Nouveau prompt :
Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video - Mais la requête a été refusée avec le message
Unsafe Content - Le filtre de sécurité semble avoir été gêné par le mot
Cocktail - J’ai ouvert les paramètres de sécurité, réglé toutes les catégories sur
Faible, puis réessayé, mais la requête a été refusée une deuxième fois - J’ai donc insisté avec
go on give me that JSON, et il a renvoyé le JSON - Là encore, le résultat est excellent
Comment l’utiliser ?
- La capacité à extraire du contenu structuré à partir de texte est déjà l’un des cas d’usage les plus intéressants des LLM
- GPT-4 Vision et LLaVA ont étendu cela aux images, et désormais Gemini Pro 1.5 l’étend à la vidéo
- Bien sûr, les précautions habituelles liées aux LLM s’appliquent. Ils peuvent manquer des éléments et halluciner des détails erronés
- Il existe aussi des problèmes liés aux filtres de sécurité, comme avec
Cocktail - Comme toujours avec l’IA récente, il reste donc encore beaucoup de défis à surmonter
- Mais j’ai l’impression qu’il s’agit d’un nouvel exemple qui offre un aperçu d’un futur bien plus proche que je ne l’aurais imaginé
Image vs vidéo
- Au début, je pensais que la vidéo serait traitée différemment des images, car le nombre de tokens associé au traitement vidéo est étonnamment faible
- Mais d’après un message publié sur Hacker News
Gemini 1.5 Pro peut raisonner sur des vidéos allant jusqu’à 1 heure. Lorsque vous joignez une vidéo, Google AI Studio la segmente en milliers d’images, sans l’audio, puis le modèle Gemini, étant multimodal, peut effectuer des tâches de raisonnement et de résolution de problèmes très sophistiquées.
- Le rapport technique de Gemini 1.5 l’explique ainsi :
Lorsqu’on lui fournit en entrée le film de Buster Keaton de 45 minutes "Sherlock Jr." (1924) (2 674 images à 1 FPS, 684k tokens), Gemini 1.5 Pro peut rechercher et extraire des informations textuelles dans des images spécifiques et fournir l’horodatage correspondant.
1 commentaires
Commentaires sur Hacker News
Si un agent surveille en permanence et discrètement l’écran de l’utilisateur, cela peut être soit très utile, soit dystopique.
Le titre « l’application phare de Gemini Pro 1.5, c’est la vidéo » semble approprié.
Une vidéo est une suite d’images, et la démo GPT-4-Vision d’OpenAI obtient un effet similaire en envoyant au modèle une liste de frames.
Une fois que l’IA pourra analyser vidéos, images et texte, et les traiter à faible coût et efficacement, la vie privée sera totalement révolue.
Il semble que l’auteur n’ait pas vérifié si les livres mentionnés dans la vidéo utilisée en entrée étaient réellement exacts.
Le filtre de sécurité de Google semble avoir réagi au mot « Cocktail ».
Utiliser seulement 256 tokens par frame est jugé surprenant.
Le problème lié à « Cocktail » existe réellement.
On se demande quelle est la véritable application phare de l’échelle matérielle de Google face à OpenAI (ou à ce que fournit Microsoft).
La technologie elle-même est impressionnante et intéressante, mais la situation ressemble à une revanche du problème de Scunthorpe, ce qui fait sourire.