Gemini 3.5 Flash

(deepmind.google)

2 points par GN⁺ 2024-05-15 | 1 commentaires | Partager sur WhatsApp

Gemini 3.5 Flash de Google DeepMind est un modèle en Preview qui conserve la faible latence et l’évolutivité de la gamme Flash tout en apportant un raisonnement avancé pour les tâches d’agent et de codage
Sa capacité clé est la compréhension multimodale, qui couvre à la fois les longs flux de travail, le codage itératif et le traitement conjoint du texte, de l’audio, des images, du code et de la vidéo
Les exemples publics vont de la génération rapide d’UI à la création de jeux à partir d’articles de recherche, jusqu’à la conception de villes virtuelles, en mettant l’accent sur l’étendue des usages dans les tâches agentiques
Dans les benchmarks, il obtient les meilleurs scores du tableau sur plusieurs items, dont MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9% et MMMU-Pro 83.6%
En entrée, il prend en charge le texte, les images, la vidéo, l’audio et les PDF, et produit du texte en sortie ; il propose 1M de tokens en entrée, 64k tokens en sortie, ainsi que l’appel de fonctions, les sorties structurées, les outils de recherche et l’exécution de code

Positionnement de Gemini 3.5 Flash

Gemini 3.5 Flash est un modèle qui fournit un raisonnement avancé avec une « latence et une évolutivité de niveau Flash »
Ses domaines d’application couvrent les agents, le codage, les tâches du quotidien, le raisonnement avancé, la compréhension multimodale et la compréhension de contextes longs
Le statut du modèle est Preview

Tâches visées avec une latence de niveau Flash

L’orientation clé est d’offrir à la fois rapidité et intelligence
- L’objectif est d’en faire un modèle qui conserve vitesse et évolutivité sans sacrifier l’intelligence
Il traite le raisonnement à longue portée et les tâches de codage itératif
Il prend en charge la compréhension multimodale sur le texte, l’audio, les images, le code et la vidéo

Exemples d’usages agentiques

Plusieurs exemples montrent ses capacités d’agent rapide
- génération de 6 options d’UI de paiement en moins de 60 secondes
- génération à grande vitesse de 64 variations fractales
- construction autonome d’un jeu intelligent à partir de l’article d’AlphaGo
- orchestration de plusieurs workflows pour créer et améliorer la marque d’un événement de collecte de fonds avec un minimum d’input
- conversion d’une description textuelle en composant HTML interactif complet
- génération de chansons par plusieurs agents à l’aide de la bibliothèque musicale Strudel
- conception et construction d’une ville virtuelle en orchestrant une équipe d’agents spécialisés
- renommage et structuration automatiques d’un jeu de données désordonné
- déploiement d’agents pour améliorer en continu un jeu en temps réel

Cas clients et gains de performance

Armadin indique que le dernier modèle Flash de Gemini obtient un score 42% supérieur à Flash 3 sur un benchmark cyber longue distance en multitour, avec une efficacité en tokens améliorée de 68%
Sur l’ensemble d’évaluation des tâches d’entreprise de Box, Gemini 3.5 Flash a obtenu un score 19.6% supérieur à Gemini 3 Flash
- la précision d’extraction de données et de calcul pour les clients Life Sciences a augmenté de 96.4%
- la précision de génération de rapports financiers à partir de données structurées pour les services financiers a augmenté de 46.7%
Junie de JetBrains estime que Gemini 3.5 Flash offre une qualité de codage et de raisonnement proche de Gemini Pro tout en conservant les caractéristiques de vitesse et de coût de Flash
- par rapport à la génération Flash précédente, les performances de codage avec un niveau de raisonnement plus faible se sont améliorées de 10–20%

Résultats des benchmarks

Gemini 3.5 Flash est fortement mis en avant comme modèle pour les workflows agentiques
Benchmarks de codage
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
Benchmarks agents et usage d’outils
- MCP Atlas: 83.6% avec le meilleur score du tableau
- Toolathlon: 56.5% avec le meilleur score du tableau
Contrôle d’UI et tâches spécialisées
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9% avec le meilleur score du tableau
- GDPval-AA Elo: 1656
Benchmarks multimodaux
- CharXiv Reasoning: 84.2% avec le meilleur score du tableau
- MMMU-Pro: 83.6% avec le meilleur score du tableau
- Blueprint-Bench 2: 33.6%
Contexte long et raisonnement
- moyenne MRCR v2 128k: 77.3%
- MRCR v2 1M pointwise: 26.6%, un score supérieur à ceux de Gemini 3 Flash et Gemini 3.1 Pro comparables
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
Les détails de la méthodologie d’évaluation sont disponibles dans Gemini 3.5 Flash evals methodology

Informations sur le modèle et environnements disponibles

Les entrées prises en charge sont le texte, les images, la vidéo, l’audio et les PDF
La sortie est du texte
Contexte et base de connaissances
- tokens en entrée : 1M
- tokens en sortie : 64k
- date de coupure des connaissances : janvier 2025
Fonctions d’usage des outils
- appel de fonctions
- sorties structurées
- usage de la recherche comme outil
- exécution de code
Les environnements disponibles sont Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity et Android Studio
La documentation développeur est disponible dans Gemini API models documentation
La model card est disponible dans Gemini 3.5 Flash model card

1 commentaires

GN⁺ 2024-05-15

Avis sur Hacker News

Le plugin llm-gemini a été mis à niveau pour fournir un accès CLI à Gemini Flash
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4
À en juger par des benchmarks comme MMLU, cela semble signifier qu’on a en pratique une qualité de niveau Llama 3 70B, avec une latence au premier token inférieure à 1 seconde, et, sans être au niveau de GPT-4/Opus, un modèle doté d’un multimodal natif et d’un contexte d’un million de tokens
Comparé à une solution auto-hébergée, ce n’est pas mauvais, mais le principal différenciateur de Gemini parmi les modèles de pointe était justement son multimodal natif. Maintenant que GPT-4o est arrivé, on voit mal pourquoi une organisation non liée à GCP choisirait Gemini. Si l’on ne traite pas des livres ou des films entiers d’un seul coup, les 128k de contexte de GPT-4o suffisent largement, et je me demande s’il existe réellement des usages à grande échelle qui nécessitent plus de 100k et qui ne fonctionnent pas avec 100k
- Avec 1 million de tokens, on peut mettre 2 000 pages de documents dans la fenêtre de contexte avant même de commencer à discuter
  La force de Gemini ne réside pas dans sa capacité à résoudre des énigmes logiques, mais dans la longueur du contexte. Si vous préparez un examen, vous pouvez mettre le manuel entier dans le chat. Et si vous devez utiliser un langage mort pour un ancien système de test dont il n’existe aucune information sur internet, vous pouvez y mettre un manuel de référence de 1 300 pages et poser vos questions
- Je ne crois pas du tout que ce soit une qualité de niveau Llama 3 70B
  J’ai essayé d’intégrer Gemini 1.5 Pro dans plusieurs workflows et c’était vraiment médiocre. En particulier, dès qu’on lui donnait de la vidéo ou de l’audio, il hallucinait à un point difficile à croire. Je ne sais pas si un petit modèle multimodal très sujet aux hallucinations a des cas d’usage vraiment pratiques dans la plupart des entreprises ; sans fiabilité, ce n’est qu’un jouet
- La raison pour laquelle une organisation non liée à GCP choisirait Gemini, c’est le prix. Surtout pour les tâches multimodales qui n’ont pas besoin d’une qualité niveau GPT-4
  Même face à GPT-4o, le modèle multimodal le moins cher d’OpenAI, GPT-3.5-Turbo coûte 1/10 du prix de GPT-4o, avec $0.5 par million de tokens en entrée, $1.50 par million de tokens en sortie, et une fenêtre de contexte de 16K. Gemini 1.5 Flash coûte $0.35 par million de tokens en entrée et $0.53 par million de tokens en sortie pour des prompts de 128K ou moins. Pour les tâches multimodales qui n’exigent pas une intelligence de niveau GPT-4, notamment le traitement de documents, Gemini Flash semble représenter près de 95 % d’économies
- Cela ressemble à demander pourquoi il faudrait 1 Go de Gmail alors qu’un compte Yahoo de 50 Mo semble suffire
  On n’a plus à y réfléchir à deux fois avant d’ajouter du contexte, ni à construire des contournements pour gérer les dépassements de contexte. Si la plupart des cas d’usage concernent davantage le texte que le multimodal, l’avantage paraît assez évident
- Il y a quelques mois, j’ai essayé d’utiliser 1 million de tokens avec Gemini, mais soit il plantait, soit il répondait très lentement avant de finir par planter
  J’ai essayé cinq ou six fois puis j’ai abandonné ; j’espère que cette version sera plus rapide et plus stable
Je pense que le contexte de 1 million de tokens par défaut est ici la grande nouveauté, mais il faudrait de meilleurs benchmarks pour mesurer ce que cela signifie réellement
Intuitivement, plus le contexte s’allonge, plus on finit par se heurter à une limite sur la quantité de compréhension qu’on peut condenser en un seul point d’un espace vectoriel, et il faudra sans doute de meilleures architectures pour sélectionner les parties pertinentes du contexte
- Si l’on parle d’usage en production, le multimodal d’un modèle coûtant 4 à 7 % par token du modèle multimodal le moins cher d’OpenAI est une capacité importante, et non une simple démo économiquement insoutenable
- Je ne vois pas bien de quelle limite d’un point unique dans un espace vectoriel il est question
  Je ne sais pas si ces informations sont publiques, mais la taille de la dimension des embeddings est un choix d’architecture. J’y vois moins une limite de principe qu’un problème de conception et de contraintes de ressources
- Je me demande si quelqu’un pourrait expliquer ce que signifie le fait de mettre de la compréhension dans un point unique de l’espace vectoriel, de façon compréhensible même pour quelqu’un qui connaît seulement vaguement les vecteurs et les bases de données vectorielles
  S’il existe un article pertinent ou des ressources pour approfondir, je serais preneur
- Nous parlons de l’attention multi-tête, donc il y a plusieurs points par token
  Le nombre de têtes ou la taille des vecteurs-clés peuvent être augmentés à tout moment
- En pratique, ce n’est pas si bon. On peut produire des démos convaincantes du genre « j’ai mis Harry Potter tome 6.5 et il a créé une carte SVG annotée reliant les personnages »
  Mais il n’y avait qu’une partie des personnages, les annotations étaient pauvres, et cela a coûté environ $20. Si on le fait 10 fois, c’est juste assez correct pour tromper quelques fois
C’est amusant qu’il s’agisse d’un modèle léger utilisable uniquement dans le cloud. Ces géants de la tech ont vraiment une forte volonté de posséder jusqu’à l’usage de l’IA
Mais il ne faut pas laisser cela devenir l’avenir
Une chose qu’OpenAI fait mieux que Google, c’est qu’ils publient réellement les prix de leur API et utilisent des noms relativement cohérents
Si l’on essaie simplement d’énumérer les modèles via l’API de Google, on a l’impression qu’ils proposent une dizaine de modèles via un parcours où cela s’appelle Generative Language API dans la console Google Cloud et Gemini API dans la documentation. Il y a plus de 10 noms de modèles, mais certains sont juste plusieurs alias pour les mêmes modèles.
Parmi eux, seuls 3 ont des informations de prix sur la page de tarification de l’API Gemini, et 2 de ces 3 sont en preview, donc leur tarification s’appliquera plus tard. Dans la Generative Language API de la console, un seul des 3 modèles de la documentation qui n’est pas en preview affiche un prix. Dans la liste des Cloud SKU, il n’y a pas de Generative Language API, mais il y a Gemini API — et là encore, uniquement ce même modèle. Quant à la Cloud Price list vers laquelle la page de la console renvoie comme « tarification la plus récente », on n’y trouve ni Generative Language API ni Gemini API. Je ne comprends pas pourquoi il y a autant d’entrées différentes
Maintenant que la longueur de contexte semble suffisante pour la plupart des tâches, je me demande pourquoi on utilise encore des tokens de sous-mots

Je suis vraiment curieux de voir comment des LLM basés sur les caractères se compareraient. Avec 2 millions de contexte, le goulot d’étranglement du calcul devient moins net. En revanche, je ne sais pas bien quel rôle joue la taille du vocabulaire. Comme les embeddings contiennent déjà une grande partie de la connaissance, un grand vocabulaire peut avoir de l’importance. À l’inverse, utiliser un vocabulaire fondé sur les caractères pourrait résoudre plusieurs problèmes comme les glitch tokens, l’arithmétique ou la prosodie. Implémenter et entraîner correctement un tokenizer subword semble aussi assez complexe, alors qu’au niveau caractère cela devrait être très simple

Le mécanisme d’attention apprend bien plus efficacement quand il peut se concentrer sur des tokens plus grands et porteurs de sens
Sur les serveurs d’inférence, une part importante de la mémoire est occupée par le cache KV, et si l’on veut empiler des embeddings via l’attention, il faut relier beaucoup plus de tokens entre eux, alors que chaque token porte moins de « sens ». On finira peut-être par arriver à ce point. Au bout du compte, il faudra sans doute des LLM multimodaux capables de comprendre les images et le son jusqu’au niveau des pixels et des fréquences, et on voudra probablement qu’il en aille de même pour le texte
Les caractères ne sont pas les composants sémantiques des mots, ce rôle est plutôt joué par les syllabes
Du moins, c’est généralement ainsi que je le vois. J’ai l’impression qu’une telle approche produirait une meilleure qualité qu’avec l’alphabet latin. Je me demande si on pourrait déjà le tester simplement en comparant la manière dont les LLM traitent l’anglais et le chinois
Je vois deux gros problèmes. D’abord, il faut générer séquentiellement davantage de sorties, donc la latence se dégrade
Ensuite, ces modèles transforment très grossièrement les tokens en une « signification moyenne » dans la couche d’embedding, les couches d’attention combinent les significations, puis les couches feed-forward ajustent la combinaison de sens actuelle à quelque chose comme des archétypes ou prototypes appris. Si on descend des fragments de mots aux caractères, tout cela devient encore plus confus. Par exemple, il est déjà difficile de définir ce que serait la signification moyenne de « a », et c’est pourquoi j’estime qu’on ne dispose pas encore de techniques suffisantes pour bien entraîner des modèles basés sur les caractères
En génération musicale par IA, on obtient de bien meilleurs résultats avec une très grande taille de vocabulaire de l’ordre de 10^6
Ce n’est qu’une supposition peu assurée, mais c’est peut-être parce que les transformers ne sont pas des reconnaisseurs de motifs universels et ne peuvent capter que des motifs à un certain niveau de granularité
Google semble clairement avoir une meilleure équipe branding. J’aime bien des noms comme Gemini ou Gems
« ChatGPT » est un nom assez lourd et compliqué, et OpenAI donne l’impression d’une organisation sans visage. Bien sûr, cela peut encore changer, mais à ce stade cela semble déjà bien tard. Ils avaient largement les moyens d’être plus créatifs au moment de lancer ça sur le marché
- « ChatGPT » est un nom du type « Google ». Je ne pense pas que « Gemini » puisse le remplacer
- OpenAI a désespérément besoin de conseil en marketing
  « GPT4o », sérieusement ? Même « GPT4 Omni » est plus facile à dire en conversation, et c’est d’ailleurs ce que veut dire le « o ». Ils sous-estiment gravement le nombre d’utilisateurs grand public
Sur le benchmark NYT Connections, Gemini 1.5 Flash obtient 15,3 points
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
- Dans cette liste, il y a beaucoup trop de modèles OpenAI aux performances élevées mais aux noms catastrophiques
Il n’y a pas beaucoup d’informations. Ils le vendent comme une option rapide et peu chère, mais il n’y a même pas de benchmark de vitesse d’inférence, ni de comparaison avec des modèles non Gemini
D’après https://ai.google.dev/pricing, il semble être tarifé légèrement en dessous de gpt3.5-turbo, mais on ne peut pas savoir comment cela se compare en pratique
Si Gemini Flash est simplement un Gemini plus rapide, alors recevoir de mauvaises réponses plus vite ne l’améliore pas
J’ai utilisé Gemini Pro et ChatGPT 4 côte à côte pendant des mois pour du code pratique, de l’architecture système et parfois des questions générales, et ChatGPT était au moins 80 % plus utile. Gemini était soit faux, soit verbeux au point d’errer longtemps avant d’arriver à une réponse utile, ce qui ne valait pas la peine de l’utiliser. Ce dont j’avais besoin, ce n’était pas de plus de vitesse. Peut-être qu’il est désormais plus « intelligent », c’est-à-dire plus utile, mais
- Si l’on définit l’intelligence comme le fait d’accomplir davantage avec moins de ressources, c’est peut-être le signe qu’il y a là quelque chose dans l’espace latent qui mérite d’être développé