Gemini 3.5 Flash
(deepmind.google)- Gemini 3.5 Flash de Google DeepMind est un modèle en Preview qui conserve la faible latence et l’évolutivité de la gamme Flash tout en apportant un raisonnement avancé pour les tâches d’agent et de codage
- Sa capacité clé est la compréhension multimodale, qui couvre à la fois les longs flux de travail, le codage itératif et le traitement conjoint du texte, de l’audio, des images, du code et de la vidéo
- Les exemples publics vont de la génération rapide d’UI à la création de jeux à partir d’articles de recherche, jusqu’à la conception de villes virtuelles, en mettant l’accent sur l’étendue des usages dans les tâches agentiques
- Dans les benchmarks, il obtient les meilleurs scores du tableau sur plusieurs items, dont MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9% et MMMU-Pro 83.6%
- En entrée, il prend en charge le texte, les images, la vidéo, l’audio et les PDF, et produit du texte en sortie ; il propose 1M de tokens en entrée, 64k tokens en sortie, ainsi que l’appel de fonctions, les sorties structurées, les outils de recherche et l’exécution de code
Positionnement de Gemini 3.5 Flash
- Gemini 3.5 Flash est un modèle qui fournit un raisonnement avancé avec une « latence et une évolutivité de niveau Flash »
- Ses domaines d’application couvrent les agents, le codage, les tâches du quotidien, le raisonnement avancé, la compréhension multimodale et la compréhension de contextes longs
- Le statut du modèle est Preview
Tâches visées avec une latence de niveau Flash
- L’orientation clé est d’offrir à la fois rapidité et intelligence
- L’objectif est d’en faire un modèle qui conserve vitesse et évolutivité sans sacrifier l’intelligence
- Il traite le raisonnement à longue portée et les tâches de codage itératif
- Il prend en charge la compréhension multimodale sur le texte, l’audio, les images, le code et la vidéo
Exemples d’usages agentiques
- Plusieurs exemples montrent ses capacités d’agent rapide
- génération de 6 options d’UI de paiement en moins de 60 secondes
- génération à grande vitesse de 64 variations fractales
- construction autonome d’un jeu intelligent à partir de l’article d’AlphaGo
- orchestration de plusieurs workflows pour créer et améliorer la marque d’un événement de collecte de fonds avec un minimum d’input
- conversion d’une description textuelle en composant HTML interactif complet
- génération de chansons par plusieurs agents à l’aide de la bibliothèque musicale Strudel
- conception et construction d’une ville virtuelle en orchestrant une équipe d’agents spécialisés
- renommage et structuration automatiques d’un jeu de données désordonné
- déploiement d’agents pour améliorer en continu un jeu en temps réel
Cas clients et gains de performance
- Armadin indique que le dernier modèle Flash de Gemini obtient un score 42% supérieur à Flash 3 sur un benchmark cyber longue distance en multitour, avec une efficacité en tokens améliorée de 68%
- Sur l’ensemble d’évaluation des tâches d’entreprise de Box, Gemini 3.5 Flash a obtenu un score 19.6% supérieur à Gemini 3 Flash
- la précision d’extraction de données et de calcul pour les clients Life Sciences a augmenté de 96.4%
- la précision de génération de rapports financiers à partir de données structurées pour les services financiers a augmenté de 46.7%
- Junie de JetBrains estime que Gemini 3.5 Flash offre une qualité de codage et de raisonnement proche de Gemini Pro tout en conservant les caractéristiques de vitesse et de coût de Flash
- par rapport à la génération Flash précédente, les performances de codage avec un niveau de raisonnement plus faible se sont améliorées de 10–20%
Résultats des benchmarks
- Gemini 3.5 Flash est fortement mis en avant comme modèle pour les workflows agentiques
- Benchmarks de codage
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
- Benchmarks agents et usage d’outils
- MCP Atlas: 83.6% avec le meilleur score du tableau
- Toolathlon: 56.5% avec le meilleur score du tableau
- Contrôle d’UI et tâches spécialisées
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9% avec le meilleur score du tableau
- GDPval-AA Elo: 1656
- Benchmarks multimodaux
- CharXiv Reasoning: 84.2% avec le meilleur score du tableau
- MMMU-Pro: 83.6% avec le meilleur score du tableau
- Blueprint-Bench 2: 33.6%
- Contexte long et raisonnement
- moyenne MRCR v2 128k: 77.3%
- MRCR v2 1M pointwise: 26.6%, un score supérieur à ceux de Gemini 3 Flash et Gemini 3.1 Pro comparables
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
- Les détails de la méthodologie d’évaluation sont disponibles dans Gemini 3.5 Flash evals methodology
Informations sur le modèle et environnements disponibles
- Les entrées prises en charge sont le texte, les images, la vidéo, l’audio et les PDF
- La sortie est du texte
- Contexte et base de connaissances
- tokens en entrée : 1M
- tokens en sortie : 64k
- date de coupure des connaissances : janvier 2025
- Fonctions d’usage des outils
- appel de fonctions
- sorties structurées
- usage de la recherche comme outil
- exécution de code
- Les environnements disponibles sont Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity et Android Studio
- La documentation développeur est disponible dans Gemini API models documentation
- La model card est disponible dans Gemini 3.5 Flash model card
1 commentaires
Avis sur Hacker News
pipx install llm # or brew install llmllm install llm-gemini --upgradellm keys set gemini# paste API key herellm -m gemini-1.5-flash-latest 'a short poem about otters'https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Comparé à une solution auto-hébergée, ce n’est pas mauvais, mais le principal différenciateur de Gemini parmi les modèles de pointe était justement son multimodal natif. Maintenant que GPT-4o est arrivé, on voit mal pourquoi une organisation non liée à GCP choisirait Gemini. Si l’on ne traite pas des livres ou des films entiers d’un seul coup, les 128k de contexte de GPT-4o suffisent largement, et je me demande s’il existe réellement des usages à grande échelle qui nécessitent plus de 100k et qui ne fonctionnent pas avec 100k
La force de Gemini ne réside pas dans sa capacité à résoudre des énigmes logiques, mais dans la longueur du contexte. Si vous préparez un examen, vous pouvez mettre le manuel entier dans le chat. Et si vous devez utiliser un langage mort pour un ancien système de test dont il n’existe aucune information sur internet, vous pouvez y mettre un manuel de référence de 1 300 pages et poser vos questions
J’ai essayé d’intégrer Gemini 1.5 Pro dans plusieurs workflows et c’était vraiment médiocre. En particulier, dès qu’on lui donnait de la vidéo ou de l’audio, il hallucinait à un point difficile à croire. Je ne sais pas si un petit modèle multimodal très sujet aux hallucinations a des cas d’usage vraiment pratiques dans la plupart des entreprises ; sans fiabilité, ce n’est qu’un jouet
Même face à GPT-4o, le modèle multimodal le moins cher d’OpenAI, GPT-3.5-Turbo coûte 1/10 du prix de GPT-4o, avec $0.5 par million de tokens en entrée, $1.50 par million de tokens en sortie, et une fenêtre de contexte de 16K. Gemini 1.5 Flash coûte $0.35 par million de tokens en entrée et $0.53 par million de tokens en sortie pour des prompts de 128K ou moins. Pour les tâches multimodales qui n’exigent pas une intelligence de niveau GPT-4, notamment le traitement de documents, Gemini Flash semble représenter près de 95 % d’économies
On n’a plus à y réfléchir à deux fois avant d’ajouter du contexte, ni à construire des contournements pour gérer les dépassements de contexte. Si la plupart des cas d’usage concernent davantage le texte que le multimodal, l’avantage paraît assez évident
J’ai essayé cinq ou six fois puis j’ai abandonné ; j’espère que cette version sera plus rapide et plus stable
Intuitivement, plus le contexte s’allonge, plus on finit par se heurter à une limite sur la quantité de compréhension qu’on peut condenser en un seul point d’un espace vectoriel, et il faudra sans doute de meilleures architectures pour sélectionner les parties pertinentes du contexte
Je ne sais pas si ces informations sont publiques, mais la taille de la dimension des embeddings est un choix d’architecture. J’y vois moins une limite de principe qu’un problème de conception et de contraintes de ressources
S’il existe un article pertinent ou des ressources pour approfondir, je serais preneur
Le nombre de têtes ou la taille des vecteurs-clés peuvent être augmentés à tout moment
Mais il n’y avait qu’une partie des personnages, les annotations étaient pauvres, et cela a coûté environ $20. Si on le fait 10 fois, c’est juste assez correct pour tromper quelques fois
Mais il ne faut pas laisser cela devenir l’avenir
Si l’on essaie simplement d’énumérer les modèles via l’API de Google, on a l’impression qu’ils proposent une dizaine de modèles via un parcours où cela s’appelle Generative Language API dans la console Google Cloud et Gemini API dans la documentation. Il y a plus de 10 noms de modèles, mais certains sont juste plusieurs alias pour les mêmes modèles.
Parmi eux, seuls 3 ont des informations de prix sur la page de tarification de l’API Gemini, et 2 de ces 3 sont en preview, donc leur tarification s’appliquera plus tard. Dans la Generative Language API de la console, un seul des 3 modèles de la documentation qui n’est pas en preview affiche un prix. Dans la liste des Cloud SKU, il n’y a pas de Generative Language API, mais il y a Gemini API — et là encore, uniquement ce même modèle. Quant à la Cloud Price list vers laquelle la page de la console renvoie comme « tarification la plus récente », on n’y trouve ni Generative Language API ni Gemini API. Je ne comprends pas pourquoi il y a autant d’entrées différentes
Je suis vraiment curieux de voir comment des LLM basés sur les caractères se compareraient. Avec 2 millions de contexte, le goulot d’étranglement du calcul devient moins net. En revanche, je ne sais pas bien quel rôle joue la taille du vocabulaire. Comme les embeddings contiennent déjà une grande partie de la connaissance, un grand vocabulaire peut avoir de l’importance. À l’inverse, utiliser un vocabulaire fondé sur les caractères pourrait résoudre plusieurs problèmes comme les glitch tokens, l’arithmétique ou la prosodie. Implémenter et entraîner correctement un tokenizer subword semble aussi assez complexe, alors qu’au niveau caractère cela devrait être très simple
Sur les serveurs d’inférence, une part importante de la mémoire est occupée par le cache KV, et si l’on veut empiler des embeddings via l’attention, il faut relier beaucoup plus de tokens entre eux, alors que chaque token porte moins de « sens ». On finira peut-être par arriver à ce point. Au bout du compte, il faudra sans doute des LLM multimodaux capables de comprendre les images et le son jusqu’au niveau des pixels et des fréquences, et on voudra probablement qu’il en aille de même pour le texte
Du moins, c’est généralement ainsi que je le vois. J’ai l’impression qu’une telle approche produirait une meilleure qualité qu’avec l’alphabet latin. Je me demande si on pourrait déjà le tester simplement en comparant la manière dont les LLM traitent l’anglais et le chinois
Ensuite, ces modèles transforment très grossièrement les tokens en une « signification moyenne » dans la couche d’embedding, les couches d’attention combinent les significations, puis les couches feed-forward ajustent la combinaison de sens actuelle à quelque chose comme des archétypes ou prototypes appris. Si on descend des fragments de mots aux caractères, tout cela devient encore plus confus. Par exemple, il est déjà difficile de définir ce que serait la signification moyenne de « a », et c’est pourquoi j’estime qu’on ne dispose pas encore de techniques suffisantes pour bien entraîner des modèles basés sur les caractères
Ce n’est qu’une supposition peu assurée, mais c’est peut-être parce que les transformers ne sont pas des reconnaisseurs de motifs universels et ne peuvent capter que des motifs à un certain niveau de granularité
« ChatGPT » est un nom assez lourd et compliqué, et OpenAI donne l’impression d’une organisation sans visage. Bien sûr, cela peut encore changer, mais à ce stade cela semble déjà bien tard. Ils avaient largement les moyens d’être plus créatifs au moment de lancer ça sur le marché
« GPT4o », sérieusement ? Même « GPT4 Omni » est plus facile à dire en conversation, et c’est d’ailleurs ce que veut dire le « o ». Ils sous-estiment gravement le nombre d’utilisateurs grand public
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
D’après https://ai.google.dev/pricing, il semble être tarifé légèrement en dessous de gpt3.5-turbo, mais on ne peut pas savoir comment cela se compare en pratique
J’ai utilisé Gemini Pro et ChatGPT 4 côte à côte pendant des mois pour du code pratique, de l’architecture système et parfois des questions générales, et ChatGPT était au moins 80 % plus utile. Gemini était soit faux, soit verbeux au point d’errer longtemps avant d’arriver à une réponse utile, ce qui ne valait pas la peine de l’utiliser. Ce dont j’avais besoin, ce n’était pas de plus de vitesse. Peut-être qu’il est désormais plus « intelligent », c’est-à-dire plus utile, mais