1 points par GN⁺ 2 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Gemini 3.5 Flash est le premier modèle Gemini 3.5 à combiner une intelligence de niveau frontier et des capacités d’exécution, avec pour cible les tâches longues des agents et du codage
  • Tout en conservant la vitesse de la série Flash, il dépasse Gemini 3.1 Pro sur Terminal-Bench 2.1 avec 76,2 % et sur GDPval-AA avec 1656 Elo
  • En débit de sortie en tokens par seconde, il est 4 fois plus rapide que les autres modèles frontier, et coûte souvent moins de la moitié, ce qui le rend avantageux pour les tâches agentiques de longue durée
  • Dans Antigravity et AI Studio, il exécute des tâches en plusieurs étapes comme le développement d’applications, la migration de code legacy vers Next.js, l’implémentation d’un jeu à partir d’un article de recherche et la création de maquettes UX
  • Il est proposé comme modèle par défaut dans l’app Gemini et le mode IA de Search, s’applique aussi à Gemini Spark et aux workflows de partenaires d’entreprise, tandis que 3.5 Pro est prévu pour le mois prochain

Annonce de Gemini 3.5 et périmètre de disponibilité

  • Gemini 3.5 est la dernière famille de modèles à associer intelligence de niveau frontier et capacités d’exécution, pensée comme une base pour créer des agents plus compétents
  • Le premier modèle lancé est 3.5 Flash, qui offre des performances de niveau frontier pour les agents et le codage, en se concentrant sur des tâches longues et complexes réellement utiles
  • 3.5 Flash est disponible via plusieurs produits Google et outils pour développeurs
    • Pour le grand public, via l’app Gemini et le mode IA de Google Search
    • Pour les développeurs, via Google Antigravity, l’API Gemini de Google AI Studio et Android Studio
    • Pour les entreprises, via Gemini Enterprise Agent Platform et Gemini Enterprise
  • 3.5 Pro est également en cours de développement, déjà utilisé en interne, avec une sortie prévue le mois prochain

Performances de 3.5 Flash

  • 3.5 Flash conserve la vitesse de la série Flash tout en offrant une intelligence capable de rivaliser avec de grands modèles flagship sur plusieurs dimensions
  • C’est le modèle de codage agentique le plus puissant de Google, devant Gemini 3.1 Pro sur des benchmarks difficiles de codage et d’agents
    • Terminal-Bench 2.1 : 76,2 %
    • GDPval-AA : 1656 Elo
    • MCP Atlas : 83,6 %
    • Compréhension multimodale CharXiv Reasoning : 84,2 %
  • Son débit de traitement, mesuré en tokens de sortie par seconde, est 4 fois plus rapide que celui des autres modèles frontier
  • Dans les métriques d’Artificial Analysis, il se situe dans le quadrant supérieur droit, montrant un modèle qui réduit le compromis entre qualité et latence

Travaux agentiques à grande échelle

  • Grâce à son équilibre entre vitesse et performances, 3.5 Flash convient aux tâches agentiques de longue durée
  • Il aide à achever en moins de temps des travaux qui demandaient auparavant plusieurs jours à des développeurs et plusieurs semaines à des auditeurs, souvent pour moins de la moitié du coût des autres modèles frontier
  • Il permet de planifier, construire et itérer rapidement dans la résolution de problèmes réels
    • Développement de nouvelles applications
    • Maintenance de codebases
    • Aide à la préparation de documents financiers
  • Combiné au harness Antigravity mis à jour, il devient un moteur d’exécution capable de déployer des sous-agents collaboratifs pour traiter à grande échelle des cas d’usage exigeants
  • Il exécute de façon fiable des workflows en plusieurs étapes et des tâches de codage sous supervision, tout en maintenant des performances de niveau frontier

Exemples d’usage avec Antigravity et AI Studio

  • 3.5 Flash exécute dans Antigravity des workflows en plusieurs étapes pour renommer et classer automatiquement des actifs non structurés selon des critères dynamiques
  • Dans Antigravity, il utilise deux agents pour synthétiser l’article AlphaZero et coder un jeu entièrement jouable en moins de 6 heures
  • Avec le harness Antigravity, il convertit une codebase legacy complexe vers Next.js
  • Dans Antigravity, il utilise des sous-agents pour générer un nouveau paysage urbain et développer un jeu via une boucle rapide d’auto-amélioration entre un agent builder et un agent player
  • En s’appuyant sur les solides capacités multimodales de Gemini 3, 3.5 Flash génère des interfaces web et des graphismes plus riches et plus interactifs
    • Dans AI Studio, il génère une animation interactive pour un article de recherche en IA
    • Dans AI Studio, il transforme une simple description textuelle en matériel interactif
    • Dans AI Studio, il exécute plusieurs concepts en parallèle afin de créer un concept de branding complet pour une collecte de fonds scolaire
    • Dans AI Studio, il génère en 60 secondes différentes approches UX pour un parcours de checkout

Usages en entreprise et chez les développeurs

  • Les capacités agentiques de 3.5 Flash sont déjà utilisées dans les workflows des développeurs et des entreprises
  • Lors du développement de la famille Gemini 3.5, Google a travaillé avec des partenaires industriels pour identifier les points où apparaissent répétition des tâches et complexité
  • Les partenaires constatent déjà des effets, de l’automatisation de workflows de plusieurs semaines dans la banque et la fintech jusqu’à l’aide apportée aux équipes data science pour trouver des insights dans des environnements de données complexes
  • Shopify

    • Exécute des sous-agents en parallèle pour analyser sur la durée des données complexes et produire des prévisions de croissance des marchands plus précises à l’échelle mondiale
  • Macquarie Bank

    • Pilote une approche qui raisonne sur des documents complexes de plus de 100 pages, recherche les informations pertinentes et produit des recommandations fiables à faible latence afin d’accélérer l’onboarding client
  • Salesforce

    • Intègre 3.5 Flash à Agentforce afin d’automatiser des tâches d’entreprise complexes à l’aide de plusieurs sous-agents capables de conserver le contexte et d’exécuter des appels d’outils complexes sur plusieurs tours
  • Ramp

    • Combine compréhension multimodale de factures complexes et raisonnement sur des schémas passés pour prendre en charge un OCR plus intelligent et plus fiable
  • Xero

    • Permet à des agents de gérer de façon autonome des workflows complexes sur plusieurs semaines, comme l’identification des fournisseurs et la collecte d’informations pour les formulaires fiscaux 1099, afin d’automatiser les tâches administratives répétitives des petites entreprises
  • Databricks

    • Utilise des workflows agentiques pour surveiller et rechercher des informations en temps réel, raisonner sur de vastes jeux de données, diagnostiquer des problèmes et proposer des correctifs et des solutions

Agents IA personnels et intégration à Search

  • 3.5 Flash devient le modèle par défaut dans l’app Gemini et le mode IA de Search à l’échelle mondiale
  • Lors de Google I/O, de nouvelles fonctions appliquant les capacités agentiques de 3.5 Flash à la vie quotidienne ont été dévoilées
  • Gemini Spark est un agent IA personnel utilisant 3.5 Flash
    • Il fonctionne 24 heures sur 24
    • Il navigue dans la vie numérique de l’utilisateur selon ses instructions et agit en son nom
    • Son déploiement auprès de testeurs de confiance commence dès aujourd’hui
    • Il doit être proposé en bêta la semaine prochaine aux abonnés Google AI Ultra aux États-Unis
  • Les capacités renforcées de codage agentique de 3.5 Flash apportent des expériences plus intelligentes à Search
    • Introduction d’un nouvel agent d’information fonctionnant 24 heures sur 24 pour l’utilisateur
    • Possibilité d’expériences d’interface générative plus dynamiques
    • Search utilise 3.5 Flash pour générer des visuels interactifs expliquant le motif Gyroid

Garde-fous

  • Gemini 3.5 est développé conformément au Frontier Safety Framework
  • Les garde-fous de cybersécurité et CBRN ont été renforcés, réduisant à la fois la probabilité de générer des contenus nuisibles et celle de refuser à tort des requêtes sûres
  • De nouvelles techniques, plus avancées, d’apprentissage de la sécurité et d’atténuation ont été appliquées
  • Des outils d’interprétabilité sont inclus pour aider à examiner et comprendre le raisonnement interne de l’IA avant de fournir une réponse

1 commentaires

 
GN⁺ 2 시간 전
Avis sur Hacker News
  • Le pélican est plutôt convaincant : https://github.com/simonw/llm-gemini/issues/133#issuecomment...
    En revanche, le vélo n’est pas terrible. Il manque la barre entre les pédales et la roue arrière, et les autres parties du cadre sont bizarrement emmêlées
    Et en plus, ça coûte cher. Ce pélican à lui seul revenait à 13 cents : https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...

    • On dirait que ce pélican est venu à Miami pour une conférence crypto
    • Ça illustre parfaitement un phénomène que j’ai déjà ressenti dans l’évolution des grands modèles de langage. Quand on leur demande ce type d’amélioration SVG, ils ne corrigent pas la traverse manquante ou les membres disjoints ; ils ajoutent simplement davantage d’éléments
      Cet exemple est clairement bien meilleur et les détails sont absurdement nombreux, mais la forme de base du cadre reste fausse. On voit le même schéma avec des pages web aussi : ils ajoutent davantage de choses, comme des boutons
      J’ai même essayé de donner le SVG du pélican cassé à un modèle d’image pour lui faire détecter les défauts, et il n’a toujours pas su repérer les éléments cassés
    • Oublier les bases arrière est un résultat très courant quand on demande à quelqu’un de dessiner un vélo
      https://www.gianlucagimini.it/portfolio-item/velocipedia/

      most ended up drawing something that was pretty far off from a regular men’s bicycle

    • J’ai l’impression que ça capture assez bien cette ambiance typiquement Google, peu élégante mais qui essaie toujours de paraître branchée auprès des jeunes
    • Ce soleil ressemble énormément à celui qu’on voit en arrière-plan d’un autre post HN bien classé à propos d’un musée des OS : https://news.ycombinator.com/item?id=48195009
  • Prix par million de tokens en entrée/sortie :
    Gemini 2.5 Flash: $0.30/$2.50
    Gemini 3.0 Flash Preview: $0.50/$3.00
    Gemini 3.5 Flash: $1.50/$9.00
    L’évolution des prix est intéressante. Je ne crois pas avoir déjà vu une hausse de prix par 3 sur le modèle suivant de même taille, et le fait que la version 3 n’ait existé qu’en Preview est assez drôle
    Gemini 3.5 Flash coûte à peu près autant que Gemini 2.5 Pro, qui était à $1.25/$10

    • Ça sous-estime en fait la hausse de coût. 3.5 Flash consomme aussi plus de tokens. D’après artificialanalysis.ai, l’écart de coût pour faire tourner l’évaluation complète semble plus proche du vrai prix :
      Gemini 2.5 Flash(27 points): $172(1.0x)
      Gemini 2.5 Pro(35 points): $649(3.8x)
      Gemini 3.0 Flash(46 points): $278(1.6x)
      Gemini 3.5 Flash(55 points): $1,552(9.0x, ou 2.4x par rapport à 2.5 Pro)
      C’est une hausse de prix énorme. Par rapport à Gemini 3.0 Flash, c’est 5.6x
    • Il est très possible qu’ils n’aient jamais eu l’intention de continuer à proposer des modèles bon marché. C’est la manière naturelle de commencer à mettre la pression une fois que des gens ont construit des services par-dessus l’API
      C’est pour ça qu’avoir une couche d’abstraction qui évite d’être lié à un fournisseur a vraiment du sens. Si vous utilisez Kotlin, Koog est excellent
    • Il nous faut encore un moment DeepSeek. Sinon, l’IA deviendra difficile à utiliser pour les gens ordinaires, et ce sera un produit que seules les grandes entreprises pourront se permettre
    • Si Google exécute réellement l’inférence à moindre coût que les autres grâce aux TPU, ça ressemble à un signal inquiétant. Ça pourrait vouloir dire qu’il est difficile de servir des grands modèles de langage de manière rentable
      Ou alors ils se disent qu’avec de bons benchmarks, ils peuvent augmenter les prix. Mais ils ne semblent pas encore avoir une part de marché suffisante pour justifier ce genre de décision
    • 3.5 Flash n’est-il pas marqué Stable plutôt que Preview ? Est-ce que j’ai mal lu ?
      https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
  • Le fait que Google ait marqué ce modèle Stable plutôt que Preview mérite qu’on s’y attarde. C’est inhabituel au regard de leurs sorties récentes
    En ajoutant à cela une hausse de prix par 3, le tarif de Flash ressemble moins à une mesure temporaire qui sera plus tard annulée qu’au plancher de long terme visé par Google
    En revanche, il est encore difficile de dire si c’est simplement Google qui a mieux lu l’ambiance, ou si tout le secteur est en train de redéfinir discrètement le niveau de base de l’inférence low-cost

  • Create animated SVG of a frog on a boat rowing through jungle river. Single page self contained HTML page with SVG
    3.5 Flash: Thinking Medium - 7516 tokens
    https://gistpreview.github.io/?5c9858fd2057e678b55d563d9bff0...
    3.5 Flash: Thinking High - 7280 tokens
    https://gistpreview.github.io/?1cab3d70064349d08cf5952cdc165...
    3.1 Pro - 28,258 tokens
    https://gistpreview.github.io/?6bf3da2f80487608b9525bce53018...
    La 3.1 a réfléchi pendant 3 minutes pour générer le résultat, mais c’était le seul modèle à avoir correctement ajouté le mouvement d’animation

  • Est-ce que je suis vraiment devenu si vieux que, quand quelqu’un dit "Flash", je pense immédiatement à "essayez plutôt HTML5" ?

    • Presque rien de ce qui rendait la culture Flash si amusante n’a survécu au passage vers HTML5
    • Flash Designer était vraiment excellent. L’un des reculs qu’a apportés le web, c’est la disparition partielle des outils RAD des années 1990 et 2000
    • Jeunes gens !
      Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
      Depuis je ne sais même plus combien d’années, chaque fois que j’entends le mot "flash", c’est toujours à ça que je pense
  • Date de connaissance : janvier 2025
    Dernière mise à jour : mai 2026
    J’ai un très mauvais pressentiment à propos de ce décalage

    • Au moins dans certains cas, on semble aller vers davantage de données synthétiques et de données rigoureusement sélectionnées pour l’entraînement. Les petits modèles, en particulier, n’ont pas la place de stocker le monde entier dans quelques dizaines ou centaines de Go de poids, donc on ne peut pas élargir leur connaissance à l’infini
      Donc, pour obtenir un raisonnement de meilleure qualité, il faut concentrer l’entraînement, avec des données très haut de gamme et très denses
      Si l’usage des outils est fort, le fait que le modèle s’appuie sur des données anciennes n’a peut-être pas tant d’importance, puisqu’il peut aller chercher des informations récentes. Mais actuellement, la plupart des modèles ne le font pas sans un petit guidage
      Si je comprends bien, toute la famille Qwen 3 part du même modèle de base et n’améliore différentes métriques que via fine-tuning / post-training. Toute la famille Gemini 3 pourrait être construite de la même manière, et ils sont peut-être en train d’entraîner en parallèle des modèles basés sur Gemini 4 avec des connaissances à jour
    • Il ne faut pas extraire les faits depuis les poids du modèle. Il faut les ancrer dans de vraies sources de données
    • Tu peux expliquer ce que ça veut dire ?
    • Je pensais que c’était un choix de Google
  • J’utilise le google ai pro plan et j’ai essayé 3.5 Flash dans Antigravity, et j’ai épuisé tout mon quota en deux prompts. Si ce n’est pas un bug, c’est vraiment inutilisable

    • Hier ou avant-hier, Google a réduit le quota AI Pro de 33x l’usage standard à 4x
      À en juger par l’ambiance sur le subreddit Gemini, la baisse a l’air bien plus sévère qu’avant. Je vais probablement annuler AI Pro moi aussi
      Cette mise à jour a aussi cassé l’app. Si on modifie un message, l’app plante à chaque fois. Et ça m’arrive alors même que je suis sur un Pixel
  • L’horloge 2000 tokens de Gemini 3.5 Flash n’est pas mal du tout. https://clocks.brianmoore.com/

  • Une hausse de prix par 3 pour des modèles quasiment équivalents. On nous avait pourtant dit que l’IA allait devenir moins chère et omniprésente

    • Peut-être qu’ils voulaient dire omniprésente comme le crack
    • Si on croit les benchmarks, on peut aussi voir ça comme les trois quarts du prix de 3.1 Pro
  • Les prix sont absurdes
    Gemini 3.5 Pro va probablement augmenter aussi. 12 x 5 = 60 ?
    On dirait que Google veut qu’on utilise des modèles chinois