9 points par GN⁺ 2025-03-26 | 3 commentaires | Partager sur WhatsApp
  • Gemini 2.5 est le modèle d’IA fondé sur le raisonnement le plus intelligent conçu pour résoudre des problèmes complexes
  • Sa première version, Gemini 2.5 Pro Experimental, a obtenu les meilleurs résultats sur divers benchmarks IA
  • Il s’est notamment classé n°1 avec une large avance dans le classement LMArena
  • Contrairement aux modèles précédents, il est conçu avec une architecture qui passe par son propre processus de réflexion avant de répondre, ce qui améliore la précision et les performances

Que signifie la capacité de « réflexion » en IA ?

  • Elle va au-delà de la simple classification ou prédiction et inclut des capacités cognitives de haut niveau comme l’analyse d’informations, le raisonnement logique, la compréhension du contexte et la prise de décision
  • Pour cela, DeepMind a étudié les capacités de raisonnement de l’IA à l’aide de techniques comme l’apprentissage par renforcement et les prompts Chain-of-Thought
  • Le modèle montre des performances encore supérieures à celles de Gemini 2.0 Flash Thinking

Orientation à venir

  • Avec Gemini 2.5, Google combine des modèles de base améliorés et des techniques de post-traitement pour atteindre un nouveau niveau de performance
  • Cette capacité de réflexion sera à terme intégrée par défaut à tous les modèles Gemini afin de permettre la résolution de problèmes plus complexes et la prise en charge d’agents plus avancés

Présentation de Gemini 2.5 Pro

  • Gemini 2.5 Pro Experimental affiche d’excellentes performances sur les tâches les plus complexes parmi tous les modèles développés à ce jour
  • Il s’est classé n°1 avec une large avance sur LMArena, qui évalue les modèles selon les préférences humaines
  • Il obtient également d’excellents résultats sur des benchmarks de code, mathématiques et sciences
  • Il est actuellement disponible dans Google AI Studio et dans l’application Gemini, et sera bientôt proposé dans Vertex AI
  • Une tarification sera introduite ultérieurement afin de proposer un service extensible avec des limites d’appels plus élevées

Performances de raisonnement améliorées

  • Il enregistre des résultats de tout premier plan sur les benchmarks de problèmes logiques complexes
  • Il maintient d’excellentes performances sans recourir à des méthodes de test supplémentaires et coûteuses (par ex. vote majoritaire)
  • Il affiche des performances de pointe sur des épreuves de mathématiques et de sciences comme GPQA et AIME 2025
  • Sur le test de raisonnement très difficile Humanity’s Last Exam, conçu par des centaines d’experts, il a atteint 18,8 % sans outil, soit le meilleur score du secteur

Capacités avancées en code

  • Les performances en code progressent fortement par rapport à Gemini 2.0
  • Il excelle dans la création de web apps, la génération de code de type agentique et la transformation et correction de code
  • Il atteint 63,8 % sur l’évaluation SWE-Bench Verified avec un agent personnalisé
  • Il existe même un exemple de génération d’un jeu vidéo exécutable à partir d’un simple prompt d’une ligne

Les points forts des modèles Gemini conservés

  • Gemini 2.5 conserve les points forts des précédents modèles Gemini, à savoir le traitement multimodal et la longue fenêtre de contexte
  • Prise en charge d’une fenêtre de contexte de 1 million de tokens (bientôt étendue à 2 millions)
  • Il peut traiter de manière unifiée diverses sources d’information, dont le texte, l’audio, les images, la vidéo et des dépôts de code complets
  • Les développeurs et entreprises peuvent l’expérimenter et le tester via Google AI Studio, Gemini Advanced et Vertex AI

3 commentaires

 
wowfoot 2025-03-26

Il surpasse Claude et GPT-4.5, mais il n’arrive pas à battre Grok 3 quand on essaie ce dernier plusieurs fois.
Grok 3 est impressionnant.

 
zxshinxz 2025-03-26

Avec l’arrivée de Gemini 2.5 Pro dans Google AI Studio, toutes les anciennes versions de Gemini 2.0 Pro ont disparu... Je l’utilisais plutôt bien gratuitement, donc c’est un peu dommage. Gemini 2.5 Pro semble aussi avoir des restrictions assez importantes, avec une limite de 2 requêtes par minute et seulement 50 appels par jour.

 
GN⁺ 2025-03-26
Avis sur Hacker News
  • L’un des plus gros problèmes lorsqu’on utilise un LLM pour écrire de longs textes comme des romans est que, si on lui fournit des détails, le modèle a tendance à réagir de manière excessivement nerveuse

    • Par exemple, si on fournit le profil de l’intérêt amoureux dans une fantasy épique, le protagoniste finit presque toujours par le rencontrer en moins de trois pages
    • C’est un développement illogique, et les tentatives pour le modifier ne donnent aucun résultat
    • Le modèle actuel montre encore une progression normale après avoir généré 19 pages, tout en intégrant beaucoup de détails
    • C’est très impressionnant
  • J’utilise depuis longtemps des puzzles mathématiques pour benchmarker différents modèles

    • Ce puzzle a demandé environ trois jours à être résolu par ordinateur, et un diplômé en mathématiques l’a résolu à la main en une journée
    • Gemini 2.5 est le premier modèle à résoudre ce puzzle, ce qui signifie que les LLM surpassent désormais plus de 95 % de la population en raisonnement mathématique
    • Le puzzle met en scène trois personnes debout en cercle, avec un entier positif au-dessus de chaque tête, et la somme de deux nombres est égale au troisième
    • La première personne dit qu’elle ne connaît pas son nombre, la deuxième non plus, puis la troisième non plus
    • Quand on repose la question à la première personne, elle répond 65
    • La question est de savoir quel est le produit des trois nombres
  • Il a été très performant pour la transcription audio et pour tracer des boîtes englobantes autour d’êtres vivants dans des photos complexes

    • Il a même dessiné un pélican à vélo
    • Des notes associées sont disponibles via le lien
  • Il a atteint les meilleurs résultats sur les benchmarks d’une manière sans précédent

    • Les résultats sont de grande qualité et très clairs, mais le modèle est un peu lent
    • Google signe à nouveau une grosse performance
  • Gemini 2.5 Pro a atteint l’état de l’art avec un score de 73 % sur le classement aider polyglot

    • Cela représente un grand bond en avant par rapport aux précédents modèles Gemini
    • C’est le premier modèle Gemini à utiliser efficacement un format d’édition efficace de type diff-like
  • Ces annonces commencent à ressembler à un template

    • modèle de pointe
    • comparaison sur benchmarks avec X, Y, Z
    • raisonnement « meilleur »
    • C’est peut-être un excellent modèle, mais ce texte répétitif enlève de l’intérêt
  • Gemini 2.5 combine un modèle de base fortement amélioré et un post-traitement optimisé pour atteindre un nouveau niveau de performance

    • À l’avenir, ces capacités de réflexion seront intégrées directement dans tous les modèles afin de traiter des problèmes plus complexes et de prendre en charge des agents plus capables et conscients du contexte
    • Il est connecté à Internet et fonctionne comme un modèle de raisonnement quand nécessaire
    • J’espère que le mode canvas récemment lancé pourra être pris en charge par ce modèle
  • J’ai utilisé un cas de test où l’on fournit à un LLM l’intégralité d’une codebase Dart ainsi qu’une description du bug pour identifier l’origine d’un problème dans une bibliothèque Dart

    • Cela représentait environ 360 000 tokens
    • J’avais essayé avec les principaux modèles il y a un mois, mais seul ce modèle a identifié le correctif approprié
  • Si vous comptez utiliser Gemini, il y a quelques précautions à prendre

    • N’y saisissez pas d’informations confidentielles ni de données que des relecteurs pourraient voir ou que Google pourrait utiliser
    • Des relecteurs humains lisent, annotent et traitent les conversations afin d’améliorer la qualité de Google AI et les produits
    • Dans ce processus, les conversations sont dissociées du compte Google pour protéger la vie privée
  • Le modèle 2.0 n’est pas si ancien, donc je me demande pourquoi il y a un +0.5 dans le nom

    • Je me demande si c’est du marketing, si cela indique une nouvelle architecture de modèle, plus de données d’entraînement basées sur 2.0, ou une nouvelle infrastructure de service
    • Quand cette nomenclature *.5 est apparue, je l’ai trouvée assez ridicule
    • Quand OpenAI a lancé 3.5, l’entreprise disait déjà préparer 4 tout en ajustant 3 pour mieux convenir à ChatGPT
    • Je pense que le pire exemple de cette nomenclature est Anthropic, qui a nommé ses modèles Sonnet 3, 3.5, 3.5 (new) et 3.7
    • Je préfère le semver, les dates ("Gemini Pro 2025") ou des combinaisons de lettres et de chiffres porteuses de sens (par ex. 4o - "Omni")