- Gemini 2.5 est le modèle d’IA fondé sur le raisonnement le plus intelligent conçu pour résoudre des problèmes complexes
- Sa première version, Gemini 2.5 Pro Experimental, a obtenu les meilleurs résultats sur divers benchmarks IA
- Il s’est notamment classé n°1 avec une large avance dans le classement LMArena
- Contrairement aux modèles précédents, il est conçu avec une architecture qui passe par son propre processus de réflexion avant de répondre, ce qui améliore la précision et les performances
Que signifie la capacité de « réflexion » en IA ?
- Elle va au-delà de la simple classification ou prédiction et inclut des capacités cognitives de haut niveau comme l’analyse d’informations, le raisonnement logique, la compréhension du contexte et la prise de décision
- Pour cela, DeepMind a étudié les capacités de raisonnement de l’IA à l’aide de techniques comme l’apprentissage par renforcement et les prompts Chain-of-Thought
- Le modèle montre des performances encore supérieures à celles de Gemini 2.0 Flash Thinking
Orientation à venir
- Avec Gemini 2.5, Google combine des modèles de base améliorés et des techniques de post-traitement pour atteindre un nouveau niveau de performance
- Cette capacité de réflexion sera à terme intégrée par défaut à tous les modèles Gemini afin de permettre la résolution de problèmes plus complexes et la prise en charge d’agents plus avancés
Présentation de Gemini 2.5 Pro
- Gemini 2.5 Pro Experimental affiche d’excellentes performances sur les tâches les plus complexes parmi tous les modèles développés à ce jour
- Il s’est classé n°1 avec une large avance sur LMArena, qui évalue les modèles selon les préférences humaines
- Il obtient également d’excellents résultats sur des benchmarks de code, mathématiques et sciences
- Il est actuellement disponible dans Google AI Studio et dans l’application Gemini, et sera bientôt proposé dans Vertex AI
- Une tarification sera introduite ultérieurement afin de proposer un service extensible avec des limites d’appels plus élevées
Performances de raisonnement améliorées
- Il enregistre des résultats de tout premier plan sur les benchmarks de problèmes logiques complexes
- Il maintient d’excellentes performances sans recourir à des méthodes de test supplémentaires et coûteuses (par ex. vote majoritaire)
- Il affiche des performances de pointe sur des épreuves de mathématiques et de sciences comme GPQA et AIME 2025
- Sur le test de raisonnement très difficile Humanity’s Last Exam, conçu par des centaines d’experts, il a atteint 18,8 % sans outil, soit le meilleur score du secteur
Capacités avancées en code
- Les performances en code progressent fortement par rapport à Gemini 2.0
- Il excelle dans la création de web apps, la génération de code de type agentique et la transformation et correction de code
- Il atteint 63,8 % sur l’évaluation SWE-Bench Verified avec un agent personnalisé
- Il existe même un exemple de génération d’un jeu vidéo exécutable à partir d’un simple prompt d’une ligne
Les points forts des modèles Gemini conservés
- Gemini 2.5 conserve les points forts des précédents modèles Gemini, à savoir le traitement multimodal et la longue fenêtre de contexte
- Prise en charge d’une fenêtre de contexte de 1 million de tokens (bientôt étendue à 2 millions)
- Il peut traiter de manière unifiée diverses sources d’information, dont le texte, l’audio, les images, la vidéo et des dépôts de code complets
- Les développeurs et entreprises peuvent l’expérimenter et le tester via Google AI Studio, Gemini Advanced et Vertex AI
3 commentaires
Il surpasse Claude et GPT-4.5, mais il n’arrive pas à battre Grok 3 quand on essaie ce dernier plusieurs fois.
Grok 3 est impressionnant.
Avec l’arrivée de Gemini 2.5 Pro dans Google AI Studio, toutes les anciennes versions de Gemini 2.0 Pro ont disparu... Je l’utilisais plutôt bien gratuitement, donc c’est un peu dommage. Gemini 2.5 Pro semble aussi avoir des restrictions assez importantes, avec une limite de 2 requêtes par minute et seulement 50 appels par jour.
Avis sur Hacker News
L’un des plus gros problèmes lorsqu’on utilise un LLM pour écrire de longs textes comme des romans est que, si on lui fournit des détails, le modèle a tendance à réagir de manière excessivement nerveuse
J’utilise depuis longtemps des puzzles mathématiques pour benchmarker différents modèles
Il a été très performant pour la transcription audio et pour tracer des boîtes englobantes autour d’êtres vivants dans des photos complexes
Il a atteint les meilleurs résultats sur les benchmarks d’une manière sans précédent
Gemini 2.5 Pro a atteint l’état de l’art avec un score de 73 % sur le classement aider polyglot
Ces annonces commencent à ressembler à un template
Gemini 2.5 combine un modèle de base fortement amélioré et un post-traitement optimisé pour atteindre un nouveau niveau de performance
J’ai utilisé un cas de test où l’on fournit à un LLM l’intégralité d’une codebase Dart ainsi qu’une description du bug pour identifier l’origine d’un problème dans une bibliothèque Dart
Si vous comptez utiliser Gemini, il y a quelques précautions à prendre
Le modèle 2.0 n’est pas si ancien, donc je me demande pourquoi il y a un +0.5 dans le nom