- Gemini 2.5 Pro, lancé par Google, a été moins remarqué en raison de la sortie très médiatisée des capacités spectaculaires de génération d’images de GPT-4o, mais il s’agit en réalité d’une avancée importante
- Ses performances en génération de code sont excellentes, et sa fenêtre de contexte pouvant aller jusqu’à 1 million de tokens lui permet de traiter une base de code complète
- Les retours des utilisateurs sont également très positifs, et le modèle obtient d’excellents résultats dans des tests de programmation réels
- En revanche, sur les problèmes de raisonnement complexes, il reste en dessous de Grok 3 et de Claude 3.7 Sonnet
Principales améliorations
- Gemini 2.5 Pro améliore ses performances à partir de l’architecture de Gemini 2.0 Flash grâce à une optimisation post-entraînement et à une extension des paramètres
- La prise en charge d’un contexte maximal de 1,000,000 permet d’obtenir d’excellents résultats même en fournissant l’intégralité d’une base de code en entrée
- La compréhension multilingue a été renforcée, avec un record battu en traitement de l’espagnol dans le classement LMSYS
Performances aux benchmarks
- Excellents résultats sur les principaux benchmarks comme LMSYS, Livebench, GPQA, AIME et SWEbench verified
- Sur ARC-AGI, il est proche de Deepseek r1 mais en dessous de Claude 3.7
- Première place sur le benchmark WeirdML, avec une excellente capacité à écrire du code PyTorch fonctionnel pour des problèmes de ML atypiques
- Également en tête du benchmark Aider Polyglot
Cas d’usage réels
- Excellents résultats sur divers exemples comme le problème Wordle, la génération de shaders, un simulateur de vol, un Rubik’s Cube, un jeu de zombies ou encore des jeux d’arcade
- Il se distingue particulièrement dans les tâches de génération de jeux, avec une exécution soignée et de haut niveau
Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - comparaison des capacités de programmation
1. Rebond d’une balle dans un cube 3D (Three.js)
- Gemini 2.5 : meilleur résultat, avec des mouvements fluides et réalistes
- Grok 3 : correct au départ, mais la balle finit par se coller et le système ne fonctionne plus correctement
- Claude 3.7 : excellente configuration, mais la balle s’arrête et l’interaction reste limitée
2. Jeu de style Minecraft (Pygame)
- Gemini 2.5 : gameplay fluide et soigné, toutes les exigences sont remplies
- Claude 3.7 : résultat avancé avec effets visuels et éléments d’interface
- Grok 3 : fonctionnement de base assuré, mais mouvements et placement moins fluides
3. Web app Task Tracker
- Gemini 2.5 : interface très aboutie et navigation naturelle
- Claude 3.7 : propre et visuellement attrayant
- Grok 3 : répond aux exigences, mais avec un niveau de finition inférieur aux autres modèles
Capacité de raisonnement complexe
1. Test de biais cognitifs (le problème du médecin et de son fils)
- Claude 3.7 et Grok 3 résolvent tous deux correctement le problème
- Gemini 2.5 montre une légère confusion
2. Trouver le coup optimal au morpion
- Les trois modèles trouvent la bonne réponse, mais Grok 3 fournit l’analyse la plus claire
- Cependant, aucun modèle n’a identifié tous les points de réponse corrects (3 et 5)
3. Problème complexe de liens de parenté
- Claude 3.7 trouve exactement la bonne réponse, soit 12 personnes
- Gemini 2.5 et Grok 3 répondent à tort 15 personnes, même si leur logique reste compréhensible
Capacités en mathématiques
1. Trouver le PGCD d’une suite infinie
- Gemini 2.5 est le seul à trouver la bonne réponse
- Grok 3 se trompe
2. Évaluation d’une expression basée sur le nombre de voyelles
- Claude 3.7 est le seul à parvenir à la bonne réponse
- Grok 3 ne comprend pas le contexte
- Gemini 2.5 reste incertain
Résumé des capacités en mathématiques
- Pour les problèmes de mathématiques pures, Gemini 2.5 Pro est solide
- Sur les problèmes de mathématiques mêlant raisonnement, Claude 3.7 Sonnet est plus équilibré
- Grok 3 affiche les performances les plus faibles en mathématiques
Conclusion
- Le Gemini 2.5 Pro de Google est un excellent modèle spécialisé dans l’écriture de code, avec des performances remarquables aussi dans des cas d’usage réels
- Il est légèrement en retrait par rapport aux modèles concurrents sur les problèmes complexes de raisonnement et de réflexion
- Il est solide en mathématiques, mais ses performances baissent lorsqu’un raisonnement logique est nécessaire
- Il dispose de gros atouts en traitement multilingue et en gestion de très grands volumes d’entrée
- Performances en programmation : excellentes
- Capacité de raisonnement : inférieure à Claude 3.7 et Grok 3
- Capacités en mathématiques : excellentes en calcul pur
Aucun commentaire pour le moment.