- Gemini 2.5 Pro est meilleur pour écrire du code
- Claude 3.7 Sonnet est lui aussi excellent, mais pour l’instant il est plus avantageux d’utiliser Gemini 2.5 Pro
- Sa fenêtre de contexte d’un million de tokens et sa disponibilité gratuite constituent de grands atouts
- Par le passé, Claude 3.7 Sonnet servait toujours de référence de comparaison, mais ce n’est plus le cas
Brève présentation de Gemini 2.5 Pro
- Modèle expérimental de raisonnement lancé par Google le 26 mars 2025
- A suscité un énorme écho sur Twitter(X), YouTube et ailleurs dès sa sortie
- 1er sur LMArena, avec d’excellentes performances en génération de code, mathématiques, sciences et compréhension d’images
- Propose une fenêtre de contexte d’un million de tokens, avec deux millions de tokens déjà annoncés pour la suite
- Sur le benchmark SWE Bench, atteint une précision de 63,8 %, supérieure aux 62,3 % de Claude 3.7 Sonnet
- A démontré ses performances avec divers exemples, dont la démo du jeu du dinosaure fournie par Google
- Est globalement considéré comme un modèle polyvalent adapté non seulement au codage, mais à l’ensemble des tâches intellectuelles
Comparaison des tests de codage
1. Créer un simulateur de vol
- Gemini 2.5 Pro
- Génère un simulateur parfaitement fonctionnel
- Remplit toutes les exigences, y compris le pilotage de l’avion et la génération d’une ville dans un style Minecraft
- Niveau de finition : 10/10
- Claude 3.7 Sonnet
- Problèmes : l’avion vole de côté et sort de la ville
- Niveau de complétude fonctionnelle plus faible
- Résumé : victoire totale de Gemini 2.5 Pro
2. Visualisation et résolution d’un Rubik’s Cube
- Gemini 2.5 Pro
- Implémente correctement la visualisation et la résolution en une seule tentative
- Utilise Three.js et réalise parfaitement les couleurs du cube, le mélange aléatoire, l’animation, etc.
- Claude 3.7 Sonnet
- Échec de l’affichage des couleurs et de la résolution
- Limites similaires à celles des autres LLM
- Résumé : Gemini 2.5 Pro domine largement aussi sur ce point
3. Visualisation d’une balle rebondissant dans un tesseract à 4 dimensions
- Gemini 2.5 Pro
- Répond à toutes les exigences, y compris les collisions physiques et la mise en évidence des faces
- Très bonne qualité de code et excellent fonctionnement
- Claude 3.7 Sonnet
- Fonctionne, mais ajoute des couleurs inutiles
- Remplit malgré tout les fonctions demandées
- Résumé : les deux modèles satisfont aux exigences, Claude réussit enfin lui aussi
4. Problème LeetCode : trouver la somme maximale en plaçant 3 tours
- Gemini 2.5 Pro
- Produit un code complexe mais correct
- Prend aussi correctement en compte la complexité temporelle
- Claude 3.7 Sonnet
- Écrit un code concis mais provoque un dépassement de temps (TLE)
- Facile à comprendre, mais insuffisant en matière de performances
- Résumé : Gemini 2.5 Pro est en tête à la fois en performances et en précision
Conclusion
- Gemini 2.5 Pro dispose d’un avantage net
- Il devance Claude 3.7 Sonnet sur la fenêtre de contexte, la précision et les performances multitâches
- Claude reste un excellent modèle, mais à l’heure actuelle il est plus efficace d’utiliser Gemini 2.5 Pro
- Si la fenêtre passe à deux millions de tokens à l’avenir, ses performances progresseront encore
- Avec le récent modèle léger Gemma 3 27B de Google, il forme une gamme IA particulièrement solide
1 commentaires
Avis Hacker News
J’aimerais organiser un concours avec récompense en espèces sur un vrai problème de programmation. Il faudrait définir les règles. Je doute qu’un LLM puisse résoudre ce problème
Gemini est le seul modèle qui indique à quel moment la conversation doit être interrompue
J’ai utilisé Gemini 2.5 Pro et je le trouve plutôt bon
Dans la compétition entre modèles d’IA, le perdant semble être Microsoft
Gemini 2.5 Pro a obtenu un score élevé dans le classement de codage polyglotte d’aider
Dans l’exemple du Rubik’s Cube, Gemini 2.5 utilise une séquence de mélange mémorisée
Quand j’utilisais Visual Basic dans les années 90, créer un nouveau projet à partir d’un modèle était intéressant
Gemini 2.5 n’est pas très bon sur du code Cython complexe
Une question est posée sur la nécessité d’un débat impartial
Toutes les tâches de test sont des projets greenfield