Comparaison des capacités de codage de Gemini 2.5 Pro et Claude 3.7 Sonnet

(composio.dev)

9 points par GN⁺ 2025-04-01 | 1 commentaires | Partager sur WhatsApp

Gemini 2.5 Pro est meilleur pour écrire du code
Claude 3.7 Sonnet est lui aussi excellent, mais pour l’instant il est plus avantageux d’utiliser Gemini 2.5 Pro
Sa fenêtre de contexte d’un million de tokens et sa disponibilité gratuite constituent de grands atouts
Par le passé, Claude 3.7 Sonnet servait toujours de référence de comparaison, mais ce n’est plus le cas

Brève présentation de Gemini 2.5 Pro

Modèle expérimental de raisonnement lancé par Google le 26 mars 2025
A suscité un énorme écho sur Twitter(X), YouTube et ailleurs dès sa sortie
1er sur LMArena, avec d’excellentes performances en génération de code, mathématiques, sciences et compréhension d’images
Propose une fenêtre de contexte d’un million de tokens, avec deux millions de tokens déjà annoncés pour la suite
Sur le benchmark SWE Bench, atteint une précision de 63,8 %, supérieure aux 62,3 % de Claude 3.7 Sonnet
A démontré ses performances avec divers exemples, dont la démo du jeu du dinosaure fournie par Google
Est globalement considéré comme un modèle polyvalent adapté non seulement au codage, mais à l’ensemble des tâches intellectuelles

Comparaison des tests de codage

1. Créer un simulateur de vol

Gemini 2.5 Pro
- Génère un simulateur parfaitement fonctionnel
- Remplit toutes les exigences, y compris le pilotage de l’avion et la génération d’une ville dans un style Minecraft
- Niveau de finition : 10/10
Claude 3.7 Sonnet
- Problèmes : l’avion vole de côté et sort de la ville
- Niveau de complétude fonctionnelle plus faible
Résumé : victoire totale de Gemini 2.5 Pro

2. Visualisation et résolution d’un Rubik’s Cube

Gemini 2.5 Pro
- Implémente correctement la visualisation et la résolution en une seule tentative
- Utilise Three.js et réalise parfaitement les couleurs du cube, le mélange aléatoire, l’animation, etc.
Claude 3.7 Sonnet
- Échec de l’affichage des couleurs et de la résolution
- Limites similaires à celles des autres LLM
Résumé : Gemini 2.5 Pro domine largement aussi sur ce point

3. Visualisation d’une balle rebondissant dans un tesseract à 4 dimensions

Gemini 2.5 Pro
- Répond à toutes les exigences, y compris les collisions physiques et la mise en évidence des faces
- Très bonne qualité de code et excellent fonctionnement
Claude 3.7 Sonnet
- Fonctionne, mais ajoute des couleurs inutiles
- Remplit malgré tout les fonctions demandées
Résumé : les deux modèles satisfont aux exigences, Claude réussit enfin lui aussi

4. Problème LeetCode : trouver la somme maximale en plaçant 3 tours

Gemini 2.5 Pro
- Produit un code complexe mais correct
- Prend aussi correctement en compte la complexité temporelle
Claude 3.7 Sonnet
- Écrit un code concis mais provoque un dépassement de temps (TLE)
- Facile à comprendre, mais insuffisant en matière de performances
Résumé : Gemini 2.5 Pro est en tête à la fois en performances et en précision

Conclusion

Gemini 2.5 Pro dispose d’un avantage net
- Il devance Claude 3.7 Sonnet sur la fenêtre de contexte, la précision et les performances multitâches
Claude reste un excellent modèle, mais à l’heure actuelle il est plus efficace d’utiliser Gemini 2.5 Pro
Si la fenêtre passe à deux millions de tokens à l’avenir, ses performances progresseront encore
Avec le récent modèle léger Gemma 3 27B de Google, il forme une gamme IA particulièrement solide

1 commentaires

GN⁺ 2025-04-01

Avis Hacker News

J’aimerais organiser un concours avec récompense en espèces sur un vrai problème de programmation. Il faudrait définir les règles. Je doute qu’un LLM puisse résoudre ce problème
- Il s’agit de créer une version GTK 4 de Solvespace
- Il existe un unique fichier C++ pour chaque plateforme
- L’objectif est de réécrire le fichier GTK3 en GTK4
- Si vous voulez prouver les performances de l’IA, je recommande de documenter toute la session et d’en faire une vidéo YouTube
- Le test final est de savoir si la PR sera acceptée
Gemini est le seul modèle qui indique à quel moment la conversation doit être interrompue
- ChatGPT a tendance à oublier la conversation lorsque le contexte est saturé
- Gemini manque d’outils, mais donne malgré tout l’impression d’être un meilleur modèle par défaut
J’ai utilisé Gemini 2.5 Pro et je le trouve plutôt bon
- Claude 3.5 semble meilleur pour suivre les consignes
- Je suis déçu par les outils Cursor et Claude CLI
- J’aime la façon dont Gemini affiche la fenêtre de contexte
- Je pense que le marché ne peut pas supporter les valorisations des grandes entreprises d’IA
- Il arrive que des modèles gratuits soient meilleurs
Dans la compétition entre modèles d’IA, le perdant semble être Microsoft
- Quand ChatGPT était le seul choix, Microsoft était considéré comme le leader
- Copilot est un échec, et Bing n’a pas su tirer parti de l’IA
- Il est mentionné que Sundar Pichai de Google veut se comparer aux modèles de Microsoft
Gemini 2.5 Pro a obtenu un score élevé dans le classement de codage polyglotte d’aider
- Il est principalement utilisé pour le travail sur la dernière version d’aider
- Actuellement, le plus gros problème de Gemini est une limitation de débit stricte
Dans l’exemple du Rubik’s Cube, Gemini 2.5 utilise une séquence de mélange mémorisée
- Il résout le cube en inversant la séquence de mélange
Quand j’utilisais Visual Basic dans les années 90, créer un nouveau projet à partir d’un modèle était intéressant
- Le codage avec l’IA y ressemble, mais en plus exagéré
- Il est fait mention du fait que Claude était dérouté parce que l’avion était sur le côté
Gemini 2.5 n’est pas très bon sur du code Cython complexe
- Claude et o3 suivent bien les consignes
- Gemini essaie d’apporter des modifications sans rapport
Une question est posée sur la nécessité d’un débat impartial
- Le lien de l’OP ressemble à une publicité biaisée pour Composio
- Il y a une description exagérée de Gemini 2.5 Pro
Toutes les tâches de test sont des projets greenfield
- Pour utiliser un LLM, il faut apporter des changements ou des corrections à un projet existant
- Je pense que ces tests n’ont aucun sens pour mesurer l’utilité d’un modèle

Comparaison des capacités de codage de Gemini 2.5 Pro et Claude 3.7 Sonnet

Brève présentation de Gemini 2.5 Pro

Comparaison des tests de codage

1. Créer un simulateur de vol

2. Visualisation et résolution d’un Rubik’s Cube

3. Visualisation d’une balle rebondissant dans un tesseract à 4 dimensions

4. Problème LeetCode : trouver la somme maximale en plaçant 3 tours

Conclusion

À lire aussi

1 commentaires

Avis Hacker News