9 points par GN⁺ 2025-04-01 | 1 commentaires | Partager sur WhatsApp
  • Gemini 2.5 Pro est meilleur pour écrire du code
  • Claude 3.7 Sonnet est lui aussi excellent, mais pour l’instant il est plus avantageux d’utiliser Gemini 2.5 Pro
  • Sa fenêtre de contexte d’un million de tokens et sa disponibilité gratuite constituent de grands atouts
  • Par le passé, Claude 3.7 Sonnet servait toujours de référence de comparaison, mais ce n’est plus le cas

Brève présentation de Gemini 2.5 Pro

  • Modèle expérimental de raisonnement lancé par Google le 26 mars 2025
  • A suscité un énorme écho sur Twitter(X), YouTube et ailleurs dès sa sortie
  • 1er sur LMArena, avec d’excellentes performances en génération de code, mathématiques, sciences et compréhension d’images
  • Propose une fenêtre de contexte d’un million de tokens, avec deux millions de tokens déjà annoncés pour la suite
  • Sur le benchmark SWE Bench, atteint une précision de 63,8 %, supérieure aux 62,3 % de Claude 3.7 Sonnet
  • A démontré ses performances avec divers exemples, dont la démo du jeu du dinosaure fournie par Google
  • Est globalement considéré comme un modèle polyvalent adapté non seulement au codage, mais à l’ensemble des tâches intellectuelles

Comparaison des tests de codage

1. Créer un simulateur de vol

  • Gemini 2.5 Pro
    • Génère un simulateur parfaitement fonctionnel
    • Remplit toutes les exigences, y compris le pilotage de l’avion et la génération d’une ville dans un style Minecraft
    • Niveau de finition : 10/10
  • Claude 3.7 Sonnet
    • Problèmes : l’avion vole de côté et sort de la ville
    • Niveau de complétude fonctionnelle plus faible
  • Résumé : victoire totale de Gemini 2.5 Pro

2. Visualisation et résolution d’un Rubik’s Cube

  • Gemini 2.5 Pro
    • Implémente correctement la visualisation et la résolution en une seule tentative
    • Utilise Three.js et réalise parfaitement les couleurs du cube, le mélange aléatoire, l’animation, etc.
  • Claude 3.7 Sonnet
    • Échec de l’affichage des couleurs et de la résolution
    • Limites similaires à celles des autres LLM
  • Résumé : Gemini 2.5 Pro domine largement aussi sur ce point

3. Visualisation d’une balle rebondissant dans un tesseract à 4 dimensions

  • Gemini 2.5 Pro
    • Répond à toutes les exigences, y compris les collisions physiques et la mise en évidence des faces
    • Très bonne qualité de code et excellent fonctionnement
  • Claude 3.7 Sonnet
    • Fonctionne, mais ajoute des couleurs inutiles
    • Remplit malgré tout les fonctions demandées
  • Résumé : les deux modèles satisfont aux exigences, Claude réussit enfin lui aussi

4. Problème LeetCode : trouver la somme maximale en plaçant 3 tours

  • Gemini 2.5 Pro
    • Produit un code complexe mais correct
    • Prend aussi correctement en compte la complexité temporelle
  • Claude 3.7 Sonnet
    • Écrit un code concis mais provoque un dépassement de temps (TLE)
    • Facile à comprendre, mais insuffisant en matière de performances
  • Résumé : Gemini 2.5 Pro est en tête à la fois en performances et en précision

Conclusion

  • Gemini 2.5 Pro dispose d’un avantage net
    • Il devance Claude 3.7 Sonnet sur la fenêtre de contexte, la précision et les performances multitâches
  • Claude reste un excellent modèle, mais à l’heure actuelle il est plus efficace d’utiliser Gemini 2.5 Pro
  • Si la fenêtre passe à deux millions de tokens à l’avenir, ses performances progresseront encore
  • Avec le récent modèle léger Gemma 3 27B de Google, il forme une gamme IA particulièrement solide

1 commentaires

 
GN⁺ 2025-04-01
Avis Hacker News
  • J’aimerais organiser un concours avec récompense en espèces sur un vrai problème de programmation. Il faudrait définir les règles. Je doute qu’un LLM puisse résoudre ce problème

    • Il s’agit de créer une version GTK 4 de Solvespace
    • Il existe un unique fichier C++ pour chaque plateforme
    • L’objectif est de réécrire le fichier GTK3 en GTK4
    • Si vous voulez prouver les performances de l’IA, je recommande de documenter toute la session et d’en faire une vidéo YouTube
    • Le test final est de savoir si la PR sera acceptée
  • Gemini est le seul modèle qui indique à quel moment la conversation doit être interrompue

    • ChatGPT a tendance à oublier la conversation lorsque le contexte est saturé
    • Gemini manque d’outils, mais donne malgré tout l’impression d’être un meilleur modèle par défaut
  • J’ai utilisé Gemini 2.5 Pro et je le trouve plutôt bon

    • Claude 3.5 semble meilleur pour suivre les consignes
    • Je suis déçu par les outils Cursor et Claude CLI
    • J’aime la façon dont Gemini affiche la fenêtre de contexte
    • Je pense que le marché ne peut pas supporter les valorisations des grandes entreprises d’IA
    • Il arrive que des modèles gratuits soient meilleurs
  • Dans la compétition entre modèles d’IA, le perdant semble être Microsoft

    • Quand ChatGPT était le seul choix, Microsoft était considéré comme le leader
    • Copilot est un échec, et Bing n’a pas su tirer parti de l’IA
    • Il est mentionné que Sundar Pichai de Google veut se comparer aux modèles de Microsoft
  • Gemini 2.5 Pro a obtenu un score élevé dans le classement de codage polyglotte d’aider

    • Il est principalement utilisé pour le travail sur la dernière version d’aider
    • Actuellement, le plus gros problème de Gemini est une limitation de débit stricte
  • Dans l’exemple du Rubik’s Cube, Gemini 2.5 utilise une séquence de mélange mémorisée

    • Il résout le cube en inversant la séquence de mélange
  • Quand j’utilisais Visual Basic dans les années 90, créer un nouveau projet à partir d’un modèle était intéressant

    • Le codage avec l’IA y ressemble, mais en plus exagéré
    • Il est fait mention du fait que Claude était dérouté parce que l’avion était sur le côté
  • Gemini 2.5 n’est pas très bon sur du code Cython complexe

    • Claude et o3 suivent bien les consignes
    • Gemini essaie d’apporter des modifications sans rapport
  • Une question est posée sur la nécessité d’un débat impartial

    • Le lien de l’OP ressemble à une publicité biaisée pour Composio
    • Il y a une description exagérée de Gemini 2.5 Pro
  • Toutes les tâches de test sont des projets greenfield

    • Pour utiliser un LLM, il faut apporter des changements ou des corrections à un projet existant
    • Je pense que ces tests n’ont aucun sens pour mesurer l’utilité d’un modèle