6 points par princox 2026-03-20 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Cursor a dévoilé Composer 2, un modèle d’IA spécialisé pour le code offrant des performances de niveau frontier à bas prix.

Performances

Le modèle affiche une nette amélioration par rapport à la version précédente sur tous les principaux benchmarks.

Le modèle a été évalué à l’aide de trois tests.

CursorBench — le benchmark maison de Cursor pour des tâches de codage réelles. En passant de Composer 1 → 1.5 → 2, le score est monté de 38.0 → 44.2 → 61.3. Entre la version 1 et la 2, les performances ont progressé d’environ 61 %, avec en particulier un bond d’environ 17 points entre 1.5 et 2, soit la plus forte avancée de cette génération.

Terminal-Bench 2.0 — une évaluation d’agents en terminal gérée par le Laude Institute. Elle mesure la capacité à exécuter de vraies commandes dans un terminal pour accomplir une tâche. Le score passe de 40.0 → 47.9 → 61.7, montrant une progression presque identique à celle de CursorBench.

SWE-bench Multilingual — la version multilingue du célèbre benchmark de software engineering qui consiste à résoudre de vrais tickets GitHub par du code. Le score est passé de 56.9 → 65.9 → 73.7. Dès Composer 1, le score démarrait déjà au-dessus de 56, soit plus haut que sur les deux autres benchmarks, ce qui suggère que la capacité à écrire des patchs de code était relativement forte dès le départ.

Points clés

Sur les trois benchmarks, la progression entre 1.5 → 2 est nettement plus importante qu’entre 1 → 1.5, et c’est le cœur de cette annonce. C’est précisément sur cette phase que la combinaison de préentraînement continu + apprentissage par renforcement a porté ses fruits. Le score de 73.7 sur SWE-bench Multilingual place le modèle parmi les meilleurs modèles publics actuels.

Version standard : entrée $0.50 / sortie $2.50 (par million de tokens)
Version rapide (fast) : entrée $1.50 / sortie $7.50 (par million de tokens)

La version rapide devrait être proposée par défaut, avec comme atout un tarif inférieur à celui des modèles rapides de même catégorie. Pour les utilisateurs du forfait individuel, une dotation de base généreuse sera incluse dans un pool d’utilisation séparé.

Commentaire

Il est marquant de voir Cursor s’éloigner d’une simple couche utilisant des modèles externes comme Claude ou GPT pour s’orienter sérieusement vers l’entraînement direct de ses propres modèles. Le positionnement performance/prix est particulièrement agressif, ce qui peut se lire comme une stratégie de verticalisation jusqu’à la couche modèle sur le marché des agents de code. Pour ceux qui utilisaient jusqu’ici Claude Sonnet ou GPT-4o dans Cursor, Composer 2 mérite d’être essayé.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.