3 points par princox 3 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Le CEO de Cursor, Michael Truell, a annoncé sur X que « Composer 2.5 est devenu le modèle le plus sélectionné dans Cursor. Nous offrons 10 fois plus d’utilisation à tous les utilisateurs pendant une journée »
  • Un signal d’adoption en forte hausse juste après le lancement, avec une dynamique où le modèle maison est désormais choisi par défaut face aux modèles d’Anthropic/OpenAI

Résumé des points clés de Composer 2.5
• Le modèle de code agentique maison de 3e génération de Cursor, officiellement lancé le 18 mai 
• Basé, comme Composer 2, sur Kimi K2.5 open source de Moonshot AI, ce qui est cette fois explicitement indiqué dès le premier paragraphe de l’annonce (une mesure visiblement prise après les critiques de mars sur l’absence de clarté autour de la base Kimi) 
• 85 % du compute total a été consacré au pipeline maison de reinforcement learning de Cursor et au post-training, avec 25 fois plus de synthetic coding tasks que pour Composer 2 
• Introduction d’un « targeted RL basé sur le feedback textuel » pour améliorer la fiabilité sur les tâches long-horizon — au lieu d’attribuer une récompense unique à la fin d’un long rollout, le système injecte directement des indices au point précis où un mauvais tool call se produit, afin d’affiner le credit assignment 
Benchmarks (Composer 2.5 vs Opus 4.7 vs GPT-5.5 vs Composer 2)
• Terminal-Bench 2.0: 69.3% vs 69.4% vs 82.7% vs 61.7%  — pratiquement à égalité avec Opus 4.7, mais environ 13 points derrière GPT-5.5
• SWE-Bench Multilingual: 79.8% vs 80.5% vs 77.8% vs 73.7%  — à 0,7 point d’Opus 4.7, devant GPT-5.5
• CursorBench v3.1 (default setting): Composer 2.5 63.2%, Opus 4.7 xhigh default 61.6%, GPT-5.5 medium default 59.2%  — dans les réglages par défaut réellement utilisés par les développeurs, il dépasse les deux modèles frontier
Prix — son arme la plus puissante
• Standard tier: input $0.50/M, output $2.50/M. Fast tier (défaut interactif): input $3.00/M, output $15.00/M 
• Sur SWE-Bench Multilingual, des performances au niveau d’Opus 4.7 pour environ 1/10 du prix d’Anthropic 
• Selon CursorBench, 63 % de précision avec un coût moyen par tâche inférieur à $1 — à performance comparable, Opus/GPT coûtent plusieurs dollars de plus par tâche 
Vue d’ensemble annoncée en parallèle
• Indépendamment de Composer 2.5, Cursor a aussi annoncé entraîner depuis zéro un modèle 10 fois plus grand en s’appuyant sur l’infrastructure xAI (SpaceXAI) et environ 1 million de GPU de classe H100 de Colossus 2 (date de sortie non précisée) 
• Selon le CEO Michael Truell, 35 % des PR mergées en interne chez Cursor sont actuellement générées par des autonomous agents 
• Alors que Claude Code met Cursor sous pression après avoir atteint un ARR de 2,5 milliards de dollars et 300 000 clients entreprises, Cursor semble contre-attaquer avec son propre modèle 
Contraintes d’usage / commentaires
• Composer 2.5 n’est disponible que dans Cursor IDE, Cursor CLI et le web Cursor — pas d’API externe, pas de miroir HuggingFace, pas de passerelle tierce 
• Sa base Kimi K2.5 reste un point à prendre en compte pour les secteurs régulés ou les activités liées au fédéral 
• Une release qui montre que Cursor, parti d’un simple « IDE wrapper », est en train d’évoluer vers un vrai model lab. Avec la même base, le seul post-training a permis de gagner plus de +6 points, ce qui en fait un bon datapoint sur la question : jusqu’où le vertical RL peut-il battre la raw scale ?
• Source : X (@mntruell), Cursor: Introducing Composer 2.5, OfficeChai

1 commentaires

 
neneka 3 시간 전

Je viens de l’essayer maintenant qu’il est sorti, et Composer 2.5 est franchement assez convaincant.