- Composer, dévoilé par Cursor, est un modèle d’agent intelligent rapide pour l’ingénierie logicielle qui atteint une vitesse de génération de code 4 fois supérieure à celle de modèles comparables
- Il est entraîné à résoudre de vrais problèmes dans de vastes codebases et utilise des outils de recherche et d’édition pour traiter des tâches de difficulté variée
- En combinant une architecture Mixture-of-Experts (MoE) et l’apprentissage par renforcement (RL), il prend en charge la compréhension et la génération sur un contexte long pour l’édition de code, la planification et les réponses
- L’évaluation Cursor Bench mesure non seulement la précision du modèle, mais aussi la cohérence avec la codebase et le respect des pratiques d’ingénierie
- En s’appuyant sur une infrastructure RL asynchrone basée sur PyTorch et Ray et sur un entraînement basse précision MXFP8, Cursor améliore l’efficacité de l’entraînement sur des milliers de GPU ainsi que la vitesse d’inférence
Présentation de Composer
- Composer est un nouveau modèle d’agent développé avec pour objectif l’intelligence et la vitesse en ingénierie logicielle
- Lors des benchmarks, il a enregistré une vitesse de génération de code 4 fois supérieure à celle de modèles similaires
- Il est optimisé dans Cursor comme agent de résolution de problèmes pour de grandes codebases
- Le modèle est entraîné à résoudre des problèmes de difficulté variée en utilisant des outils de recherche et d’édition dans des environnements réels
- Cela permet d’offrir une expérience de développement interactive à haute vitesse
Contexte de développement
- Composer est issu de l’expérience de Cursor dans le développement de son modèle personnalisé d’autocomplétion de code (Cursor Tab)
- L’équipe a constaté que les développeurs préfèrent des modèles à la fois intelligents et très réactifs
- À partir du modèle expérimental initial Cheetah, Composer a été conçu comme une version plus rapide et plus intelligente
- L’objectif était de construire un modèle offrant des réponses immédiates sans casser le flux de développement
Architecture du modèle et méthode d’entraînement
- Composer est un modèle de langage Mixture-of-Experts (MoE) qui prend en charge la compréhension et la génération sur un contexte long
- Il est spécialisé pour différents environnements de développement grâce à l’apprentissage par renforcement (RL)
- À chaque étape d’entraînement, il reçoit une description du problème et génère la meilleure modification de code, le meilleur plan ou la meilleure réponse
- Le modèle utilise des outils comme la lecture et l’édition de fichiers, l’exécution de commandes terminal, et la recherche sémantique à l’échelle de la codebase
- Au cours du processus RL, le modèle apprend de lui-même des comportements utiles comme effectuer des recherches complexes, corriger des erreurs de linter, écrire et exécuter des tests unitaires
Évaluation et benchmarks
- Cursor Bench est un jeu d’évaluation interne comprenant de vraies demandes d’ingénierie et leurs meilleures réponses
- Il mesure la précision du modèle, le respect des abstractions de la codebase et la conformité aux pratiques de l’ingénierie logicielle
- Composer est classé comme modèle « Fast Frontier », comparé à des modèles visant une inférence efficace comme Haiku 4.5 et Gemini Flash 2.5
- Il est plus lent que des modèles Frontier de tout premier plan comme GPT-5 et Sonnet 4.5, mais offre une grande efficacité au regard de sa vitesse
Infrastructure et conception système
- Pour entraîner un grand modèle MoE, Cursor a construit une infrastructure RL asynchrone basée sur PyTorch et Ray
- Elle combine des kernels MoE MXFP8, du parallélisme d’experts et du data parallelism en hybrid sharding
- Cela permet d’étendre l’entraînement sur des milliers de GPU NVIDIA tout en minimisant les coûts de communication
- L’entraînement basse précision MXFP8 améliore la vitesse d’inférence et évite d’avoir recours à une quantification de post-traitement
- Pendant le RL, le modèle peut appeler tous les outils de Cursor Agent
- Sont notamment pris en charge l’édition de code, la recherche sémantique, le grep de chaînes de caractères et l’exécution de commandes terminal
- Pour cela, des centaines de milliers d’environnements sandbox cloud sont exécutés en parallèle
- L’infrastructure existante des Background Agents a été étendue pour absorber des charges d’entraînement en burst
Usage interne et déploiement
- L’équipe de Cursor utilise activement Composer pour son propre travail de développement
- De nombreux ingénieurs utilisent Composer au quotidien pour le développement logiciel
- Avec cette publication, l’entreprise espère que d’autres développeurs pourront également en tirer parti
Annexe : classification des benchmarks internes
- Fast Frontier : modèles d’inférence efficaces (Haiku 4.5, Gemini Flash 2.5, etc.)
- Best Open : modèles à poids ouverts (Qwen Coder, GLM 4.6, etc.)
- Frontier 7/2025 : meilleurs modèles en date de juillet 2025
- Best Frontier : modèles plus performants que Composer, comme GPT-5 et Sonnet 4.5
- Le calcul des tokens per second est normalisé selon le tokenizer Anthropic le plus récent
1 commentaires
Réactions sur Hacker News
Je trouve qu’il y a vraiment trop peu de transparence
Les performances du modèle ne sont publiées qu’à travers des benchmarks internes, et comme même ces données ne sont pas publiques, il est difficile d’y faire confiance
Ils parlent d’entraînement RL, mais il n’y a absolument aucune information essentielle sur le pré-entraînement (pre-training) ou sur un éventuel fine-tuning
Tant qu’ils ne publieront pas davantage de détails ou qu’un benchmark indépendant ne sera pas possible de l’extérieur, je resterai sceptique face à toutes ces affirmations
S’ils les rendaient publics, ces données pourraient se retrouver dans les jeux d’entraînement d’autres LLM et leur validité scientifique disparaîtrait
Mais si elles restent privées, on peut tout aussi bien soupçonner qu’ils ont sélectionné uniquement des données qui les avantagent
Au final, c’est un dilemme difficile à résoudre
Cursor collecte en temps réel des milliers de données d’acceptation/rejet, et c’est la meilleure boucle de feedback possible
La réaction des utilisateurs en conditions réelles est bien plus utile qu’un benchmark, et cela permet d’améliorer rapidement le modèle
Récemment, ils ont aussi ajouté une intégration multi-agent + git tree, ce qui leur permet d’utiliser le comportement des utilisateurs comme signal d’apprentissage
Je pense que cette concurrence améliore la qualité globale du marché tout en faisant baisser les coûts d’usage, créant ainsi un cercle vertueux
J’ai toujours l’impression que le modèle Tab de Cursor reste le meilleur
Tout cela est bien expliqué dans l’article de blog officiel
Ce serait vraiment intéressant si cette approche pouvait aussi s’appliquer à un modèle de code agentique
L’idée même de ce projet est née de la volonté de créer un agent du type de Tab
J’utilise Claude Code presque en permanence, et Tab n’intervient que lorsque le modèle est complètement bloqué
Ce qui est impressionnant, c’est que ce type d’échec devient de plus en plus rare
J’aimerais qu’ils le changent par quelque chose comme shift+tab
Chaque fois que j’écris moi-même du code, j’ai l’impression d’entrer en compétition avec l’IA sur l’indentation, et c’est pénible
Je suis chercheur ML chez Cursor et j’ai participé à ce projet
Tous les retours sur le modèle ou sur le billet de blog sont les bienvenus
Mais si Composer est un modèle ouvert fine-tuné avec du RL, je me demande pourquoi vous gardez les poids non publics
Un léger avantage de performance disparaît vite, donc une stratégie ouverte serait peut-être plus efficace pour gagner la confiance des développeurs
Personnellement, les modèles fermés m’intéressent peu
J’avais essayé Cursor il y a longtemps avant d’abandonner, mais cette fois Composer1 était bien plus rapide et plus précis que GPT5 Codex
Comme la vitesse et la qualité sont toutes deux au rendez-vous, j’envisage de lui redonner sa chance
Une version avec les noms individuels au lieu de regrouper les modèles aurait semblé plus équitable
Je fais la phase de planification avec Claude, mais pour l’exécution, Composer est bien plus efficace
Sonnet 4.5 représente à peu près le niveau de qualité minimum que je peux tolérer
Plus que la vitesse, ce qui compte pour moi, c’est de ne pas avoir à me battre pour obtenir la sortie voulue
Je me trompe peut-être, mais je me demande si tous les modèles comparés dans cet article sont des modèles internes à Cursor
ceux qui veulent qu’un modèle traite de longues tâches de manière autonome,
et ceux qui veulent interagir et collaborer avec lui
Dans le second cas, la vitesse est bien plus importante, tandis que dans le premier, c’est l’intelligence qui prime
Pour moi, c’est surtout le manque de compréhension du contexte qui pose problème, donc cela dépend des situations
Dès que j’utilise autre chose que Claude, le coût en tokens augmente et l’efficacité baisse
Claude 4.5 Sonnet règle le même travail pour la moitié du coût
Je préfère un feedback rapide à une précision maximale
Je suis content de voir un nouveau modèle, mais sans chiffres ni noms de modèles sur le graphique, il est difficile de lui faire confiance
Ils disent qu’il est difficile de publier les détails de l’entraînement, mais qu’ils ont obtenu un résultat montrant que le RL passe bien à l’échelle
Beaucoup de gens sont critiques envers Cursor, mais après avoir tout essayé, de Copilot à Claude Code, Codex, Gemini CLI ou Cline, j’ai trouvé que Cursor était le produit le plus abouti
Sa vitesse et sa stabilité sont particulièrement impressionnantes, et il donne vraiment l’impression d’un vrai produit fini
Les requêtes restaient souvent bloquées plus de 30 secondes, alors que Claude Code était beaucoup plus rapide et plus stable
J’ai réessayé le nouveau modèle aujourd’hui : Composer1 est rapide, mais j’ai encore eu des erreurs de connexion
Pour implémenter rapidement ce que je veux, Cursor reste le meilleur
L’autocomplétion est aussi assez utile pour le refactoring
Parmi les concurrents, Cursor est le seul à prendre vraiment au sérieux le temps de complétion des réponses
Sur ce point, Cursor a clairement pris une avance décisive
J’ai essayé le nouveau système, et j’ai au contraire eu l’impression que les performances avaient baissé
Même une application basique ne fonctionnait pas correctement, et il échouait aussi bien sur le CSS que sur la gestion du contexte terminal
La vitesse a aussi progressivement ralenti, et au final je suis revenu à Sonnet
J’espère que ce n’est pas la version stabilisée
J’aime vraiment beaucoup Cursor
J’ai utilisé plusieurs outils comme Copilot, Claude, etc., mais je finis toujours par revenir à Cursor
En particulier, l’autocomplétion Tab est très précise pour les tâches de refactoring
C’était lent et la qualité des suggestions était médiocre
Cursor est bien plus rapide et ses suggestions sont utiles
En revanche, comme il est très rapide, il affiche parfois trop de suggestions inutiles en continu
Heureusement, la fonction snooze permet de corriger ça
Il y a une image du pélican de Composer 1 en train de faire du vélo
Lien vers l’image