Composer : un modèle frontier rapide construit avec l’apprentissage par renforcement

(cursor.com)

2 points par GN⁺ 2025-10-30 | 1 commentaires | Partager sur WhatsApp

Composer, dévoilé par Cursor, est un modèle d’agent intelligent rapide pour l’ingénierie logicielle qui atteint une vitesse de génération de code 4 fois supérieure à celle de modèles comparables
Il est entraîné à résoudre de vrais problèmes dans de vastes codebases et utilise des outils de recherche et d’édition pour traiter des tâches de difficulté variée
En combinant une architecture Mixture-of-Experts (MoE) et l’apprentissage par renforcement (RL), il prend en charge la compréhension et la génération sur un contexte long pour l’édition de code, la planification et les réponses
L’évaluation Cursor Bench mesure non seulement la précision du modèle, mais aussi la cohérence avec la codebase et le respect des pratiques d’ingénierie
En s’appuyant sur une infrastructure RL asynchrone basée sur PyTorch et Ray et sur un entraînement basse précision MXFP8, Cursor améliore l’efficacité de l’entraînement sur des milliers de GPU ainsi que la vitesse d’inférence

Présentation de Composer

Composer est un nouveau modèle d’agent développé avec pour objectif l’intelligence et la vitesse en ingénierie logicielle
- Lors des benchmarks, il a enregistré une vitesse de génération de code 4 fois supérieure à celle de modèles similaires
- Il est optimisé dans Cursor comme agent de résolution de problèmes pour de grandes codebases
Le modèle est entraîné à résoudre des problèmes de difficulté variée en utilisant des outils de recherche et d’édition dans des environnements réels
- Cela permet d’offrir une expérience de développement interactive à haute vitesse

Contexte de développement

Composer est issu de l’expérience de Cursor dans le développement de son modèle personnalisé d’autocomplétion de code (Cursor Tab)
- L’équipe a constaté que les développeurs préfèrent des modèles à la fois intelligents et très réactifs
À partir du modèle expérimental initial Cheetah, Composer a été conçu comme une version plus rapide et plus intelligente
- L’objectif était de construire un modèle offrant des réponses immédiates sans casser le flux de développement

Architecture du modèle et méthode d’entraînement

Composer est un modèle de langage Mixture-of-Experts (MoE) qui prend en charge la compréhension et la génération sur un contexte long
Il est spécialisé pour différents environnements de développement grâce à l’apprentissage par renforcement (RL)
- À chaque étape d’entraînement, il reçoit une description du problème et génère la meilleure modification de code, le meilleur plan ou la meilleure réponse
- Le modèle utilise des outils comme la lecture et l’édition de fichiers, l’exécution de commandes terminal, et la recherche sémantique à l’échelle de la codebase
Au cours du processus RL, le modèle apprend de lui-même des comportements utiles comme effectuer des recherches complexes, corriger des erreurs de linter, écrire et exécuter des tests unitaires

Évaluation et benchmarks

Cursor Bench est un jeu d’évaluation interne comprenant de vraies demandes d’ingénierie et leurs meilleures réponses
- Il mesure la précision du modèle, le respect des abstractions de la codebase et la conformité aux pratiques de l’ingénierie logicielle
Composer est classé comme modèle « Fast Frontier », comparé à des modèles visant une inférence efficace comme Haiku 4.5 et Gemini Flash 2.5
- Il est plus lent que des modèles Frontier de tout premier plan comme GPT-5 et Sonnet 4.5, mais offre une grande efficacité au regard de sa vitesse

Infrastructure et conception système

Pour entraîner un grand modèle MoE, Cursor a construit une infrastructure RL asynchrone basée sur PyTorch et Ray
- Elle combine des kernels MoE MXFP8, du parallélisme d’experts et du data parallelism en hybrid sharding
- Cela permet d’étendre l’entraînement sur des milliers de GPU NVIDIA tout en minimisant les coûts de communication
L’entraînement basse précision MXFP8 améliore la vitesse d’inférence et évite d’avoir recours à une quantification de post-traitement
Pendant le RL, le modèle peut appeler tous les outils de Cursor Agent
- Sont notamment pris en charge l’édition de code, la recherche sémantique, le grep de chaînes de caractères et l’exécution de commandes terminal
- Pour cela, des centaines de milliers d’environnements sandbox cloud sont exécutés en parallèle
- L’infrastructure existante des Background Agents a été étendue pour absorber des charges d’entraînement en burst

Usage interne et déploiement

L’équipe de Cursor utilise activement Composer pour son propre travail de développement
- De nombreux ingénieurs utilisent Composer au quotidien pour le développement logiciel
Avec cette publication, l’entreprise espère que d’autres développeurs pourront également en tirer parti

Annexe : classification des benchmarks internes

Fast Frontier : modèles d’inférence efficaces (Haiku 4.5, Gemini Flash 2.5, etc.)
Best Open : modèles à poids ouverts (Qwen Coder, GLM 4.6, etc.)
Frontier 7/2025 : meilleurs modèles en date de juillet 2025
Best Frontier : modèles plus performants que Composer, comme GPT-5 et Sonnet 4.5
Le calcul des tokens per second est normalisé selon le tokenizer Anthropic le plus récent

1 commentaires

GN⁺ 2025-10-30

Réactions sur Hacker News

Je trouve qu’il y a vraiment trop peu de transparence
Les performances du modèle ne sont publiées qu’à travers des benchmarks internes, et comme même ces données ne sont pas publiques, il est difficile d’y faire confiance
Ils parlent d’entraînement RL, mais il n’y a absolument aucune information essentielle sur le pré-entraînement (pre-training) ou sur un éventuel fine-tuning
Tant qu’ils ne publieront pas davantage de détails ou qu’un benchmark indépendant ne sera pas possible de l’extérieur, je resterai sceptique face à toutes ces affirmations
- Je comprends pourquoi ils ne publient pas leurs benchmarks internes
  S’ils les rendaient publics, ces données pourraient se retrouver dans les jeux d’entraînement d’autres LLM et leur validité scientifique disparaîtrait
  Mais si elles restent privées, on peut tout aussi bien soupçonner qu’ils ont sélectionné uniquement des données qui les avantagent
  Au final, c’est un dilemme difficile à résoudre
- En réalité, je pense que le plus important, ce sont les données d’usage réelles
  Cursor collecte en temps réel des milliers de données d’acceptation/rejet, et c’est la meilleure boucle de feedback possible
  La réaction des utilisateurs en conditions réelles est bien plus utile qu’un benchmark, et cela permet d’améliorer rapidement le modèle
  Récemment, ils ont aussi ajouté une intégration multi-agent + git tree, ce qui leur permet d’utiliser le comportement des utilisateurs comme signal d’apprentissage
  Je pense que cette concurrence améliore la qualité globale du marché tout en faisant baisser les coûts d’usage, créant ainsi un cercle vertueux
J’ai toujours l’impression que le modèle Tab de Cursor reste le meilleur
Tout cela est bien expliqué dans l’article de blog officiel
Ce serait vraiment intéressant si cette approche pouvait aussi s’appliquer à un modèle de code agentique
- Notre équipe utilise aussi beaucoup Tab
  L’idée même de ce projet est née de la volonté de créer un agent du type de Tab
- Je me demande si vous avez déjà essayé Windsurfs
- Le modèle Tab est bon, mais j’ai aussi l’impression que c’est un peu une course pour fabriquer un meilleur fouet
  J’utilise Claude Code presque en permanence, et Tab n’intervient que lorsque le modèle est complètement bloqué
  Ce qui est impressionnant, c’est que ce type d’échec devient de plus en plus rare
- Le modèle Tab est excellent, mais c’est dommage qu’il ne comprenne pas le contexte de la session de chat IA en cours
- La fonctionnalité est bonne, mais le raccourci clavier laisse à désirer
  J’aimerais qu’ils le changent par quelque chose comme shift+tab
  Chaque fois que j’écris moi-même du code, j’ai l’impression d’entrer en compétition avec l’IA sur l’indentation, et c’est pénible
Je suis chercheur ML chez Cursor et j’ai participé à ce projet
Tous les retours sur le modèle ou sur le billet de blog sont les bienvenus
- La description du système était impressionnante
  Mais si Composer est un modèle ouvert fine-tuné avec du RL, je me demande pourquoi vous gardez les poids non publics
  Un léger avantage de performance disparaît vite, donc une stratégie ouverte serait peut-être plus efficace pour gagner la confiance des développeurs
  Personnellement, les modèles fermés m’intéressent peu
- C’était vraiment impressionnant
  J’avais essayé Cursor il y a longtemps avant d’abandonner, mais cette fois Composer1 était bien plus rapide et plus précis que GPT5 Codex
  Comme la vitesse et la qualité sont toutes deux au rendez-vous, j’envisage de lui redonner sa chance
- Le premier graphique du blog était beaucoup trop vague
  Une version avec les noms individuels au lieu de regrouper les modèles aurait semblé plus équitable
- Aujourd’hui, j’ai utilisé ensemble Composer, Sonnet 4.5 et Gemini 2.5 Pro, et c’est la combinaison vitesse + qualité de Composer qui m’a le plus satisfait
  Je fais la phase de planification avec Claude, mais pour l’exécution, Composer est bien plus efficace
- En regardant le graphique logarithmique, on dirait qu’il faudrait environ 50 % de calcul en plus pour atteindre un modèle frontier, alors je me demande pourquoi l’entraînement s’est arrêté à ce stade
Sonnet 4.5 représente à peu près le niveau de qualité minimum que je peux tolérer
Plus que la vitesse, ce qui compte pour moi, c’est de ne pas avoir à me battre pour obtenir la sortie voulue
Je me trompe peut-être, mais je me demande si tous les modèles comparés dans cet article sont des modèles internes à Cursor
- C’est amusant de voir qu’à peine un mois après sa sortie, Sonnet 4.5 est déjà considéré comme le « minimum acceptable »
- Je pense qu’il y a deux types d’utilisateurs
  ceux qui veulent qu’un modèle traite de longues tâches de manière autonome,
  et ceux qui veulent interagir et collaborer avec lui
  Dans le second cas, la vitesse est bien plus importante, tandis que dans le premier, c’est l’intelligence qui prime
  Pour moi, c’est surtout le manque de compréhension du contexte qui pose problème, donc cela dépend des situations
- Sonnet 4.5 est excellent, mais avez-vous essayé Composer aussi ?
- Je suis un peu pareil
  Dès que j’utilise autre chose que Claude, le coût en tokens augmente et l’efficacité baisse
  Claude 4.5 Sonnet règle le même travail pour la moitié du coût
- Si j’ai fait cette comparaison, c’était pour montrer à quel point Cursor prend au sérieux une expérience utilisateur axée sur la vitesse
  Je préfère un feedback rapide à une précision maximale
Je suis content de voir un nouveau modèle, mais sans chiffres ni noms de modèles sur le graphique, il est difficile de lui faire confiance
- Il y a bien des explications sur les modèles dans les notes de bas de page
  Ils disent qu’il est difficile de publier les détails de l’entraînement, mais qu’ils ont obtenu un résultat montrant que le RL passe bien à l’échelle
Beaucoup de gens sont critiques envers Cursor, mais après avoir tout essayé, de Copilot à Claude Code, Codex, Gemini CLI ou Cline, j’ai trouvé que Cursor était le produit le plus abouti
Sa vitesse et sa stabilité sont particulièrement impressionnantes, et il donne vraiment l’impression d’un vrai produit fini
- J’ai moi aussi utilisé Cursor, mais j’ai fini par abandonner à cause de problèmes de fiabilité
  Les requêtes restaient souvent bloquées plus de 30 secondes, alors que Claude Code était beaucoup plus rapide et plus stable
  J’ai réessayé le nouveau modèle aujourd’hui : Composer1 est rapide, mais j’ai encore eu des erreurs de connexion
- J’ai essayé plusieurs outils moi aussi, mais au final je reviens toujours à Cursor
  Pour implémenter rapidement ce que je veux, Cursor reste le meilleur
- Cursor se fige parfois, mais comme on peut revenir en arrière facilement depuis l’UI, ce n’est pas vraiment gênant
  L’autocomplétion est aussi assez utile pour le refactoring
- Vous dites avoir essayé plusieurs alternatives, mais est-ce que vous n’auriez pas testé Zed ?
- C’est intéressant que vous préfériez encore Cursor après avoir essayé Claude
Parmi les concurrents, Cursor est le seul à prendre vraiment au sérieux le temps de complétion des réponses
Sur ce point, Cursor a clairement pris une avance décisive
- Nous aussi, nous aimons différents modèles, mais nous pensons qu’il est important de trouver le bon équilibre entre rapidité et intelligence (chercheur chez Cursor)
J’ai essayé le nouveau système, et j’ai au contraire eu l’impression que les performances avaient baissé
Même une application basique ne fonctionnait pas correctement, et il échouait aussi bien sur le CSS que sur la gestion du contexte terminal
La vitesse a aussi progressivement ralenti, et au final je suis revenu à Sonnet
J’espère que ce n’est pas la version stabilisée
J’aime vraiment beaucoup Cursor
J’ai utilisé plusieurs outils comme Copilot, Claude, etc., mais je finis toujours par revenir à Cursor
En particulier, l’autocomplétion Tab est très précise pour les tâches de refactoring
- Il y a un mois, je suis revenu à VS Code + Copilot, mais j’ai abandonné au bout de 4 jours
  C’était lent et la qualité des suggestions était médiocre
  Cursor est bien plus rapide et ses suggestions sont utiles
  En revanche, comme il est très rapide, il affiche parfois trop de suggestions inutiles en continu
  Heureusement, la fonction snooze permet de corriger ça
Il y a une image du pélican de Composer 1 en train de faire du vélo
Lien vers l’image
- Le rendu est bien meilleur que ce à quoi je m’attendais

Composer : un modèle frontier rapide construit avec l’apprentissage par renforcement

Présentation de Composer

Contexte de développement

Architecture du modèle et méthode d’entraînement

Évaluation et benchmarks

Infrastructure et conception système

Usage interne et déploiement

Annexe : classification des benchmarks internes

À lire aussi

1 commentaires

Réactions sur Hacker News