2 points par GN⁺ 2025-10-30 | 1 commentaires | Partager sur WhatsApp
  • Composer, dévoilé par Cursor, est un modèle d’agent intelligent rapide pour l’ingénierie logicielle qui atteint une vitesse de génération de code 4 fois supérieure à celle de modèles comparables
  • Il est entraîné à résoudre de vrais problèmes dans de vastes codebases et utilise des outils de recherche et d’édition pour traiter des tâches de difficulté variée
  • En combinant une architecture Mixture-of-Experts (MoE) et l’apprentissage par renforcement (RL), il prend en charge la compréhension et la génération sur un contexte long pour l’édition de code, la planification et les réponses
  • L’évaluation Cursor Bench mesure non seulement la précision du modèle, mais aussi la cohérence avec la codebase et le respect des pratiques d’ingénierie
  • En s’appuyant sur une infrastructure RL asynchrone basée sur PyTorch et Ray et sur un entraînement basse précision MXFP8, Cursor améliore l’efficacité de l’entraînement sur des milliers de GPU ainsi que la vitesse d’inférence

Présentation de Composer

  • Composer est un nouveau modèle d’agent développé avec pour objectif l’intelligence et la vitesse en ingénierie logicielle
    • Lors des benchmarks, il a enregistré une vitesse de génération de code 4 fois supérieure à celle de modèles similaires
    • Il est optimisé dans Cursor comme agent de résolution de problèmes pour de grandes codebases
  • Le modèle est entraîné à résoudre des problèmes de difficulté variée en utilisant des outils de recherche et d’édition dans des environnements réels
    • Cela permet d’offrir une expérience de développement interactive à haute vitesse

Contexte de développement

  • Composer est issu de l’expérience de Cursor dans le développement de son modèle personnalisé d’autocomplétion de code (Cursor Tab)
    • L’équipe a constaté que les développeurs préfèrent des modèles à la fois intelligents et très réactifs
  • À partir du modèle expérimental initial Cheetah, Composer a été conçu comme une version plus rapide et plus intelligente
    • L’objectif était de construire un modèle offrant des réponses immédiates sans casser le flux de développement

Architecture du modèle et méthode d’entraînement

  • Composer est un modèle de langage Mixture-of-Experts (MoE) qui prend en charge la compréhension et la génération sur un contexte long
  • Il est spécialisé pour différents environnements de développement grâce à l’apprentissage par renforcement (RL)
    • À chaque étape d’entraînement, il reçoit une description du problème et génère la meilleure modification de code, le meilleur plan ou la meilleure réponse
    • Le modèle utilise des outils comme la lecture et l’édition de fichiers, l’exécution de commandes terminal, et la recherche sémantique à l’échelle de la codebase
  • Au cours du processus RL, le modèle apprend de lui-même des comportements utiles comme effectuer des recherches complexes, corriger des erreurs de linter, écrire et exécuter des tests unitaires

Évaluation et benchmarks

  • Cursor Bench est un jeu d’évaluation interne comprenant de vraies demandes d’ingénierie et leurs meilleures réponses
    • Il mesure la précision du modèle, le respect des abstractions de la codebase et la conformité aux pratiques de l’ingénierie logicielle
  • Composer est classé comme modèle « Fast Frontier », comparé à des modèles visant une inférence efficace comme Haiku 4.5 et Gemini Flash 2.5
    • Il est plus lent que des modèles Frontier de tout premier plan comme GPT-5 et Sonnet 4.5, mais offre une grande efficacité au regard de sa vitesse

Infrastructure et conception système

  • Pour entraîner un grand modèle MoE, Cursor a construit une infrastructure RL asynchrone basée sur PyTorch et Ray
    • Elle combine des kernels MoE MXFP8, du parallélisme d’experts et du data parallelism en hybrid sharding
    • Cela permet d’étendre l’entraînement sur des milliers de GPU NVIDIA tout en minimisant les coûts de communication
  • L’entraînement basse précision MXFP8 améliore la vitesse d’inférence et évite d’avoir recours à une quantification de post-traitement
  • Pendant le RL, le modèle peut appeler tous les outils de Cursor Agent
    • Sont notamment pris en charge l’édition de code, la recherche sémantique, le grep de chaînes de caractères et l’exécution de commandes terminal
    • Pour cela, des centaines de milliers d’environnements sandbox cloud sont exécutés en parallèle
    • L’infrastructure existante des Background Agents a été étendue pour absorber des charges d’entraînement en burst

Usage interne et déploiement

  • L’équipe de Cursor utilise activement Composer pour son propre travail de développement
    • De nombreux ingénieurs utilisent Composer au quotidien pour le développement logiciel
  • Avec cette publication, l’entreprise espère que d’autres développeurs pourront également en tirer parti

Annexe : classification des benchmarks internes

  • Fast Frontier : modèles d’inférence efficaces (Haiku 4.5, Gemini Flash 2.5, etc.)
  • Best Open : modèles à poids ouverts (Qwen Coder, GLM 4.6, etc.)
  • Frontier 7/2025 : meilleurs modèles en date de juillet 2025
  • Best Frontier : modèles plus performants que Composer, comme GPT-5 et Sonnet 4.5
  • Le calcul des tokens per second est normalisé selon le tokenizer Anthropic le plus récent

1 commentaires

 
GN⁺ 2025-10-30
Réactions sur Hacker News
  • Je trouve qu’il y a vraiment trop peu de transparence
    Les performances du modèle ne sont publiées qu’à travers des benchmarks internes, et comme même ces données ne sont pas publiques, il est difficile d’y faire confiance
    Ils parlent d’entraînement RL, mais il n’y a absolument aucune information essentielle sur le pré-entraînement (pre-training) ou sur un éventuel fine-tuning
    Tant qu’ils ne publieront pas davantage de détails ou qu’un benchmark indépendant ne sera pas possible de l’extérieur, je resterai sceptique face à toutes ces affirmations

    • Je comprends pourquoi ils ne publient pas leurs benchmarks internes
      S’ils les rendaient publics, ces données pourraient se retrouver dans les jeux d’entraînement d’autres LLM et leur validité scientifique disparaîtrait
      Mais si elles restent privées, on peut tout aussi bien soupçonner qu’ils ont sélectionné uniquement des données qui les avantagent
      Au final, c’est un dilemme difficile à résoudre
    • En réalité, je pense que le plus important, ce sont les données d’usage réelles
      Cursor collecte en temps réel des milliers de données d’acceptation/rejet, et c’est la meilleure boucle de feedback possible
      La réaction des utilisateurs en conditions réelles est bien plus utile qu’un benchmark, et cela permet d’améliorer rapidement le modèle
      Récemment, ils ont aussi ajouté une intégration multi-agent + git tree, ce qui leur permet d’utiliser le comportement des utilisateurs comme signal d’apprentissage
      Je pense que cette concurrence améliore la qualité globale du marché tout en faisant baisser les coûts d’usage, créant ainsi un cercle vertueux
  • J’ai toujours l’impression que le modèle Tab de Cursor reste le meilleur
    Tout cela est bien expliqué dans l’article de blog officiel
    Ce serait vraiment intéressant si cette approche pouvait aussi s’appliquer à un modèle de code agentique

    • Notre équipe utilise aussi beaucoup Tab
      L’idée même de ce projet est née de la volonté de créer un agent du type de Tab
    • Je me demande si vous avez déjà essayé Windsurfs
    • Le modèle Tab est bon, mais j’ai aussi l’impression que c’est un peu une course pour fabriquer un meilleur fouet
      J’utilise Claude Code presque en permanence, et Tab n’intervient que lorsque le modèle est complètement bloqué
      Ce qui est impressionnant, c’est que ce type d’échec devient de plus en plus rare
    • Le modèle Tab est excellent, mais c’est dommage qu’il ne comprenne pas le contexte de la session de chat IA en cours
    • La fonctionnalité est bonne, mais le raccourci clavier laisse à désirer
      J’aimerais qu’ils le changent par quelque chose comme shift+tab
      Chaque fois que j’écris moi-même du code, j’ai l’impression d’entrer en compétition avec l’IA sur l’indentation, et c’est pénible
  • Je suis chercheur ML chez Cursor et j’ai participé à ce projet
    Tous les retours sur le modèle ou sur le billet de blog sont les bienvenus

    • La description du système était impressionnante
      Mais si Composer est un modèle ouvert fine-tuné avec du RL, je me demande pourquoi vous gardez les poids non publics
      Un léger avantage de performance disparaît vite, donc une stratégie ouverte serait peut-être plus efficace pour gagner la confiance des développeurs
      Personnellement, les modèles fermés m’intéressent peu
    • C’était vraiment impressionnant
      J’avais essayé Cursor il y a longtemps avant d’abandonner, mais cette fois Composer1 était bien plus rapide et plus précis que GPT5 Codex
      Comme la vitesse et la qualité sont toutes deux au rendez-vous, j’envisage de lui redonner sa chance
    • Le premier graphique du blog était beaucoup trop vague
      Une version avec les noms individuels au lieu de regrouper les modèles aurait semblé plus équitable
    • Aujourd’hui, j’ai utilisé ensemble Composer, Sonnet 4.5 et Gemini 2.5 Pro, et c’est la combinaison vitesse + qualité de Composer qui m’a le plus satisfait
      Je fais la phase de planification avec Claude, mais pour l’exécution, Composer est bien plus efficace
    • En regardant le graphique logarithmique, on dirait qu’il faudrait environ 50 % de calcul en plus pour atteindre un modèle frontier, alors je me demande pourquoi l’entraînement s’est arrêté à ce stade
  • Sonnet 4.5 représente à peu près le niveau de qualité minimum que je peux tolérer
    Plus que la vitesse, ce qui compte pour moi, c’est de ne pas avoir à me battre pour obtenir la sortie voulue
    Je me trompe peut-être, mais je me demande si tous les modèles comparés dans cet article sont des modèles internes à Cursor

    • C’est amusant de voir qu’à peine un mois après sa sortie, Sonnet 4.5 est déjà considéré comme le « minimum acceptable »
    • Je pense qu’il y a deux types d’utilisateurs
      ceux qui veulent qu’un modèle traite de longues tâches de manière autonome,
      et ceux qui veulent interagir et collaborer avec lui
      Dans le second cas, la vitesse est bien plus importante, tandis que dans le premier, c’est l’intelligence qui prime
      Pour moi, c’est surtout le manque de compréhension du contexte qui pose problème, donc cela dépend des situations
    • Sonnet 4.5 est excellent, mais avez-vous essayé Composer aussi ?
    • Je suis un peu pareil
      Dès que j’utilise autre chose que Claude, le coût en tokens augmente et l’efficacité baisse
      Claude 4.5 Sonnet règle le même travail pour la moitié du coût
    • Si j’ai fait cette comparaison, c’était pour montrer à quel point Cursor prend au sérieux une expérience utilisateur axée sur la vitesse
      Je préfère un feedback rapide à une précision maximale
  • Je suis content de voir un nouveau modèle, mais sans chiffres ni noms de modèles sur le graphique, il est difficile de lui faire confiance

    • Il y a bien des explications sur les modèles dans les notes de bas de page
      Ils disent qu’il est difficile de publier les détails de l’entraînement, mais qu’ils ont obtenu un résultat montrant que le RL passe bien à l’échelle
  • Beaucoup de gens sont critiques envers Cursor, mais après avoir tout essayé, de Copilot à Claude Code, Codex, Gemini CLI ou Cline, j’ai trouvé que Cursor était le produit le plus abouti
    Sa vitesse et sa stabilité sont particulièrement impressionnantes, et il donne vraiment l’impression d’un vrai produit fini

    • J’ai moi aussi utilisé Cursor, mais j’ai fini par abandonner à cause de problèmes de fiabilité
      Les requêtes restaient souvent bloquées plus de 30 secondes, alors que Claude Code était beaucoup plus rapide et plus stable
      J’ai réessayé le nouveau modèle aujourd’hui : Composer1 est rapide, mais j’ai encore eu des erreurs de connexion
    • J’ai essayé plusieurs outils moi aussi, mais au final je reviens toujours à Cursor
      Pour implémenter rapidement ce que je veux, Cursor reste le meilleur
    • Cursor se fige parfois, mais comme on peut revenir en arrière facilement depuis l’UI, ce n’est pas vraiment gênant
      L’autocomplétion est aussi assez utile pour le refactoring
    • Vous dites avoir essayé plusieurs alternatives, mais est-ce que vous n’auriez pas testé Zed ?
    • C’est intéressant que vous préfériez encore Cursor après avoir essayé Claude
  • Parmi les concurrents, Cursor est le seul à prendre vraiment au sérieux le temps de complétion des réponses
    Sur ce point, Cursor a clairement pris une avance décisive

    • Nous aussi, nous aimons différents modèles, mais nous pensons qu’il est important de trouver le bon équilibre entre rapidité et intelligence (chercheur chez Cursor)
  • J’ai essayé le nouveau système, et j’ai au contraire eu l’impression que les performances avaient baissé
    Même une application basique ne fonctionnait pas correctement, et il échouait aussi bien sur le CSS que sur la gestion du contexte terminal
    La vitesse a aussi progressivement ralenti, et au final je suis revenu à Sonnet
    J’espère que ce n’est pas la version stabilisée

  • J’aime vraiment beaucoup Cursor
    J’ai utilisé plusieurs outils comme Copilot, Claude, etc., mais je finis toujours par revenir à Cursor
    En particulier, l’autocomplétion Tab est très précise pour les tâches de refactoring

    • Il y a un mois, je suis revenu à VS Code + Copilot, mais j’ai abandonné au bout de 4 jours
      C’était lent et la qualité des suggestions était médiocre
      Cursor est bien plus rapide et ses suggestions sont utiles
      En revanche, comme il est très rapide, il affiche parfois trop de suggestions inutiles en continu
      Heureusement, la fonction snooze permet de corriger ça
  • Il y a une image du pélican de Composer 1 en train de faire du vélo
    Lien vers l’image

    • Le rendu est bien meilleur que ce à quoi je m’attendais