2 points par GN⁺ 2026-01-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Un LLM de code open source spécialisé dans le développement, qui apprend les évolutions d’un dépôt et le processus de développement plutôt que du code statique, grâce à un apprentissage multi-étapes du flux de code (code-flow)
  • Renforcement des performances en raisonnement long et en tâches d’agent grâce à un pipeline d’apprentissage évolutif allant du préentraînement au mid-training puis au post-training
  • Injection de données de raisonnement et de trajectoires d’agent dans des contextes 32K et 128K afin d’acquérir la capacité de résoudre des problèmes complexes impliquant plusieurs fichiers ou des dépôts entiers
  • Proposition d’une conception pragmatique avec l’architecture LoopCoder, qui introduit une structure itérative pour améliorer l’efficacité de déploiement à capacité de modèle équivalente
  • Des performances compétitives face aux modèles commerciaux sur SWE-Bench, LiveCodeBench, Terminal-Bench et d’autres, obtenues avec un modèle à poids ouverts

Aperçu

  • IQuest-Coder-V1 est une famille de grands modèles de langage dédiés au code, composée de 7B, 14B, 40B et 40B-Loop
  • Adoption du paradigme code-flow, qui prend pour objet d’apprentissage les commits et l’évolution du dépôt plutôt que de simples instantanés statiques du code
  • Évaluation des performances sur l’ingénierie logicielle de type agent, la programmation compétitive et l’usage d’outils au sens large

Pipeline d’apprentissage Code-Flow

  • En phase de préentraînement, apprentissage sur un mélange de données générales et d’un vaste corpus de code, suivi d’un annealing de code de haute qualité
  • En phase de mid-training, extension du contexte de 32K à 128K et apprentissage sur des QA de raisonnement, des trajectoires d’agent et des données de code à l’échelle du dépôt
  • En phase de post-training, bifurcation en une voie Thinking (RL centré sur le raisonnement) et une voie Instruct (optimisation d’assistance générale)

Principaux résultats de recherche

  • Les expériences montrent que les données issues du flux de commits d’un dépôt fournissent de meilleurs signaux de planification des tâches que des instantanés statiques du code
  • Après l’annealing de code de haute qualité, la structure de mid-training qui injecte des données de raisonnement et d’agent apporte une stabilité face aux changements de distribution
  • Dans la voie Thinking avec RL centré sur le raisonnement, une capacité marquée d’auto-récupération après erreur lors de tâches longues apparaît nettement

Architecture LoopCoder

  • Introduction d’une structure de transformer en boucle qui exécute deux fois le même bloc de paramètres
  • Combinaison, via un mécanisme de gating, d’une attention globale et d’une attention locale pour atteindre simultanément l’affinage du contexte à longue portée et le maintien de la causalité
  • Objectif : améliorer l’efficacité de calcul par rapport à la taille du modèle afin de répondre aux contraintes des environnements de déploiement

Composition des données et stratégie de préentraînement

  • Formalisation, à l’aide de lois de scaling fondées sur des formules, des effets de synergie entre langages dans l’apprentissage mêlant plusieurs langages de programmation
  • Construction de données en triplets (R_old, Patch, R_new) à partir de commits situés entre 40 % et 80 % du cycle de vie d’un dépôt
  • Renforcement des capacités de complétion de code grâce à une technique de Fill-In-the-Middle à l’échelle du fichier et du dépôt

Résultats d’évaluation

  • Score de 76.2 sur SWE-Bench Verified, avec des performances de premier plan sur de nombreux benchmarks comme LiveCodeBench v6, Terminal-Bench et Mind2Web
  • Évaluation menée sur tout le spectre : génération de code, raisonnement, édition, efficacité, Text-to-SQL et tâches d’agent
  • Sur certains indicateurs, des résultats proches ou compétitifs face à des modèles fermés comme Claude Sonnet 4.5 et GPT-5.1

Évaluation de la sécurité

  • Sur des benchmarks de sécurité comme BeaverTails, HarmBench et TrustLLM, le modèle Thinking affiche une précision de refus élevée et des performances équilibrées
  • Les résultats suggèrent qu’un RL centré sur le raisonnement a aussi un effet positif du point de vue de la sécurité

Conclusion

  • Démonstration empirique que l’apprentissage centré sur le flux d’évolution du code et les trajectoires d’agent est efficace pour former une intelligence du code autonome
  • L’architecture LoopCoder propose une orientation pragmatique pour concevoir des LLM de code, en tenant compte du compromis performance-efficacité
  • Publication de l’ensemble des étapes d’apprentissage et des checkpoints afin de favoriser la recherche ouverte sur l’intelligence du code et le développement de systèmes d’agents concrets

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.