IQuest-Coder : un nouveau modèle de code open source surpasse Claude Sonnet 4.5 et GPT 5.1 [pdf]

(github.com/IQuestLab)

2 points par GN⁺ 2026-01-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Un LLM de code open source spécialisé dans le développement, qui apprend les évolutions d’un dépôt et le processus de développement plutôt que du code statique, grâce à un apprentissage multi-étapes du flux de code (code-flow)
Renforcement des performances en raisonnement long et en tâches d’agent grâce à un pipeline d’apprentissage évolutif allant du préentraînement au mid-training puis au post-training
Injection de données de raisonnement et de trajectoires d’agent dans des contextes 32K et 128K afin d’acquérir la capacité de résoudre des problèmes complexes impliquant plusieurs fichiers ou des dépôts entiers
Proposition d’une conception pragmatique avec l’architecture LoopCoder, qui introduit une structure itérative pour améliorer l’efficacité de déploiement à capacité de modèle équivalente
Des performances compétitives face aux modèles commerciaux sur SWE-Bench, LiveCodeBench, Terminal-Bench et d’autres, obtenues avec un modèle à poids ouverts

Aperçu

IQuest-Coder-V1 est une famille de grands modèles de langage dédiés au code, composée de 7B, 14B, 40B et 40B-Loop
Adoption du paradigme code-flow, qui prend pour objet d’apprentissage les commits et l’évolution du dépôt plutôt que de simples instantanés statiques du code
Évaluation des performances sur l’ingénierie logicielle de type agent, la programmation compétitive et l’usage d’outils au sens large

En phase de préentraînement, apprentissage sur un mélange de données générales et d’un vaste corpus de code, suivi d’un annealing de code de haute qualité
En phase de mid-training, extension du contexte de 32K à 128K et apprentissage sur des QA de raisonnement, des trajectoires d’agent et des données de code à l’échelle du dépôt
En phase de post-training, bifurcation en une voie Thinking (RL centré sur le raisonnement) et une voie Instruct (optimisation d’assistance générale)

Les expériences montrent que les données issues du flux de commits d’un dépôt fournissent de meilleurs signaux de planification des tâches que des instantanés statiques du code
Après l’annealing de code de haute qualité, la structure de mid-training qui injecte des données de raisonnement et d’agent apporte une stabilité face aux changements de distribution
Dans la voie Thinking avec RL centré sur le raisonnement, une capacité marquée d’auto-récupération après erreur lors de tâches longues apparaît nettement

Introduction d’une structure de transformer en boucle qui exécute deux fois le même bloc de paramètres
Combinaison, via un mécanisme de gating, d’une attention globale et d’une attention locale pour atteindre simultanément l’affinage du contexte à longue portée et le maintien de la causalité
Objectif : améliorer l’efficacité de calcul par rapport à la taille du modèle afin de répondre aux contraintes des environnements de déploiement

Formalisation, à l’aide de lois de scaling fondées sur des formules, des effets de synergie entre langages dans l’apprentissage mêlant plusieurs langages de programmation
Construction de données en triplets (R_old, Patch, R_new) à partir de commits situés entre 40 % et 80 % du cycle de vie d’un dépôt
Renforcement des capacités de complétion de code grâce à une technique de Fill-In-the-Middle à l’échelle du fichier et du dépôt

Score de 76.2 sur SWE-Bench Verified, avec des performances de premier plan sur de nombreux benchmarks comme LiveCodeBench v6, Terminal-Bench et Mind2Web
Évaluation menée sur tout le spectre : génération de code, raisonnement, édition, efficacité, Text-to-SQL et tâches d’agent
Sur certains indicateurs, des résultats proches ou compétitifs face à des modèles fermés comme Claude Sonnet 4.5 et GPT-5.1

Sur des benchmarks de sécurité comme BeaverTails, HarmBench et TrustLLM, le modèle Thinking affiche une précision de refus élevée et des performances équilibrées
Les résultats suggèrent qu’un RL centré sur le raisonnement a aussi un effet positif du point de vue de la sécurité

Démonstration empirique que l’apprentissage centré sur le flux d’évolution du code et les trajectoires d’agent est efficace pour former une intelligence du code autonome
L’architecture LoopCoder propose une orientation pragmatique pour concevoir des LLM de code, en tenant compte du compromis performance-efficacité
Publication de l’ensemble des étapes d’apprentissage et des checkpoints afin de favoriser la recherche ouverte sur l’intelligence du code et le développement de systèmes d’agents concrets