A.T.L.A.S - Un GPU à 500 $ dépasse Claude Sonnet sur les benchmarks de code

(github.com/itigges22)

12 points par GN⁺ 2026-03-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp

A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) est un système d’IA auto-hébergé capable d’atteindre des performances de génération de code de niveau grand modèle avec un seul GPU grand public
Sur LiveCodeBench v5, il a obtenu 74,6 % pass@1-v(k=3), dépassant Claude 4.5 Sonnet (71,4 %), soit une amélioration de performances presque doublée par rapport à la version précédente
En gardant figé le modèle à 14B paramètres (Qwen3-14B-Q4_K_M), il atteint de hautes performances grâce à une génération sous contraintes, une boucle d’auto-vérification et de correction, et une sélection de candidats par Geometric Lens
Il fonctionne de manière entièrement autonome en local, sans cloud ni appels API, avec pour seul coût l’électricité, ce qui lui confère une très forte efficacité économique face aux modèles fondés sur des API
Dans un environnement RTX 5060 Ti 16GB GPU, il traite 599 problèmes en environ 2 heures, montrant que les capacités de génération de code des grands modèles peuvent être reproduites sur du matériel personnel

Résultats des benchmarks

LiveCodeBench v5 : 74,6 % pass@1-v(k=3), 599 problèmes traités
- Pipeline V3 : PlanSearch + self-verified PR-CoT repair
GPQA Diamond : 47,0 %, 198 problèmes
SciCode : 14,7 %, 341 problèmes
Le pass@k-v(k=3) n’est pas le résultat d’une tentative unique, mais d’une méthode qui génère 3 candidats, sélectionne via Lens, puis applique des corrections itératives en cas d’échec
Contribution détaillée de V3 (Ablation Study)
- A : version de base (sans V3) → 54,9 %
- B : Phase 1 (PlanSearch + BudgetForcing + DivSampling) → 67,3 % (+12,4 pp)
- C : Phase 1+2 (Lens routing) → 67,3 % (+0,0 pp)
- D : Phase 1+3 (self-verified refinement) → 74,6 % (+7,3 pp)
- La Phase 3 effectue une vérification interne avec des cas de test générés par le modèle lui-même, sans utiliser les bonnes réponses réelles
- En Phase 3, PR-CoT a permis de récupérer 36 problèmes sur 42 (85,7 %)

Comparaison coûts / performances

Système	LCB pass@1	Coût par problème	Remarques
DeepSeek V3.2 Reasoning	86,2 %	~$0.002	API, tentative unique
GPT-5 (high)	84,6 %	~$0.043	API, tentative unique
ATLAS V3	74,6 %	~$0.004	local uniquement sur électricité, best-of-3 + repair
Claude 4.5 Sonnet	71,4 %	~$0.066	API, tentative unique
Claude 4 Sonnet	65,5 %	~$0.066	API, tentative unique

ATLAS n’engendre que des coûts d’électricité, sans frais d’API
Avec un GPU 165W, l’exécution des 599 problèmes prend environ 1 h 55
La latence est plus élevée, mais l’efficacité économique est très forte

Principe de fonctionnement

Pipeline complet
- Phase 1: Generate
  - PlanSearch : extraction de contraintes et génération de plans variés
  - Budget Forcing : contrôle de l’usage des tokens
- Étape Verify
  - Geometric Lens (C(x)) : energy scoring basé sur des embeddings internes en 5120 dimensions
  - Sandbox : exécution et validation du code
- Phase 3: Repair
  - Self-Test Generation : le modèle génère lui-même des paires entrée/sortie
  - PR-CoT Repair : correction du code fondée sur un chain-of-thought multi-perspective
- Une instance unique de llama-server s’exécute sur K3s et réalise à la fois le speculative decoding et la génération d’embeddings internes
- Geometric Lens sélectionne le meilleur code parmi les candidats (87,8 % de précision sur les problèmes à résultats mixtes)
- Les problèmes en échec passent en Phase 3 pour une génération de tests autonome et des corrections itératives

Installation et exécution

Cloner le dépôt GitHub, copier le fichier de configuration, puis lancer le script d’installation
Exécuter le benchmark V3 avec benchmark/v3_runner.py
Voir docs/SETUP.md pour la procédure détaillée

Matériel et reproductibilité

Ressource	Minimum	Environnement de test
GPU VRAM	16 GB	RTX 5060 Ti 16 GB
RAM système	14 GB	16 GB
Python	3.10+	3.11
OS	RHEL 9 / Ubuntu 24	RHEL 9 (Proxmox VM)

Reproduit dans un environnement Proxmox VM + passthrough GPU VFIO
Fonctionne aussi sur d’autres GPU NVIDIA avec au moins 16GB de VRAM, mais nécessite des ajustements des pilotes et des paramètres VRAM
Principales variables d’ajustement :
- nombre de slots --parallel (2 par défaut, réduire à 1 si la VRAM manque)
- quantification du cache KV (Q4_0)
- longueur de contexte par slot (20480 tokens par défaut)
- tests validés avec CUDA 12.8
V3.1 doit améliorer la portabilité

Feuille de route

V3.0 (terminé, 2026-03-05)
- Basé sur Qwen3-14B-Q4_K_M, performances LCB à 74,6 %
- Pipeline PlanSearch + BudgetForcing + Geometric Lens + PR-CoT finalisé
Limites connues
1. Optimisation centrée sur LCB : optimisation insuffisante pour d’autres benchmarks comme GPQA ou SciCode
2. Phase 2 (Lens routing) : impact limité faute de données (+0,0 pp)
3. G(x) metric tensor désactivé : absence de structure géométrique significative car C(x) n’est pas entraîné
4. Traitement mono-thread : pas de prise en charge de la parallélisation des problèmes
5. Bug stdio de SandboxAdapter : fonction de séparation des entrées désactivée (correction prévue en V3.1)
V3.1 (en cours)
- Changement de modèle : Qwen3-14B → Qwen3.5-9B (attention linéaire DeltaNet, vitesse multipliée par 3 à 4)
- Réentraînement du Lens : recalibrage de C(x) basé sur du feedback en temps réel
- Refonte de la Phase 2 : réimplémentation ou suppression de G(x), correction du bug SandboxAdapter
- Introduction du traitement parallèle : amélioration du débit via l’exécution parallèle des problèmes
- Suite de benchmarks étendue : inclut des évaluations de raisonnement et de connaissances en plus du code
Benchmarks V3.1 prévus
- Code : LiveCodeBench v5, SciCode, et jeux de données supplémentaires résistants à la contamination
- Raisonnement / connaissances : GPQA Diamond, AA-LCR, AA-Omniscience, Humanity’s Last Exam, CritPt, etc.
- Le Confidence Router choisit le parcours selon la difficulté du problème :
  - requête simple → raisonnement rapide basé sur RAG (~30 secondes)
  - problème de code complexe → pipeline complet (~20 minutes)
- Objectif : 80 à 90 % de LCB pass@1-v(k=3) avec une vitesse de traitement plus élevée

Licence

A.T.L.A.S Source Available License v1.0

A.T.L.A.S - Un GPU à 500 $ dépasse Claude Sonnet sur les benchmarks de code

Résultats des benchmarks

Contribution détaillée de V3 (Ablation Study)

Comparaison coûts / performances

Principe de fonctionnement

Pipeline complet

Installation et exécution

Matériel et reproductibilité

Feuille de route

V3.0 (terminé, 2026-03-05)

Limites connues

V3.1 (en cours)

Benchmarks V3.1 prévus

Licence

À lire aussi

Aucun commentaire pour le moment.