Sweep prend en charge l’autocomplétion de code « prochaine modification » avec un modèle 1.5B à poids ouverts

Nombre de paramètres: 1,5B
Format: GGUF (quantification Q8_0)
Longueur de contexte: 8192 tokens
Modèle de base: Qwen2.5-Coder
Licence: Apache 2.0

(huggingface.co)

19 points par GN⁺ 2026-01-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le modèle Sweep Next-Edit de 1,5B de paramètres prédit la prochaine modification de code de l’utilisateur afin de fournir une fonction d’autocomplétion
Il s’exécute en environnement local avec une latence inférieure à 500 ms et affiche des performances supérieures à celles de modèles plus de 4 fois plus grands
Il est proposé au format de quantification Q8_0 GGUF, et prend en charge une longueur de contexte de 8192 tokens même dans une version allégée
Il est basé sur Qwen2.5-Coder et peut être intégré à un plugin JetBrains
Publié sous licence Apache 2.0, c’est un modèle utile pour l’expérimentation et l’intégration pour les développeurs IA open source

Présentation du modèle

Sweep Next-Edit 1.5B est un modèle de prédiction next-edit pour l’autocomplétion de code
- Il anticipe et propose la prochaine modification avant que l’utilisateur ne change le code
- Il peut fonctionner avec une latence inférieure à 500 ms même sur un ordinateur portable en local
Il offre un temps de réponse rapide grâce au speculative decoding
Il a obtenu, sur les benchmarks next-edit, des performances supérieures à celles de modèles plus de 4 fois plus grands

Téléchargez run_model.py et le fichier du modèle, puis exécutez-les
- Commandes d’installation :
```
uv pip install llama-cpp-python huggingface_hub  
python run_model.py  
```
L’architecture est centrée sur une exécution locale, sans fournisseur d’inférence cloud séparé