Sweep prend en charge l’autocomplétion de code « prochaine modification » avec un modèle 1.5B à poids ouverts
(huggingface.co)- Le modèle Sweep Next-Edit de 1,5B de paramètres prédit la prochaine modification de code de l’utilisateur afin de fournir une fonction d’autocomplétion
- Il s’exécute en environnement local avec une latence inférieure à 500 ms et affiche des performances supérieures à celles de modèles plus de 4 fois plus grands
- Il est proposé au format de quantification Q8_0 GGUF, et prend en charge une longueur de contexte de 8192 tokens même dans une version allégée
- Il est basé sur Qwen2.5-Coder et peut être intégré à un plugin JetBrains
- Publié sous licence Apache 2.0, c’est un modèle utile pour l’expérimentation et l’intégration pour les développeurs IA open source
Présentation du modèle
- Sweep Next-Edit 1.5B est un modèle de prédiction next-edit pour l’autocomplétion de code
- Il anticipe et propose la prochaine modification avant que l’utilisateur ne change le code
- Il peut fonctionner avec une latence inférieure à 500 ms même sur un ordinateur portable en local
- Il offre un temps de réponse rapide grâce au speculative decoding
- Il a obtenu, sur les benchmarks next-edit, des performances supérieures à celles de modèles plus de 4 fois plus grands
Détails du modèle
- Nombre de paramètres : 1,5B
- Format : GGUF (quantification Q8_0)
- Longueur de contexte : 8192 tokens
- Modèle de base : Qwen2.5-Coder
- Licence : Apache 2.0
Utilisation
- Téléchargez
run_model.pyet le fichier du modèle, puis exécutez-les- Commandes d’installation :
uv pip install llama-cpp-python huggingface_hub python run_model.py
- Commandes d’installation :
- L’architecture est centrée sur une exécution locale, sans fournisseur d’inférence cloud séparé
2 commentaires
Ces derniers temps, les géants de la tech ont progressé en augmentant le nombre de paramètres, mais peut-être que la direction est en train de changer ?
Personnellement, j’ai toujours pensé que continuer à croître en augmentant les paramètres n’était pas vraiment une solution.
On a l’impression de sacrifier l’avenir immédiat au profit de la croissance, en quelque sorte. J’avais surtout ce sentiment au plus fort de la vague MoE.
Le Gemma 3 27b de Google paraissait déjà assez élevé, mais dans le monde des LLM, ce nombre de paramètres en venait presque à sembler faible.
Les avancées technologiques sont importantes, bien sûr, mais j’ai l’impression qu’il faudrait aussi voir émerger quelque chose qui prenne en compte l’étape concrète du serving, et sur ce point, ça me semble être une tentative intéressante.
(Si je suis sceptique face à l’augmentation du nombre de paramètres, c’est parce que je sais bien que les performances sont meilleures, mais que le coût pour les servir augmente encore davantage.)
Réactions sur Hacker News
J’ai testé le modèle moi-même, et les performances comme la qualité étaient vraiment impressionnantes
Merci de l’avoir publié en open source
Je suis l’auteur d’un plugin d’edit completion pour Neovim, et j’ai réussi à l’intégrer avec le modèle Sweep Edit
Pour ceux que ça intéresse, voir cursortab.nvim
J’avais déjà essayé d’utiliser Qwen 2.5 Coder pour l’autocomplétion avec Continue.dev, mais c’était catastrophique à la fois dans JetBrains IDE et dans VS Code
Je suis vraiment content de voir ce type d’initiative partagée. La plupart des plugins d’IDE (Cline, RooCode, KiloCode, etc.) ne prennent pas correctement en charge la configuration d’un modèle d’autocomplétion
Si je gardais un abonnement Copilot, c’était en pratique uniquement pour l’autocomplétion, donc je suis ravi de voir qu’il y a enfin une alternative
Chaque fois que j’utilise ce genre de plugin, je me rends à nouveau compte à quel point coder sans IA d’autocomplétion est inefficace
Plus il y a de code boilerplate, plus c’est utile que Claude Code
Comme j’utilise JetBrains depuis longtemps, c’était difficile pour moi de passer à VSCode, mais les fonctions IA de JetBrains avaient trop de retard
Maintenant qu’un outil d’autocomplétion correct existe enfin, je pense remplacer mon abonnement Copilot par ça
Et j’apprécie aussi la publication des poids ouverts ainsi que la présence d’un mode confidentialité
Les développeurs qui écrivent surtout du nouveau code ressentent fortement le gain de productivité apporté par l’autocomplétion, tandis que ceux qui travaillent surtout en maintenance tirent davantage d’aide d’outils comme Claude Code
Mais au quotidien, je laisse les LLM désactivés et je ne les active qu’en cas de besoin
Je pense que le potentiel des petits modèles spécialisés est sous-estimé
J’écris justement un livre à ce sujet, intitulé ‘Winning Big With Small AI’
À mon avis, la plupart pourraient être refactorés en utilitaires ou en bibliothèques
J’écris surtout du code de pipelines de recherche, donc j’ai peut-être une perception différente
À noter qu’on peut aussi mettre en place une autocomplétion de base avec des outils comme yasnippet, ultisnips, VSCode snippets
J’attendais vraiment quelque chose comme ça depuis très longtemps
Cursor me demandait 20 dollars par mois alors que je n’utilisais que l’autocomplétion, ce qui me frustrait
J’ai même envisagé de le faire moi-même, mais je n’étais pas sûr qu’un modèle assez petit pour tourner en local puisse être réellement utilisable
Du coup, j’ai bricolé rapidement une extension VSCode, et le modèle est plutôt bon
Les anciens modèles locaux étaient nuls pour les complétions inline, mais cette fois c’est bien mieux
J’espère que la concurrence va s’intensifier
La qualité a été améliorée avec des fonctions comme le token healing — article associé
J’ai entendu dire qu’un modèle 1.5B était assez petit pour tourner en local, donc je me demande si le plugin Sweep AI pour JetBrains fonctionne réellement en local lui aussi
J’aimerais savoir si le modèle se télécharge automatiquement à l’installation et s’il n’y a aucune communication externe
J’ai été surpris par le faible niveau d’implémentation IA de JetBrains
Après toutes ces années, en être encore là, c’est au point qu’une nouvelle entreprise peut faire mieux
L’article technique était intéressant aussi
En voyant GLM-4.7-Flash et cette annonce, ce qui est vraiment passionnant, c’est de voir les petits modèles repousser leurs limites
Je suis enthousiaste à l’idée que des modèles qui tournent sur mon propre matériel deviennent de plus en plus performants
Vraiment excellent
Je suis surtout curieux de savoir comment les données d’entraînement next edit à partir du dépôt ont été générées
J’aimerais beaucoup entendre des retours ou des enseignements là-dessus
Excellent. L’article de blog associé était lui aussi très intéressant
J’espère qu’un plugin pour Neovim arrivera bientôt
Article associé
Ça fonctionnait bien avec Qwen3 Coder, donc tant que l’infill est pris en charge, ça devrait aller
Je vais le tester aujourd’hui
Je ne comprends pas bien la différence entre un modèle next-edit et un modèle FIM
Si quelqu’un pouvait expliquer dans quels cas utiliser chacun, ce serait utile
Si possible, j’aimerais aussi créer un plugin pour Sublime afin de tester moi-même
La structure s’appuie sur la fonction d’autocomplétion de base
C’est visible sur AItoComplete
Une autocomplétion classique se contente de compléter la fin, alors que FIM remplit l’espace entre deux blocs de code
Autrement dit, c’est un modèle qui regarde à la fois le contexte avant et après le point d’insertion pour trouver la complétion intermédiaire la plus naturelle