19 points par GN⁺ 2026-01-23 | 2 commentaires | Partager sur WhatsApp
  • Le modèle Sweep Next-Edit de 1,5B de paramètres prédit la prochaine modification de code de l’utilisateur afin de fournir une fonction d’autocomplétion
  • Il s’exécute en environnement local avec une latence inférieure à 500 ms et affiche des performances supérieures à celles de modèles plus de 4 fois plus grands
  • Il est proposé au format de quantification Q8_0 GGUF, et prend en charge une longueur de contexte de 8192 tokens même dans une version allégée
  • Il est basé sur Qwen2.5-Coder et peut être intégré à un plugin JetBrains
  • Publié sous licence Apache 2.0, c’est un modèle utile pour l’expérimentation et l’intégration pour les développeurs IA open source

Présentation du modèle

  • Sweep Next-Edit 1.5B est un modèle de prédiction next-edit pour l’autocomplétion de code
    • Il anticipe et propose la prochaine modification avant que l’utilisateur ne change le code
    • Il peut fonctionner avec une latence inférieure à 500 ms même sur un ordinateur portable en local
  • Il offre un temps de réponse rapide grâce au speculative decoding
  • Il a obtenu, sur les benchmarks next-edit, des performances supérieures à celles de modèles plus de 4 fois plus grands

Détails du modèle

  • Nombre de paramètres : 1,5B
  • Format : GGUF (quantification Q8_0)
  • Longueur de contexte : 8192 tokens
  • Modèle de base : Qwen2.5-Coder
  • Licence : Apache 2.0
Publicité

Utilisation

  • Téléchargez run_model.py et le fichier du modèle, puis exécutez-les
    • Commandes d’installation :
      uv pip install llama-cpp-python huggingface_hub  
      python run_model.py  
      
  • L’architecture est centrée sur une exécution locale, sans fournisseur d’inférence cloud séparé

2 commentaires

 
minsuchae 2026-01-23

Ces derniers temps, les géants de la tech ont progressé en augmentant le nombre de paramètres, mais peut-être que la direction est en train de changer ?
Personnellement, j’ai toujours pensé que continuer à croître en augmentant les paramètres n’était pas vraiment une solution.
On a l’impression de sacrifier l’avenir immédiat au profit de la croissance, en quelque sorte. J’avais surtout ce sentiment au plus fort de la vague MoE.
Le Gemma 3 27b de Google paraissait déjà assez élevé, mais dans le monde des LLM, ce nombre de paramètres en venait presque à sembler faible.
Les avancées technologiques sont importantes, bien sûr, mais j’ai l’impression qu’il faudrait aussi voir émerger quelque chose qui prenne en compte l’étape concrète du serving, et sur ce point, ça me semble être une tentative intéressante.
(Si je suis sceptique face à l’augmentation du nombre de paramètres, c’est parce que je sais bien que les performances sont meilleures, mais que le coût pour les servir augmente encore davantage.)

 
GN⁺ 2026-01-23
Réactions sur Hacker News
  • J’ai testé le modèle moi-même, et les performances comme la qualité étaient vraiment impressionnantes
    Merci de l’avoir publié en open source
    Je suis l’auteur d’un plugin d’edit completion pour Neovim, et j’ai réussi à l’intégrer avec le modèle Sweep Edit
    Pour ceux que ça intéresse, voir cursortab.nvim

    • Je me demande s’il existe aussi un port pour Emacs ou une version intégrée à gptel
    • Ça a l’air intéressant, je vais tester le plugin nvim tout de suite
    • Excellent. Je pense essayer moi-même aussi
  • J’avais déjà essayé d’utiliser Qwen 2.5 Coder pour l’autocomplétion avec Continue.dev, mais c’était catastrophique à la fois dans JetBrains IDE et dans VS Code
    Je suis vraiment content de voir ce type d’initiative partagée. La plupart des plugins d’IDE (Cline, RooCode, KiloCode, etc.) ne prennent pas correctement en charge la configuration d’un modèle d’autocomplétion
    Si je gardais un abonnement Copilot, c’était en pratique uniquement pour l’autocomplétion, donc je suis ravi de voir qu’il y a enfin une alternative

    • J’ai aussi essayé l’extension VS Code de llama.cpp, et l’UX de configuration était vraiment affreuse
  • Chaque fois que j’utilise ce genre de plugin, je me rends à nouveau compte à quel point coder sans IA d’autocomplétion est inefficace
    Plus il y a de code boilerplate, plus c’est utile que Claude Code
    Comme j’utilise JetBrains depuis longtemps, c’était difficile pour moi de passer à VSCode, mais les fonctions IA de JetBrains avaient trop de retard
    Maintenant qu’un outil d’autocomplétion correct existe enfin, je pense remplacer mon abonnement Copilot par ça
    Et j’apprécie aussi la publication des poids ouverts ainsi que la présence d’un mode confidentialité

    • J’insistais déjà depuis longtemps sur l’utilité de l’autocomplétion, mais je comprends seulement maintenant qu’il existe en fait deux cultures de développement
      Les développeurs qui écrivent surtout du nouveau code ressentent fortement le gain de productivité apporté par l’autocomplétion, tandis que ceux qui travaillent surtout en maintenance tirent davantage d’aide d’outils comme Claude Code
    • Je suis d’accord aussi. Sur Emacs, j’utilise en intégration un modèle local et gemini 3 flash
      Mais au quotidien, je laisse les LLM désactivés et je ne les active qu’en cas de besoin
      Je pense que le potentiel des petits modèles spécialisés est sous-estimé
      J’écris justement un livre à ce sujet, intitulé ‘Winning Big With Small AI’
    • C’est un peu hors sujet, mais je me demande pourquoi il y a autant de code boilerplate
      À mon avis, la plupart pourraient être refactorés en utilitaires ou en bibliothèques
      J’écris surtout du code de pipelines de recherche, donc j’ai peut-être une perception différente
      À noter qu’on peut aussi mettre en place une autocomplétion de base avec des outils comme yasnippet, ultisnips, VSCode snippets
    • Junie n’est pas terrible, mais si ton problème est l’autocomplétion, IntelliJ propose aussi une fonction d’autocomplétion locale/cloud
    • C’est un peu amer de voir que la solution au problème du boilerplate finit au fond par être la génération automatique
  • J’attendais vraiment quelque chose comme ça depuis très longtemps
    Cursor me demandait 20 dollars par mois alors que je n’utilisais que l’autocomplétion, ce qui me frustrait
    J’ai même envisagé de le faire moi-même, mais je n’étais pas sûr qu’un modèle assez petit pour tourner en local puisse être réellement utilisable
    Du coup, j’ai bricolé rapidement une extension VSCode, et le modèle est plutôt bon
    Les anciens modèles locaux étaient nuls pour les complétions inline, mais cette fois c’est bien mieux
    J’espère que la concurrence va s’intensifier

    • N’hésitez pas à me dire si vous avez des questions
      La qualité a été améliorée avec des fonctions comme le token healingarticle associé
  • J’ai entendu dire qu’un modèle 1.5B était assez petit pour tourner en local, donc je me demande si le plugin Sweep AI pour JetBrains fonctionne réellement en local lui aussi
    J’aimerais savoir si le modèle se télécharge automatiquement à l’installation et s’il n’y a aucune communication externe

    • Pas pour le moment, le plugin JetBrains utilise un grand modèle hébergé
    • Il ne semble pas y avoir de moyen de configurer un endpoint local dans le plugin JetBrains
  • J’ai été surpris par le faible niveau d’implémentation IA de JetBrains
    Après toutes ces années, en être encore là, c’est au point qu’une nouvelle entreprise peut faire mieux
    L’article technique était intéressant aussi

    • Merci. Les retours comme les questions sont toujours les bienvenus
  • En voyant GLM-4.7-Flash et cette annonce, ce qui est vraiment passionnant, c’est de voir les petits modèles repousser leurs limites
    Je suis enthousiaste à l’idée que des modèles qui tournent sur mon propre matériel deviennent de plus en plus performants

  • Vraiment excellent
    Je suis surtout curieux de savoir comment les données d’entraînement next edit à partir du dépôt ont été générées
    J’aimerais beaucoup entendre des retours ou des enseignements là-dessus

  • Excellent. L’article de blog associé était lui aussi très intéressant
    J’espère qu’un plugin pour Neovim arrivera bientôt
    Article associé

    • J’ai entendu dire que quelqu’un avait déjà créé un plugin Neovim connecté à ce modèle
    • Il y a aussi llama.vim
      Ça fonctionnait bien avec Qwen3 Coder, donc tant que l’infill est pris en charge, ça devrait aller
      Je vais le tester aujourd’hui
    • L’auteur du plugin a déjà laissé un commentaire dans ce fil
  • Je ne comprends pas bien la différence entre un modèle next-edit et un modèle FIM
    Si quelqu’un pouvait expliquer dans quels cas utiliser chacun, ce serait utile
    Si possible, j’aimerais aussi créer un plugin pour Sublime afin de tester moi-même

    • Je me posais la même question, alors j’ai demandé à Claude de créer un plugin
      La structure s’appuie sur la fonction d’autocomplétion de base
      C’est visible sur AItoComplete
    • J’imagine que FIM signifie Fill-In-the-Middle
      Une autocomplétion classique se contente de compléter la fin, alors que FIM remplit l’espace entre deux blocs de code
      Autrement dit, c’est un modèle qui regarde à la fois le contexte avant et après le point d’insertion pour trouver la complétion intermédiaire la plus naturelle