BigCode - projet de création d’une IA open source pour la génération de code
(bigcode-project.org)- Projet open source visant à créer un LLM (Large Language Model) pour le code source, offrant des fonctionnalités similaires à Codex d’OpenAI utilisé dans GitHub Copilot
- Prévu comme une collaboration entre Hugging Face et ServiceNow R&D
- L’objectif est de fournir un jeu de données à l’échelle nécessaire pour entraîner des systèmes de génération de code
- Un ensemble de 15 milliards de paramètres, plus grand encore que Codex
4 commentaires
Comme CoPilot, qui est payant, a forcément diverses limitations, j’espère que cela provoquera un grand changement, comme Stable Diffusion.
Ce serait bien si ça pouvait aussi fonctionner en local, comme Stable Diffusion. Après tout, Copilot nécessite une communication externe (même s’ils disent très bien protéger la confidentialité du code et utiliser le chiffrement). Et comme le code source est inclus dans ces échanges, ça me met mal à l’aise.
C’est vrai.
Dans la pratique, comme il s’agit d’un LLM (Large Language Model), ça ne semble pas vraiment faisable directement en local, mais si on pouvait au moins avoir une taille qu’on peut déployer en on-prem, ce serait déjà exploitable. Avec 15 milliards de paramètres, on est sur une taille intermédiaire entre GPT-2 (1,5 milliard) et GPT-3 (175 milliards) ; je me demande si ça pourrait marcher... snif
Je crois savoir que GPT-2 pouvait être exécuté en local... ou en tout cas qu'il le pouvait. Tabnine est basé sur ce modèle, et il propose justement un modèle local.