SantaCoder - un modèle de génération de code entraîné avec 1,1 milliard (1.1B) de paramètres
(huggingface.co)- Modèle de langage multilingue entraîné sur du code Python, Java et Javascript
- Présenté comme plus performant que InCoder (6.7B) de Facebook et CodeGen-Multi (2.7B) de Salesforce pour la génération LTR et l'infilling
- Utilise une partie du dataset The-Stack v1.1 (6 To) publié par BigCode
2 commentaires
En ce moment, les projets d’IA poussent énormément en misant sur la force brute des paramètres, mais je me demande à quel niveau il faut fixer les prix pour garantir la rentabilité. Avec 10 $ par mois comme Copilot, est-ce que cela peut vraiment couvrir les coûts… (même si je sais bien que s’inquiéter pour les grandes entreprises ne sert pas à grand-chose…)
Le CoPilot de GitHub est à 12B, donc il y aurait apparemment quand même une certaine différence en termes de qualité du code généré par rapport à celui-ci.