- OpenCoder est un grand modèle de langage (LLM) open source pour le code, comprenant des modèles de base et de chat en 1.5B et 8B, avec prise en charge de l’anglais et du chinois
- Il a été entraîné sur des données totalisant 2,5 billions de tokens, dont 90 % de code brut et 10 % de données web liées au code
- Il atteint les performances des meilleurs LLM de code et fournit les poids du modèle, le code d’inférence, des données d’entraînement reproductibles, le pipeline de traitement des données, les résultats d’ablation expérimentaux et un protocole d’entraînement détaillé
- Une plateforme ouverte qui aide les chercheurs à faire progresser et à innover dans l’IA pour le code
- Caractéristiques d’OpenCoder
- Un LLM de code entièrement open source, construit sur un pipeline de traitement des données transparent et des jeux de données reproductibles, atteignant des performances de premier plan sur plusieurs benchmarks d’évaluation de LLM de code
- RefineCode : un corpus de préentraînement de code de haute qualité et reproductible composé de 960 milliards de tokens couvrant 607 langages de programmation
- Études d’ablation significatives : inclut plusieurs expériences d’ablation afin de fournir des insights utiles sur différents choix de conception et stratégies d’entraînement des LLM de code
- Ressources publiées : poids finaux du modèle, pipeline complet de traitement des données, pipeline d’évaluation efficace, jeu de données de préentraînement reproductible, jeu de données SFT à grande échelle et checkpoints intermédiaires
1 commentaires
Avis Hacker News
Le fait de publier non seulement les poids du modèle et le code d’inférence, mais aussi les données d’entraînement reproductibles, le pipeline de traitement des données, les résultats expérimentaux et le protocole d’entraînement contribue à la recherche scientifique.
D’après les tests, il y a beaucoup d’hallucinations et les performances sont inférieures à celles de modèles généralistes comme Qwen 2.5 ou Mistral-Nemo.
Lien vers la page du papier arXiv : https://opencoder-llm.github.io/
Le score HumanEval de Qwen2.5-Coder-7B est de 61,6, mais dans le tableau 1 il apparaît à 88,4, ce qui prêtait à confusion.
À cause des forks et du copier-coller dans la base de code, 75 % des fichiers sont totalement dupliqués.
Est-ce que certains entraînent des modèles en incluant des métadonnées de compilation et d’exécution, comme des données de profiling ?
Article intéressant, mais le modèle ne semble pas meilleur que Qwen2.5-Coder sur certains langages, notamment Ruby.
Je me demande quel matériel est nécessaire pour faire tourner ce modèle.
La plomberie est importante.
Bien.