OpenCoder : un cookbook ouvert pour un LLM de code de premier plan

(opencoder-llm.github.io)

12 points par GN⁺ 2024-11-10 | 1 commentaires | Partager sur WhatsApp

OpenCoder est un grand modèle de langage (LLM) open source pour le code, comprenant des modèles de base et de chat en 1.5B et 8B, avec prise en charge de l’anglais et du chinois
- Il a été entraîné sur des données totalisant 2,5 billions de tokens, dont 90 % de code brut et 10 % de données web liées au code
- Il atteint les performances des meilleurs LLM de code et fournit les poids du modèle, le code d’inférence, des données d’entraînement reproductibles, le pipeline de traitement des données, les résultats d’ablation expérimentaux et un protocole d’entraînement détaillé
- Une plateforme ouverte qui aide les chercheurs à faire progresser et à innover dans l’IA pour le code
Caractéristiques d’OpenCoder
- Un LLM de code entièrement open source, construit sur un pipeline de traitement des données transparent et des jeux de données reproductibles, atteignant des performances de premier plan sur plusieurs benchmarks d’évaluation de LLM de code
- RefineCode : un corpus de préentraînement de code de haute qualité et reproductible composé de 960 milliards de tokens couvrant 607 langages de programmation
- Études d’ablation significatives : inclut plusieurs expériences d’ablation afin de fournir des insights utiles sur différents choix de conception et stratégies d’entraînement des LLM de code
- Ressources publiées : poids finaux du modèle, pipeline complet de traitement des données, pipeline d’évaluation efficace, jeu de données de préentraînement reproductible, jeu de données SFT à grande échelle et checkpoints intermédiaires

1 commentaires

GN⁺ 2024-11-10

Avis Hacker News

Le fait de publier non seulement les poids du modèle et le code d’inférence, mais aussi les données d’entraînement reproductibles, le pipeline de traitement des données, les résultats expérimentaux et le protocole d’entraînement contribue à la recherche scientifique.
- Il est souligné que ce type de travail profite à tout le monde, indépendamment des performances du modèle.
D’après les tests, il y a beaucoup d’hallucinations et les performances sont inférieures à celles de modèles généralistes comme Qwen 2.5 ou Mistral-Nemo.
Lien vers la page du papier arXiv : https://opencoder-llm.github.io/
Le score HumanEval de Qwen2.5-Coder-7B est de 61,6, mais dans le tableau 1 il apparaît à 88,4, ce qui prêtait à confusion.
- Cela vient du fait qu’il s’agit de deux modèles différents (Qwen2.5-Coder-7B-Base est à 61,6, Qwen2.5-Coder-7B-Instruct est à 88,4).
À cause des forks et du copier-coller dans la base de code, 75 % des fichiers sont totalement dupliqués.
- Comme le hachage est effectué au niveau du fichier, on ne peut pas être certain qu’il s’agit de copies complètes de fichiers sans modification.
Est-ce que certains entraînent des modèles en incluant des métadonnées de compilation et d’exécution, comme des données de profiling ?
- On se demande si cela pourrait orienter le modèle vers un code plus efficace.
Article intéressant, mais le modèle ne semble pas meilleur que Qwen2.5-Coder sur certains langages, notamment Ruby.
Je me demande quel matériel est nécessaire pour faire tourner ce modèle.
La plomberie est importante.
Bien.

OpenCoder : un cookbook ouvert pour un LLM de code de premier plan

À lire aussi

1 commentaires

Avis Hacker News