- Code Llama est un modèle de langage de grande taille (LLM) de pointe spécialement conçu pour les tâches de programmation.
- Il peut générer du code ainsi que du langage naturel à propos du code, à partir de prompts en code comme en langage naturel.
- Code Llama est construit sur Llama 2 et est proposé en trois variantes : un modèle de base pour le code, un modèle spécialisé Python et un modèle affiné pour comprendre les instructions en langage naturel.
- Le modèle est gratuit pour la recherche comme pour un usage commercial, et surpasse les autres LLM publiquement disponibles sur les tâches liées au code.
- Code Llama peut être utilisé comme outil de productivité pour aider les programmeurs à écrire des logiciels plus robustes et mieux documentés, ainsi que comme outil pédagogique pour abaisser la barrière à l'entrée de l'apprentissage du code.
- Le modèle prend en charge de nombreux langages populaires, dont Python, C++, Java, PHP, Typescript (Javascript), C#, Bash, etc.
- Code Llama est disponible en trois tailles, avec respectivement 7B, 13B et 34B paramètres, chacune entraînée sur 500B tokens de code et de données liées au code.
- Les différents modèles sont proposés pour répondre à divers services et exigences de latence : le modèle 34B offre les meilleurs résultats, tandis que les plus petits modèles conviennent mieux aux tâches nécessitant rapidité et faible latence.
- Code Llama peut traiter jusqu'à 100 000 tokens de contexte, ce qui le rend utile pour générer des programmes plus longs et déboguer des bases de code plus volumineuses.
- Deux variantes supplémentaires, Code Llama - Python et Code Llama - Instruct, ont été affinées ; elles sont respectivement spécialisées dans le code Python et dans la génération de réponses utiles et sûres en langage naturel.
- Lors de tests de benchmark utilisant les références de programmation HumanEval et Mostly Basic Python Programming (MBPP), Code Llama a surpassé les autres LLM open source dédiés au code ainsi que Llama 2.
- Avant la sortie de Code Llama, des mesures de sécurité ont été prises, notamment une évaluation quantitative du risque que le modèle génère du code malveillant.
- La recette d'entraînement et les poids du modèle de Code Llama sont disponibles sur GitHub, et son développement, ses tests de benchmark, ses limites et les défis à venir sont détaillés dans un article de recherche.
- Les créateurs de Code Llama estiment que les modèles d'IA, et en particulier les LLM pour le code, tirent le plus grand bénéfice d'une approche ouverte, car cela permet à l'ensemble de la communauté d'évaluer leurs capacités, d'identifier les problèmes et de corriger les vulnérabilités.
- Les développeurs sont encouragés à utiliser Code Llama de manière responsable, notamment en suivant des recommandations sur le développement de sous-modèles, la définition de politiques de contenu, la préparation des données, le fine-tuning du modèle, l'évaluation et l'amélioration des performances, la gestion des risques, la transparence dans les interactions avec les utilisateurs et la mise en place de mécanismes de signalement.
- Code Llama a été conçu pour aider les ingénieurs logiciels de tous horizons et pour inspirer d'autres personnes à exploiter Llama 2 afin de créer de nouveaux outils innovants pour la recherche et les produits commerciaux.
1 commentaires
Avis Hacker News