1 points par GN⁺ 2023-08-25 | 1 commentaires | Partager sur WhatsApp
  • Code Llama est un modèle de langage de grande taille (LLM) de pointe spécialement conçu pour les tâches de programmation.
  • Il peut générer du code ainsi que du langage naturel à propos du code, à partir de prompts en code comme en langage naturel.
  • Code Llama est construit sur Llama 2 et est proposé en trois variantes : un modèle de base pour le code, un modèle spécialisé Python et un modèle affiné pour comprendre les instructions en langage naturel.
  • Le modèle est gratuit pour la recherche comme pour un usage commercial, et surpasse les autres LLM publiquement disponibles sur les tâches liées au code.
  • Code Llama peut être utilisé comme outil de productivité pour aider les programmeurs à écrire des logiciels plus robustes et mieux documentés, ainsi que comme outil pédagogique pour abaisser la barrière à l'entrée de l'apprentissage du code.
  • Le modèle prend en charge de nombreux langages populaires, dont Python, C++, Java, PHP, Typescript (Javascript), C#, Bash, etc.
  • Code Llama est disponible en trois tailles, avec respectivement 7B, 13B et 34B paramètres, chacune entraînée sur 500B tokens de code et de données liées au code.
  • Les différents modèles sont proposés pour répondre à divers services et exigences de latence : le modèle 34B offre les meilleurs résultats, tandis que les plus petits modèles conviennent mieux aux tâches nécessitant rapidité et faible latence.
  • Code Llama peut traiter jusqu'à 100 000 tokens de contexte, ce qui le rend utile pour générer des programmes plus longs et déboguer des bases de code plus volumineuses.
  • Deux variantes supplémentaires, Code Llama - Python et Code Llama - Instruct, ont été affinées ; elles sont respectivement spécialisées dans le code Python et dans la génération de réponses utiles et sûres en langage naturel.
  • Lors de tests de benchmark utilisant les références de programmation HumanEval et Mostly Basic Python Programming (MBPP), Code Llama a surpassé les autres LLM open source dédiés au code ainsi que Llama 2.
  • Avant la sortie de Code Llama, des mesures de sécurité ont été prises, notamment une évaluation quantitative du risque que le modèle génère du code malveillant.
  • La recette d'entraînement et les poids du modèle de Code Llama sont disponibles sur GitHub, et son développement, ses tests de benchmark, ses limites et les défis à venir sont détaillés dans un article de recherche.
  • Les créateurs de Code Llama estiment que les modèles d'IA, et en particulier les LLM pour le code, tirent le plus grand bénéfice d'une approche ouverte, car cela permet à l'ensemble de la communauté d'évaluer leurs capacités, d'identifier les problèmes et de corriger les vulnérabilités.
  • Les développeurs sont encouragés à utiliser Code Llama de manière responsable, notamment en suivant des recommandations sur le développement de sous-modèles, la définition de politiques de contenu, la préparation des données, le fine-tuning du modèle, l'évaluation et l'amélioration des performances, la gestion des risques, la transparence dans les interactions avec les utilisateurs et la mise en place de mécanismes de signalement.
  • Code Llama a été conçu pour aider les ingénieurs logiciels de tous horizons et pour inspirer d'autres personnes à exploiter Llama 2 afin de créer de nouveaux outils innovants pour la recherche et les produits commerciaux.

1 commentaires

 
GN⁺ 2023-08-25
Avis Hacker News
  • Code Llama est un nouveau grand modèle de langage spécialement conçu pour le code.
  • Ce modèle peut traiter jusqu’à 100 000 tokens de contexte et offre une génération stable.
  • Certains utilisateurs ont remis en question l’utilité d’un contexte de 100k, en soulignant une baisse de la précision de récupération d’informations clés après 16k tokens.
  • Le modèle 7B de Code Llama est considéré comme compétitif face à Codex, le modèle derrière GitHub Copilot.
  • Les utilisateurs sont enthousiastes quant au potentiel du modèle 34B Python quantifié en 4 bits.
  • Des questions subsistent sur les modèles de code embarqué capables de gérer des bases de code dépassant 100K tokens.
  • Le développement de ces modèles alimente les discussions sur d’éventuels changements dans les pratiques de programmation afin d’optimiser l’usage de ces outils.
  • Les utilisateurs s’intéressent à la possibilité de créer des grands modèles de langage spécialisés pour d’autres domaines, comme Rust, Linux, la génomique ou la modélisation physique, et de collaborer pour résoudre des problèmes.
  • Le meilleur modèle, Unnatural Code Llama, n’a pas encore été publié, peut-être parce qu’il risquerait d’enfreindre les conditions d’utilisation d’OpenAI.
  • Les utilisateurs comparent l’utilité d’outils comme Code Llama et Code Pilot à celle d’un usage direct de GPT-4.
  • Il y a aussi un intérêt pour la compréhension des exigences matérielles nécessaires à l’exécution de ces modèles, certains utilisateurs souhaitant les utiliser sans téléverser leur code source chez les géants de la tech.