2 points par GN⁺ 2023-08-26 | 1 commentaires | Partager sur WhatsApp
  • CodeLlama-34B et CodeLlama-34B-Python ont été affinés sur le jeu de données interne de Phind, atteignant respectivement un pass@1 de 67,6 % et 69,5 % sur HumanEval, dépassant les 67 % de GPT-4
  • Les modèles CodeLlama publiés récemment ont montré des performances impressionnantes sur HumanEval : CodeLlama-34B a atteint un pass@1 de 48,8 %, et CodeLlama-34B-Python un pass@1 de 53,7 %
  • Les deux modèles ont été affinés sur un jeu de données propriétaire comprenant environ 80k problèmes de programmation de haute qualité et leurs solutions, structurellement différent de HumanEval car il met l’accent sur des paires instruction-réponse plutôt que sur des exemples de complétion de code
  • Les modèles ont été entraînés pendant deux époques sur un total de 160k exemples en utilisant DeepSpeed ZeRO 3 et Flash Attention 2, sur 32 GPU A100-80GB avec une longueur de séquence de 4096 tokens pendant trois heures
  • La méthodologie de décontamination d’OpenAI a été appliquée au jeu de données pour garantir la validité des résultats, et aucun exemple contaminé n’a été trouvé. Cette méthodologie consiste à échantillonner aléatoirement trois sous-chaînes de 50 caractères dans chaque exemple d’évaluation, ou à utiliser l’exemple entier si celui-ci contient moins de 50 caractères, puis à identifier une correspondance si l’une des sous-chaînes échantillonnées apparaît comme sous-chaîne dans un exemple d’entraînement traité.
  • Les modèles affinés ont obtenu sur HumanEval un score pass@1 de 67,6 % pour Phind-CodeLlama-34B-v1 et de 69,5 % pour Phind-CodeLlama-34B-Python-v1
  • Les deux modèles sont publiés sur Huggingface afin de garantir la vérifiabilité et de soutenir la communauté open source, et une vérification indépendante des résultats est encouragée

1 commentaires

 
alstjr7375 2023-08-27