Un projet open source qui vise la note maximale à l’épreuve de coréen du CSAT grâce au prompt engineering
(github.com/NomaDamas)- Le score de GPT-4 à l’épreuve de coréen du CSAT, auparavant de niveau 3 (86 points, top 22 %), a été amélioré au niveau 2 (94 points, top 5 %) grâce au prompt engineering basé sur la CoT.
- En utilisant des prompts spécialisés pour certains types de questions de grammaire, le modèle a même atteint au mieux le niveau 1 (96 points, top 4 %).
- Le texte complet des prompts, le code source et le jeu de données de coréen du CSAT utilisé ont été publiés en open source sur GitHub.
- C’est un exemple montrant que, malgré la réputation encore insuffisante des LLM en coréen, GPT-4 a déjà atteint un niveau de compétence linguistique parmi les meilleurs.
Bonjour. J’ai moi-même utilisé des prompts CoT pour amener GPT-4 à résoudre remarquablement bien l’épreuve de coréen du CSAT.
Je n’ai pas encore trouvé de prompt permettant d’atteindre le top 5 % supérieur de façon stable jusqu’à 100 points, et en raison du coût de l’API je n’ai pu tester que le CSAT 2023. C’est pourquoi je publie ce travail en open source afin de solliciter l’aide de nombreux contributeurs. J’espère que beaucoup pourront utiliser librement le code source publié pour tester de nouveaux prompts et découvrir des techniques de prompting encore plus avancées !
7 commentaires
Projet intéressant~
Et si, au lieu d’aborder cela comme une question à choix multiples à 5 options où il faut en sélectionner une, on le traitait comme un problème de classification en considérant chaque proposition séparément en True / False ?
On peut faire en sorte qu’avec du CoT, chaque proposition soit jugée indépendamment comme vraie ou fausse, puis construire des agents qui examinent les 5 raisonnements ainsi produits avant de prendre la décision finale. De cette manière, on peut obtenir des résultats de meilleure qualité même avec un modèle moins performant.
La méthode que vous avez mise en place évalue actuellement à partir de la proposition 1, ce qui fait qu’un biais préalable sur les propositions précédentes s’ajoute lorsqu’il faut évaluer les suivantes. L’une des raisons pour lesquelles GPT-4 est impressionnant, c’est qu’à mesure que le modèle devient suffisamment grand, ce type de biais préalable l’influence moins. Mais il me semble aussi avoir lu dans un article que cet effet diminue lorsque le texte support devient plus long.
(C’était un article arXiv non relu par les pairs, mais le propos restait assez plausible.)
Bien sûr, le coût API serait multiplié par 6, mais à mon avis, avec un bon prompting, un GPT-3.5 devrait déjà être largement suffisant pour le niveau du français du CSAT coréen.
Comme vous l’avez dit, si on évalue les cinq options indépendamment, on se retrouve parfois avec deux bonnes réponses, voire aucune. Dans ce cas, il faut ajouter un prompt supplémentaire pour réexaminer chaque réponse correcte et son explication avant de trancher.
Ou bien, on pourrait essayer plusieurs fois le prompt pour chacune des cinq propositions et considérer comme bonne réponse celle qui est sélectionnée le plus souvent, mais comme vous l’avez dit, le coût de l’API risque alors d’enfler comme une boule de neige ;; même avec le prompt actuel, une seule tentative complète du CSAT coûte déjà entre 4 et 5 dollars T_T
Bienvenue dans le monde de l’ingénierie, où il faut aussi réfléchir à la réduction des coûts lol
Le nom, c’est « Évaluateur Slayer », hahaha.
Waouh, c'est fascinant.
Depuis
Step by step, on sent que le prompt engineering progresse énormément.(Et je me demande aussi s'il pourra exister un LLM open source avec un niveau de coréen comparable à celui de GPT-4....)
Les LLM open source en coréen sont encore loin d’arriver ne serait-ce qu’au niveau de GPT-3.5 T_T J’espère vraiment que les LLM open source atteindront un jour le niveau de GPT-4.