- Premier challenge communautaire open source au monde où les utilisateurs évaluent les modèles téléversés
- Début de la saison 1, épisode 1, le 10 juin, avec 250 k$ de récompenses sur 12 semaines
- Mode de compétition
- Publication en open source de Chai Reward Model (GPT-2), entraîné directement sur 170 millions de signaux générés par les utilisateurs
- Ce modèle peut être utilisé pour l’évaluation hors ligne ou intégré comme composant d’un pipeline RLHF
- L’entraînement de modèles de langage étant coûteux, divers modèles de base seront testés afin que tout le monde puisse participer au concours
- Pour les modèles téléversés, un AI Safety Classifier interne vérifie s’ils peuvent être déployés, puis ils sont rendus publics pour des tests A/B auprès des utilisateurs
- Évaluation par plus d’environ 1 million d’utilisateurs réels
1 commentaires
L’image de Llama fusionné façon Super Saiyan est assez marquante.