本研究系统性地提出了一套 Reward Model(RM)评估与挑选策略,以支持构建高质量偏好数据集,并提高 DPO / online DPO 的训练效果。评估方式分为直接评估与间接评估两大类,后者更强调与具体 policy model 的匹配性与实用性。
因此,我们提出多种间接评估策略,结合主流大模型评测指标,更贴近实际训练与应用场景。