一、如何评估和挑选 Reward Model(RM)

本研究系统性地提出了一套 Reward Model(RM)评估与挑选策略,以支持构建高质量偏好数据集,并提高 DPO / online DPO 的训练效果。评估方式分为直接评估与间接评估两大类,后者更强调与具体 policy model 的匹配性与实用性。


1. 直接评估方法:基于 RewardBench 的准确率评测

因此,我们提出多种间接评估策略,结合主流大模型评测指标,更贴近实际训练与应用场景。


2. 间接评估方法总览:基于评测指标间接衡量 RM 效果


3. 方法一:对同一模型生成的多个响应进行 RM 筛选,看评测指标是否提升


4. 方法二:跨模型打分,看 RM 能否区分模型能力差异