4.2.2 训练奖励模型的原理