15.3.5 RLHF中的PPO算法——损失函数