15.3.5 RLHF中的PPO算法——损失函数_从零开始大模型开发与微调：基于PyTorch与ChatGLM-QQ阅读男生历史网