15.2.2 RLHF中的具体实现——PPO算法_从零开始大模型开发与微调：基于PyTorch与ChatGLM-QQ阅读男生历史网