从零开始大模型开发与微调:基于PyTorch与ChatGLM
上QQ阅读APP看书,第一时间看更新

13.2 强化学习的基本算法——PPO算法