深度强化学习理论与实践
上QQ阅读APP看书,第一时间看更新

7.3 蒙特卡罗策略梯度算法(REINFORCE)