1.3.3 在线（On-policy）算法和离线（Off-policy）算法_深度强化学习算法与实践：基于PyTorch的实现-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.3.3 在线（On-policy）算法和离线（Off-policy）算法

由于深度强化学习算法需要对智能体的状态、动作和获得的奖励进行采样，因此需要采集数据。根据采集数据训练的方法不同，我们把算法分为在线算法和离线算法两种。

在线算法典型的就是基于策略梯度神经网络的算法，在训练的同时，策略因为训练会不断发生改变，需要对改变的策略进行重新采样，这样按照不断改变的策略进行采样，即为在线采样的一种。而很多价值神经网络的训练是基于离线的算法。通过固定的策略对环境进行采样后的结果，在离线算法中可以直接用来对模型进行训练，让模型能够学习到价值函数。

本周热推：

Spring：Microservices with Spring Boot Web开发的贵族：ASP.NET 3.5+SQL Server 2008 详解MATLAB图形绘制技术深入解析WPF编程 TypeScript全栈开发