4.2.3 基于激励的无限策略选择