4.1 Seq2Seq中的强化学习知识