上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.3.3 马尔可夫博弈
马尔可夫博弈(Markov Game)[50-51]也称为随机博弈,它是马尔可夫决策过程在多用户场景中的扩展。一个马尔可夫博弈可以表示为G={S,A1,…,AN, f,r1,…,rN},其中,N表示智能体的数量,S表示状态空间,An,n=1,…,N表示智能体n的策略集(此处策略为可用信道), f 表示状态转移概率函数,rn,n=1,…,N 表示用户n的回报函数。马尔可夫博弈可以表征环境的动态变化特性,它提供了一种可在信道状态下动态变化的场景中进行决策优化的数学架构。
可根据效用函数的设计,刻画博弈参与者之间的协作和竞争关系。根据回报函数的特征可分为完全协作、完全竞争以及混合模型[52,86]。在完全协作的马尔可夫博弈中,所有智能体具有相同的回报函数,即回报函数满足r1=…=rn,此时所有智能体有相同的优化目标。在完全竞争的模型中,以两个智能体为例,回报函数满足r1=-r2,此时智能体具有完全相反的优化目标。在混合模型中,对智能体的回报函数没有限制条件,它既不是完全协作,也不是完全竞争。通常,采用多智能体强化学习方法求解马尔可夫博弈问题,对于状态空间比较大的场景,可采用多智能体深度强化学习方法进行求解。