时滞随机系统的微分博弈理论及应用
上QQ阅读APP看书,第一时间看更新

2.3 有限时间Nash博弈

2.3.1 问题描述

本节研究有限时间时滞随机系统的线性二次Nash微分博弈问题。简单起见,我们假设布朗运动为一维的,且只考虑两个博弈参与人,n个博弈参与人的情形可类似地得到。

受控系统为

这里φC([-τ,0];Rn)为确定性函数,满足wt为一维标准布朗运动;vit是取值于UiFt-可测的变量,表示博弈人i的决策控制变量,为非空凸集,i=1,2;τ>0为给定的有限的时间延迟;AtÃtB1tB2tCtD1tD2t为具有适当维数的Ft-适应的矩阵值有界过程。

J1[v1(·),v2(·)],J2[v1(·),v2(·)]来表示博弈人ii=1,2各自对应的性能指标泛函

其中GiFT-可测非负有界对称矩阵,QitFt-适应的非负有界矩阵值过程,RitFt-适应的正的有界矩阵值过程且(Rit-1也有界,i=1,2。

我们的问题是寻找容许控制[u1(·),u2(·)],使得下述不等式成立

J1[u1(·),u2(·)]≤J1[v1(·),u2(·)],J2[u1(·),u2(·)]≤J2[u1(·),v2(·)].这样的[u1(·),u2(·)]称为博弈问题的Nash均衡点。

2.3.2 主要结论

定理2.3 [u1(·),u2(·)]为上述博弈问题(2.26)和(2.27)的一个Nash均衡点,当且仅当[u1(·),u2(·)]取下述形式

其中(P1tΛ1t)和(P2tΛ2t)为如下推广的随机Riccati方程的解

其中

证明:由Nash均衡点的定义及定理2.1,我们可知[u1(·),u2(·)]是博弈问题的一个Nash均衡点等价于ui(·)为如下控制问题的最优策略

指标泛函为

其中j=1,2,ji

注意到指标泛函(2.31)在形式上与定理2.1中的J[v(·)]是一致的,将定理2.1中的,得

uit=[Rit+(DitΤPitDit]-1[(BitΤPit+(DitΤPitCit+(DitΤΛit]xtt∈[0,T].

式中的Cit=Ct+Djtujt。定理2.3证毕。□

推广的随机Riccati方程(2.29)的解是一个二元组(PitΛit),Λit的出现则保证了状态方程(2.26)的系数矩阵AtÃtBtCtDt为随机过程时得到一个Ft-适应解。而当各系数矩阵都是确定性的,则有如下的确定性Riccati方程

推论2.1 假设所有的系数矩阵AtÃtBtCtDt都是确定性的,则用式(2.32)替代式(2.29)后定理2.3仍然成立。此外,

是博弈问题(2.26)和(2.27)的一个Nash均衡点。

注2.3 推广的随机Riccati方程(2.29)看起来非常复杂,其解的存在唯一性不易得到。但是,如果它有唯一解,则博弈问题(2.26)和(2.27)也有唯一的Nash均衡点。