2.3 有限时间Nash博弈
2.3.1 问题描述
本节研究有限时间时滞随机系统的线性二次Nash微分博弈问题。简单起见,我们假设布朗运动为一维的,且只考虑两个博弈参与人,n个博弈参与人的情形可类似地得到。
受控系统为
这里φ∈C([-τ,0];Rn)为确定性函数,满足;wt为一维标准布朗运动;vit是取值于Ui的Ft-可测的变量,表示博弈人i的决策控制变量,为非空凸集,i=1,2;τ>0为给定的有限的时间延迟;At,Ãt,B1t,B2t,Ct,D1t,D2t为具有适当维数的Ft-适应的矩阵值有界过程。
以J1[v1(·),v2(·)],J2[v1(·),v2(·)]来表示博弈人i,i=1,2各自对应的性能指标泛函
其中Gi为FT-可测非负有界对称矩阵,Qit为Ft-适应的非负有界矩阵值过程,Rit为Ft-适应的正的有界矩阵值过程且(Rit)-1也有界,i=1,2。
我们的问题是寻找容许控制[u1(·),u2(·)],使得下述不等式成立
J1[u1(·),u2(·)]≤J1[v1(·),u2(·)],J2[u1(·),u2(·)]≤J2[u1(·),v2(·)].这样的[u1(·),u2(·)]称为博弈问题的Nash均衡点。
2.3.2 主要结论
定理2.3 [u1(·),u2(·)]为上述博弈问题(2.26)和(2.27)的一个Nash均衡点,当且仅当[u1(·),u2(·)]取下述形式
其中(P1t,Λ1t)和(P2t,Λ2t)为如下推广的随机Riccati方程的解
其中。
证明:由Nash均衡点的定义及定理2.1,我们可知[u1(·),u2(·)]是博弈问题的一个Nash均衡点等价于ui(·)为如下控制问题的最优策略
指标泛函为
其中j=1,2,j≠i。
注意到指标泛函(2.31)在形式上与定理2.1中的J[v(·)]是一致的,将定理2.1中的,得
uit=[Rit+(Dit)ΤPitDit]-1[(Bit)ΤPit+(Dit)ΤPitCit+(Dit)ΤΛit]xt,t∈[0,T].
式中的Cit=Ct+Djtujt。定理2.3证毕。□
推广的随机Riccati方程(2.29)的解是一个二元组(Pit,Λit),Λit的出现则保证了状态方程(2.26)的系数矩阵At,Ãt,Bt,Ct,Dt为随机过程时得到一个Ft-适应解。而当各系数矩阵都是确定性的,则有如下的确定性Riccati方程
推论2.1 假设所有的系数矩阵At,Ãt,Bt,Ct,Dt都是确定性的,则用式(2.32)替代式(2.29)后定理2.3仍然成立。此外,
是博弈问题(2.26)和(2.27)的一个Nash均衡点。
注2.3 推广的随机Riccati方程(2.29)看起来非常复杂,其解的存在唯一性不易得到。但是,如果它有唯一解,则博弈问题(2.26)和(2.27)也有唯一的Nash均衡点。