2.5 时滞线性随机系统的零和博弈
在两人Nash博弈中,当一方的收益等于另一方的损失时,我们称该类博弈为零和博弈,此时两个博弈人的性能指标之和为零,用数学表达式描述即为J1[v(·)]=-J2[v(·)]。本节即研究具有此种收益结构的时滞线性随机系统的微分博弈问题。
2.5.1 问题描述
考虑下式描述的博弈系统:
其中φ∈C([-τ,0];Rn)为确定性函数,满足;wt为一维标准布朗运动;vit是取值于Ui的Ft-可测的变量,表示博弈人i的决策控制变量,为非空凸集,i=1,2,v(·)=[v1(·),v2(·)];τ>0为给定的有限的时间延迟;At,Ãt,B1t,B2t,D0t,D1t,D2t为具有适当维数的确定性矩阵;G为确定性对称矩阵,Qt为非负的确定性矩阵,Rit为正的确定性矩阵,i=1,2。
我们的问题是寻找容许控制[u1(·),u2(·)],使得下述不等式成立J[u1(·),v2(·)]≤J[u1(·),u2(·)]≤J[v1(·),u2(·)].
这样的[u1(·),u2(·)]称为博弈问题的一个鞍点。
2.5.2 主要结论
首先引入下述包含对称矩阵Pt,0≤t≤T的推广的广义Riccati方程
其中,
定理2.5 具有如下形式
的[u1(·),u2(·)]是博弈问题(2.46)的一个鞍点,当且仅当上述推广的广义Riccati方程(2.47)存在解Pt,0≤t≤T。
证明:定义哈密尔顿函数:
根据最大值原理知
即
其中(yt,zt)是下述伴随方程的解
由式(2.50)得最优控制
于是得到下述随机哈密尔顿系统
令
其中Pt=PΤt∈Rn×n是确定性函数矩阵。
对yt=Ptxt应用Itô公式,得
比较式(2.55)中扩散项的系数,得
将式(2.54)和(2.56)代入式(2.52)并经过简单的计算得
为符号上的简便,引入下列记号:
在上述记号下,式(2.55)可以化简为
式(2.57)可以简记为
由式(2.57)可得式(2.48)。
将式(2.48)代回式(2.58),从而得到式(2.47),证毕。□
注2.4 本节只研究了有限时间时滞随机系统的两人零和博弈问题,对于无限时间的零和博弈,相关结论可参考无限时间Nash博弈的结论推出。