2.4 无限时间Nash博弈
2.4.1 问题描述
本节试图将上述有限时间的Nash微分博弈问题推广到无限时间。
考虑下式表示的两人微分博弈系统
这里φ∈C([-τ,0];Rn)为确定性函数,满足;wt为一维标准布朗运动;vit是取值于的Ft-可测的变量,表示博弈人i的决策控制变量,i=1,2;τ>0为给定的有限的时间延迟;A,Ã,B1,B2,Ct,D1,D2为具有适当维数的常数矩阵。
以J1[v(·)],J2[v(·)],v(·)=[v1(·),v2(·)]来表示博弈人i,i=1,2各自对应的性能指标泛函
其中Qi=QΤi≥0∈Rn×n,,i=1,2。
我们的问题是寻找容许控制[u1(·),u2(·)],使得下述不等式成立
J1[u1(·),u2(·)]≤J1[v1(·),u2(·)],J2[u1(·),u2(·)]≤J2[u1(·),v2(·)].
这样的[u1(·),u2(·)]称为博弈问题的Nash均衡点。
2.4.2 主要结论
首先介绍无限时域随机最优控制中的一个重要概念——随机稳定性。
定义2.1[97] 随机受控系统是(均方意义下)随机稳定的,如果存在一个反馈控制ut=Kxt,使得对任意的初始值φ(0),闭环系统是渐近均方稳定的,即,其中K∈Rm×n为常数阵。
在本节中,我们将控制策略uit限定在形如uit=Fixt的线性状态反馈控制策略。
用FN表示所有使得下述闭环随机系统
均方渐近稳定的(F1xt,…FNxt)构成的集合。
为了使得所研究的问题有意义,我们做出下述假设。
(A.2.3)假设系统(2.36)是随机稳定的。
类似于有限时间Nash博弈的结果,我们有如下结论。
定理2.4 在假设(A.2.3)成立的条件下,假设如下推广的Riccati方程存在对称的正定解P1,P2∈Rn×n
其中。
定义策略组(F*1xt,F*2xt)
则(F*1xt,F*2xt)∈F2,且该策略组(F*1xt,F*2xt)是博弈问题(2.34)和(2.35)的一个Nash均衡点。
证明:定义哈密尔顿函数:
根据最大值原理知
即
其中(yit,zit)是下述伴随方程的解
令
其中P1=PΤ1∈Rn×n,P2=PΤ2∈Rn×n是常数矩阵。
对y1t=P1xt和y2t=P2xt应用Itô公式,得
比较式(2.43)中扩散项的系数,得
将式(2.42)和(2.44)代入式(2.40),得最优控制
于是有
将式(2.45)代回上式,从而得到式(2.37),证毕。□