时滞随机系统的微分博弈理论及应用
上QQ阅读APP看书,第一时间看更新

2.4 无限时间Nash博弈

2.4.1 问题描述

本节试图将上述有限时间的Nash微分博弈问题推广到无限时间。

考虑下式表示的两人微分博弈系统

这里φC([-τ,0];Rn)为确定性函数,满足wt为一维标准布朗运动;vit是取值于Ft-可测的变量,表示博弈人i的决策控制变量,i=1,2;τ>0为给定的有限的时间延迟;AÃB1B2CtD1D2为具有适当维数的常数矩阵。

J1[v(·)],J2[v(·)],v(·)=[v1(·),v2(·)]来表示博弈人ii=1,2各自对应的性能指标泛函

其中Qi=QΤi≥0∈Rn×ni=1,2。

我们的问题是寻找容许控制[u1(·),u2(·)],使得下述不等式成立

J1[u1(·),u2(·)]≤J1[v1(·),u2(·)],J2[u1(·),u2(·)]≤J2[u1(·),v2(·)].

这样的[u1(·),u2(·)]称为博弈问题的Nash均衡点。

2.4.2 主要结论

首先介绍无限时域随机最优控制中的一个重要概念——随机稳定性。

定义2.1[97] 随机受控系统是(均方意义下)随机稳定的,如果存在一个反馈控制ut=Kxt,使得对任意的初始值φ(0),闭环系统是渐近均方稳定的,即,其中K∈Rm×n为常数阵。

在本节中,我们将控制策略uit限定在形如uit=Fixt的线性状态反馈控制策略。

FN表示所有使得下述闭环随机系统

均方渐近稳定的(F1xt,…FNxt)构成的集合。

为了使得所研究的问题有意义,我们做出下述假设。

(A.2.3)假设系统(2.36)是随机稳定的。

类似于有限时间Nash博弈的结果,我们有如下结论。

定理2.4 在假设(A.2.3)成立的条件下,假设如下推广的Riccati方程存在对称的正定解P1P2Rn×n

其中

定义策略组(F*1xtF*2xt

则(F*1xtF*2xt)∈F2,且该策略组(F*1xtF*2xt)是博弈问题(2.34)和(2.35)的一个Nash均衡点。

证明:定义哈密尔顿函数

根据最大值原理知

其中(yitzit)是下述伴随方程的解

其中P1=PΤ1Rn×nP2=PΤ2Rn×n是常数矩阵。

y1t=P1xty2t=P2xt应用Itô公式,得

比较式(2.43)中扩散项的系数,得

将式(2.42)和(2.44)代入式(2.40),得最优控制

于是有

将式(2.45)代回上式,从而得到式(2.37),证毕。□