时滞随机系统的微分博弈理论及应用
上QQ阅读APP看书,第一时间看更新

2.5 时滞线性随机系统的零和博弈

在两人Nash博弈中,当一方的收益等于另一方的损失时,我们称该类博弈为零和博弈,此时两个博弈人的性能指标之和为零,用数学表达式描述即为J1[v(·)]=-J2[v(·)]。本节即研究具有此种收益结构的时滞线性随机系统的微分博弈问题。

2.5.1 问题描述

考虑下式描述的博弈系统:

其中φC([-τ,0];Rn)为确定性函数,满足wt为一维标准布朗运动;vit是取值于UiFt-可测的变量,表示博弈人i的决策控制变量,为非空凸集,i=1,2,v(·)=[v1(·),v2(·)];τ>0为给定的有限的时间延迟;AtÃtB1tB2tD0tD1tD2t为具有适当维数的确定性矩阵;G为确定性对称矩阵,Qt为非负的确定性矩阵,Rit为正的确定性矩阵,i=1,2。

我们的问题是寻找容许控制[u1(·),u2(·)],使得下述不等式成立J[u1(·),v2(·)]≤J[u1(·),u2(·)]≤J[v1(·),u2(·)].

这样的[u1(·),u2(·)]称为博弈问题的一个鞍点。

2.5.2 主要结论

首先引入下述包含对称矩阵Pt,0≤tT的推广的广义Riccati方程

其中

定理2.5 具有如下形式

的[u1(·),u2(·)]是博弈问题(2.46)的一个鞍点,当且仅当上述推广的广义Riccati方程(2.47)存在解Pt,0≤tT

证明:定义哈密尔顿函数

根据最大值原理知

其中(ytzt)是下述伴随方程的解

由式(2.50)得最优控制

于是得到下述随机哈密尔顿系统

其中Pt=PΤtRn×n是确定性函数矩阵。

yt=Ptxt应用Itô公式,得

比较式(2.55)中扩散项的系数,得

将式(2.54)和(2.56)代入式(2.52)并经过简单的计算得

为符号上的简便,引入下列记号:

在上述记号下,式(2.55)可以化简为

式(2.57)可以简记为

由式(2.57)可得式(2.48)。

将式(2.48)代回式(2.58),从而得到式(2.47),证毕。□

注2.4 本节只研究了有限时间时滞随机系统的两人零和博弈问题,对于无限时间的零和博弈,相关结论可参考无限时间Nash博弈的结论推出。