2.5 时滞线性随机系统的零和博弈_时滞随机系统的微分博弈理论及应用-QQ阅读男生历史网

时滞随机系统的微分博弈理论及应用

上QQ阅读APP看书，第一时间看更新

上一章目录下一章

2.5 时滞线性随机系统的零和博弈

在两人Nash博弈中，当一方的收益等于另一方的损失时，我们称该类博弈为零和博弈，此时两个博弈人的性能指标之和为零，用数学表达式描述即为J¹[v（·）]=-J²[v（·）]。本节即研究具有此种收益结构的时滞线性随机系统的微分博弈问题。

2.5.1 问题描述

考虑下式描述的博弈系统：

其中φ∈C（[-τ，0]；Rⁿ）为确定性函数，满足；w_t为一维标准布朗运动；vⁱ_t是取值于U_i的F_t-可测的变量，表示博弈人i的决策控制变量，为非空凸集，i=1，2，v（·）=[v¹（·），v²（·）]；τ＞0为给定的有限的时间延迟；A_t，Ã_t，B¹_t，B²_t，D⁰_t，D¹_t，D²_t为具有适当维数的确定性矩阵；G为确定性对称矩阵，Q_t为非负的确定性矩阵，Rⁱ_t为正的确定性矩阵，i=1，2。

我们的问题是寻找容许控制[u¹（·），u²（·）]，使得下述不等式成立J[u¹（·），v²（·）]≤J[u¹（·），u²（·）]≤J[v¹（·），u²（·）].

这样的[u¹（·），u²（·）]称为博弈问题的一个鞍点。

2.5.2 主要结论

首先引入下述包含对称矩阵P_t，0≤t≤T的推广的广义Riccati方程

其中，

定理2.5 具有如下形式

的[u¹（·），u²（·）]是博弈问题（2.46）的一个鞍点，当且仅当上述推广的广义Riccati方程（2.47）存在解P_t，0≤t≤T。

证明：定义哈密尔顿函数：

根据最大值原理知

即

其中（y_t，z_t）是下述伴随方程的解

由式（2.50）得最优控制

于是得到下述随机哈密尔顿系统

令

其中P_t=P^Τ_t∈R^n×n是确定性函数矩阵。

对y_t=P_tx_t应用Itô公式，得

比较式（2.55）中扩散项的系数，得

将式（2.54）和（2.56）代入式（2.52）并经过简单的计算得

为符号上的简便，引入下列记号：

在上述记号下，式（2.55）可以化简为

式（2.57）可以简记为

由式（2.57）可得式（2.48）。

将式（2.48）代回式（2.58），从而得到式（2.47），证毕。□

注2.4 本节只研究了有限时间时滞随机系统的两人零和博弈问题，对于无限时间的零和博弈，相关结论可参考无限时间Nash博弈的结论推出。

上一章目录下一章