2.4 无限时间Nash博弈_时滞随机系统的微分博弈理论及应用-QQ阅读男生历史网

时滞随机系统的微分博弈理论及应用

上QQ阅读APP看书，第一时间看更新

上一章目录下一章

2.4 无限时间Nash博弈

2.4.1 问题描述

本节试图将上述有限时间的Nash微分博弈问题推广到无限时间。

考虑下式表示的两人微分博弈系统

这里φ∈C（[-τ，0]；Rⁿ）为确定性函数，满足；w_t为一维标准布朗运动；vⁱ_t是取值于的F_t-可测的变量，表示博弈人i的决策控制变量，i=1，2；τ＞0为给定的有限的时间延迟；A，Ã，B₁，B₂，C_t，D₁，D₂为具有适当维数的常数矩阵。

以J¹[v（·）]，J²[v（·）]，v（·）=[v¹（·），v²（·）]来表示博弈人i，i=1，2各自对应的性能指标泛函

其中Q_i=Q^Τ_i≥0∈R^n×n，，i=1，2。

我们的问题是寻找容许控制[u¹（·），u²（·）]，使得下述不等式成立

J¹[u¹（·），u²（·）]≤J¹[v¹（·），u²（·）]，J²[u¹（·），u²（·）]≤J²[u¹（·），v²（·）].

这样的[u¹（·），u²（·）]称为博弈问题的Nash均衡点。

2.4.2 主要结论

首先介绍无限时域随机最优控制中的一个重要概念——随机稳定性。

定义2.1^[97] 随机受控系统是（均方意义下）随机稳定的，如果存在一个反馈控制u_t=Kx_t，使得对任意的初始值φ（0），闭环系统是渐近均方稳定的，即，其中K∈R^m×n为常数阵。

在本节中，我们将控制策略uⁱ_t限定在形如uⁱ_t=F_ix_t的线性状态反馈控制策略。

用F_N表示所有使得下述闭环随机系统

均方渐近稳定的（F₁x_t，…F_Nx_t）构成的集合。

为了使得所研究的问题有意义，我们做出下述假设。

（A.2.3）假设系统（2.36）是随机稳定的。

类似于有限时间Nash博弈的结果，我们有如下结论。

定理2.4 在假设（A.2.3）成立的条件下，假设如下推广的Riccati方程存在对称的正定解P₁，P₂∈R^n×n

其中。

定义策略组（F*₁x_t，F*₂x_t）

则（F*₁x_t，F*₂x_t）∈F2，且该策略组（F*₁x_t，F*₂x_t）是博弈问题（2.34）和（2.35）的一个Nash均衡点。

证明：定义哈密尔顿函数：

根据最大值原理知

即

其中（yⁱ_t，zⁱ_t）是下述伴随方程的解

令

其中P₁=P^Τ₁∈R^n×n，P₂=P^Τ₂∈R^n×n是常数矩阵。

对y¹_t=P₁x_t和y²_t=P₂x_t应用Itô公式，得

比较式（2.43）中扩散项的系数，得

将式（2.42）和（2.44）代入式（2.40），得最优控制

于是有

将式（2.45）代回上式，从而得到式（2.37），证毕。□

上一章目录下一章