时滞随机系统的微分博弈理论及应用
上QQ阅读APP看书,第一时间看更新

1.2 国内外研究现状综述

1.2.1 国内外研究现状分析

(1)时滞随机系统理论研究方面:控制理论中存在一个重要的基础性问题,那就是稳定性研究。针对时滞系统的稳定性,许多学者进行了深入的研究。Mao等[46,47]、Chen等[48]、吴立刚等[49]利用矩阵范数、模型变换以及自由加权矩阵等方法,研究了一般的时滞随机系统的均方指数稳定性问题。由于近年关于时滞随机系统涉及许多自然和社会科学领域,其研究成果非常多,不可能在有限的篇幅内一一列举,而与本书研究密切相关的主要是时滞随机系统的最优控制问题(即单人博弈问题)及其对应问题的数值仿真算法问题,因此我们对文献的分析主要集中在这两个方面。在时滞随机系统最优控制的理论研究方面:Kolmanovsky和Maizenberg首次运用变分法研究了时滞随机系统的LQR(linear quadratic regulatory)问题[50];接着Kolmanovsky和Maizenberg运用“probabilistic delay averaging”方法研究了具有时变状态时滞的随机线性系统的最优控制,得到了独立于延时值(the delay value)形式的最优控制策略[51];Basin和Rodriguez-Gonzalez利用最大值原理讨论了具有状态延迟、控制延迟以及状态和控制都延迟的时变连续时滞随机系统的最优控制问题[41,42];Zhang等利用对偶法研究了多重输入延迟的离散系统的LQR问题,同时利用无限维系统理论和频域/时域分析法研究了多重输入延迟的连续系统的LQR问题[52];Song等研究了输入延迟的离散线性系统的LQR问题,通过将LQR问题转换为Hilbert空间中相应倒向随机模型的优化问题,借助于动态规划方法获得了系统的最优解[53];上述的研究成果都是针对时滞线性系统取得的,Elsanosi等[54]、Larssen[55]、Øksendal和Sulem[56]、Göllmann等[57]利用Pontryagin最大值或Bellman动态规划原理研究了时滞非线性系统的最优控制问题;这里值得特别提出的是,山东大学的彭实戈院士和其学生杨哲博士在参考文献[43]中引入了一类新型的被称为超前倒向随机微分方程(Anticipated backward stochastic differential equations,超前BSDE),该方程与时滞随机微分方程存在着一种对偶关系,通过对偶方法可以获得时滞随机系统的最大值原理;Chen和Wu在参考文献[43]的基础上,研究了状态、控制都延迟的时滞随机系统最优控制问题的最大值原理,得到了最优控制存在的充分必要条件,进一步给出了其在生产消费最优选择问题中的应用[44]。在时滞随机微分方程的数值仿真方面:Buckwar利用一步法(one-step methods)研究了时滞随机微分方程的数值求解算法,同时给出了数值仿真算例验证了算法的有效性[58];Mao和Sabanis在假设时滞随机微分方程满足局部Lipschitz条件下用Euler-Maruyama法给出了其数值求解算法[59];Karimi利用Haar小波技术给出了时滞系统有限时域线性最优控制策略的数值求解算法[60];Wang利用广义的分块脉冲函数和勒让德多项式技术研究了包含逆向时间函数的线性时滞系统,借助线性二次最优控制的相关结果给出了最优控制近似解的数值算法[61];Haddadi等运用分块脉冲函数和伯努利多项式的相关性质,研究了具有二次型性能指标泛函的线性时变时滞系统的最优控制问题,得到了控制策略的数值解法,并通过数值算例验证了结论的正确性[62]

可见关于时滞随机系统最优控制问题及其数值求解已经取得了比较丰富的成果,这为研究时滞随机系统微分博弈奠定了坚实基础。但目前关于时滞随机系统的微分博弈理论研究成果较少,因此特提出本书的研究。

(2)动态系统博弈理论研究方面:博弈理论的研究也已取得较丰富的成果,与本书有关的,主要是有状态方程作为约束的微分博弈理论,它主要包括零和博弈的鞍点均衡理论、非零和博弈的Nash均衡理论、Stackelberg均衡理论以及激励(Incentive)策略理论。针对正常系统(特别是正常线性系统),Basar和Olsder在专著中系统地总结了常微分方程和随机微分方程描述的动态非合作微分博弈理论及其应用成果(见参考文献[1]及其所引文献);Engwerda较系统地研究了如何处理由微分博弈而衍生出的Riccati方程等问题的数学技巧及对应均衡解的数值算法[63,64];随后,Engwerda讨论了奇异线性系统微分博弈问题的开环和反馈Nash均衡解问题[65,66];Dockner等介绍了非合作微分博弈及其在经济与管理科学中的应用[19];Erickson系统地介绍了广告竞争微分博弈模型[20],其中特别详细地介绍了Lanchester,Vidale-Wolfe等模型;JØrgensen和Zaccour则主要研究了市场营销中的微分博弈问题[21],介绍了微分博弈在定价、广告、营销渠道等领域中的应用;Yeung和Petrosyan系统地介绍了合作微分博弈理论及其在资源与环境经济学中的应用[67];有关微分博弈近些年的最新发展及热点研究方向见最新的两篇文献综述JØrgensen和Zaccour[68]与Buckdahn等[69]。在国内,张嗣瀛院士的专著《微分对策》[70]和李登峰的专著《微分对策及其应用》[71]可能是这方面最早的读物,但这两本书的重点是分析微分对策在典型的军事、控制问题上的应用,几乎没有涉及在经济与管理科学中的应用。雍炯敏教授在关于具有转换与脉冲策略的两人零和微分对策等方面发表过很有影响的论文[72],曾获得美国数学评论主编Berkovitz的高度评价。国内在微分博弈理论研究方面还有山东大学的李娟和吴臻在随机微分对策、重庆大学的张荣在基于自抗扰控制理论的微分对策均衡解、青岛大学的高红伟在动态合作对策、中南大学的年晓红在多体合作与对抗的微分对策、北航的周锐在利用神经网络计算微分对策、东北大学的宋崇辉在微分对策的数值解、复旦大学的许亚善在基于反馈策略的微分对策理论、中科院自动化所的魏庆来在零和微分对策等方面取得了值得关注的研究进展,部分研究成果发表在颇有影响的国际期刊上。在微分对策的应用方面,国内也已经有越来越多学者将微分博弈应用于期权定价、投资组合选择、渔业资源配置、广告竞争以及供应链、寡头竞争、具有网络外部性的动态定价等领域的研究中(见参考文献[73]及其所引文献)。综观国内外学者的研究成果可以发现:利用常微分方程和随机微分方程描述的LQ微分博弈取得较多高水平成果,而时滞随机系统的LQ微分博弈的成果则并不多见。

(3)时滞随机系统鲁棒控制理论研究方面:鲁棒控制是人们处理不确定性的基本方法之一。目前对线性系统的鲁棒控制理论已经进行了广泛的研究,取得了较丰富的成果,成果涉及了定常和时变系统、连续和离散及采样系统、时滞系统和互联系统等[74]。鲁棒控制从性能上可分为:H2鲁棒控制、H鲁棒控制、H2/H混合鲁棒控制。常使用的方法有频域设计方法[75,76]、Lyapunov方法(含LMI法)[77,78]、博弈论方法[22~29]。与本书相关的主要是博弈论方法,利用博弈论方法研究鲁棒性能控制器的开拓工作首先由Dorato等人于20世纪60年代给出[79],由于需要求解微分极小极大问题,故没有引起人们足够重视。随着博弈理论和计算技术的发展,从1990年起,这种设计思想被当作鲁棒设计的有力武器,其基本思想是将相应的鲁棒控制问题转化为鞍点均衡问题或Nash均衡问题,利用现有的线性系统博弈理论进行分析求解。代表性的工作有Basar和Limebeer等人的研究,Limebeer等人在研究线性系统的H鲁棒控制和混合H2/H鲁棒控制时,将其转化为两人博弈问题,通过求解鞍点均衡策略或Nash均衡策略得到了系统的最优鲁棒控制策略[22,23];Basar用博弈论方法详细讨论了线性系统鲁棒控制问题[80];接着,Chen和Zhang利用随机Nash博弈的相关结果将确定性线性系统的混合H2/H控制推广到了Itô线性随机系统[24];Savkin[81]和Amato[82]等还用微分博弈的最大最小极值方法研究了不确定系统的鲁棒H控制;Amato和Pironti则研究了不确定时滞系统的H控制问题[83]。但总体而言,对时滞随机系统鲁棒控制问题的研究,由于时滞系统所固有的时滞特性所带来的本质上的困难,同时也由于时滞随机系统没有形成像线性系统那样简单且易于实现的博弈均衡策略理论,时滞随机系统的鲁棒控制理论研究还不够深入,成果也不够丰富;特别是用博弈论方法研究时滞随机系统各种性能鲁棒控制的结果还不够完善。

(4)时滞随机系统应用领域方面的研究:时滞系统在工程领域的应用是比较多的,如电路信号系统、化工循环系统和电力系统等等[30,37]。而本项目主要关注其在社会经济领域内的应用,比较集中的应用领域有以下几点。①金融保险中风险资产定价问题(详见所依赖的社会经济问题之二);Zimbidis和Haberman研究了时滞和反馈对保险定价过程的综合影响。把时滞因子看作自由参数,得到了稳定性条件和反馈因子的优化条件,并且使用控制论的工具,得到了时滞因子的一个临界值,大于此值稳定性就和反馈因子的选择无关[14]。针对价格呈现几何Brown运动的资产,Grassia考虑了市场时滞和投资反馈的影响,改进了基本的Brown运动模型,研究了金融市场中的时滞、反馈和遏制现象。当投资反馈足够大时,资本市场的动力学从缓慢的随机游动变为快变不稳定性态。但是投资者出于自身利益考虑,会放弃即将崩溃的市场,或者涌向繁荣的市场而使之饱和,使得不稳定的失控性态受到遏制,这种遏制将足以保证资产价格在一段时期内有界[35]。②多部门固定资产投入产出模型(详细描述见社会经济需求分析中的①)[4~6]。③在动态商业周期分析领域,周路军在几类商业周期扩展模型的基础上,考虑到商业周期模型中存在时间延滞(资本积累方程中存在时滞或税收收入中存在时滞,时滞有可能是离散的固定时滞也有可能是指数分布时滞),通过运用Routh-Hurwith规则、稳定性切换定理、Horp分岔理论等探讨了时滞对经济系统的影响[84]等通过引入一个时滞τ进入Kaldor商业周期模型中分析了Kaldor-Kalecki模型[85];De Cesare和Sportelli探索了收入时滞的影响,通过形成时滞微分方程,证明了正则性经济周期的存在[86];Fanti和Manfredi[87]基于IS-LM加速数模型,探索了税收收入中指数分布时滞对经济的动态影响;Zhou和Li研究了资本积累和投资过程中存在时滞效应时的IS-LM模型,证明了时滞是导致均衡点失去或获得局部稳定及Horp分岔的原因[88,89]

1.2.2 国内外研究发展趋势分析

上述国内外学者在该领域的相关研究成果呈现以下几个特点和发展趋势。

特点1:对社会经济系统中实际问题的描述和建模由以前的一般随机系统模型,更多地呈现出用更接近现实的时滞随机系统建模。

特点2:时滞随机系统的LQ最优控制问题(即对应系统的单人微分博弈Nash均衡问题)已经取得比较丰富的结果。但对应系统的多人LQ微分博弈理论则还没有成熟而系统化的成果。

趋势2:时滞随机系统的鲁棒控制研究是当前尚需研究的重要领域,而用博弈论方法研究鲁棒控制问题已成为重要的方法之一,从而用时滞随机系统的博弈理论研究相应系统的鲁棒控制问题是新的研究方向。