3.3 从泛函到变分法
作为数学分析的一个分支,变分法(calculus of variations)在物理学、经济学以及信息技术等诸多领域都有着广泛而重要的应用。变分法是研究依赖于某些未知函数的积分型泛函极值的普遍方法。换句话说,求泛函极值的方法就是变分法。
3.3.1 理解泛函的概念
变分法是现代泛函分析理论的重要组成部分,但变分法却是先于泛函理论建立的。因此,即使不过深地涉及泛函分析的相关内容,也可展开对变分法的学习。而在前面介绍的有关抽象空间的内容上来讨论泛函的概念将是非常方便的。
定义 设X和Y是两个给定的线性赋范空间,并有集合⊂X。若对于中的每一个元素x,均对应于Y中的一个确定的元素y,就说这种对应关系确定了一个算子。算子通常用大写字母T,A,…表示,记为y=Tx或y=T(x)。y称为x的象,x称为y的原象。集合称为算子T的定义域,常记为(T);而集合(T)={y∈Y;y=Tx,x∈(T)}称为算子T的值域。对于算子T,常用下述记号T:XY,读作“T是由X到Y的算子”。但应注意这种表示方法并不意味着(T)=X及(T)=Y。
当X和Y都是实数域时,T就是微积分中的函数。因此,算子是函数概念的推广,但是算子这个概念要比函数更抽象,也更复杂。
设X为实(或复)线性赋范空间,则由X到实(或复)数域的算子称为泛函。例如,若x(t)是任意一个可积函数x(t)∈L2[a,b],则其积分
就是一个定义在L1[a,b]上的泛函,而且是线性的
还是有界的
需要说明的是,此处所讨论的仅限于实数范围内的泛函。
如果把上述泛函定义中的线性赋范空间局限于函数空间,那么也可以从另外一个角度来理解此处所要讨论的泛函。
把具有某种共同性质的函数构成的集合称为函数类,记作F。对于函数类F中的每一个函数y(x),在ℝ中变量都有一个确定的数值按照一定的规律与之相对应,则称为函数y(x)的泛函,记作=[y(x)]或者=[y]。函数y(x)称为泛函的宗量。函数类F称为泛函的定义域。可以这样理解,泛函是以函数类为定义域的实值函数。为了与普通函数相区别,泛函所依赖的函数用方括号括起来。
由泛函的定义可知,泛函的值是数,其自变量是函数,而函数的值与其自变量都是数,所以泛函是变量与函数的对应关系,它是一种广义上的函数。而函数是变量与变量的对应关系,这是泛函与函数的基本区别。此外还应当意识到,泛函的值既不取决于自变量x的某个值,也不取决于函数y(x)的某个值,而是取决于函数类F中y与x的函数关系。
由于一元函数在几何上是由曲线来表示的,因此它的泛函也可以称为是曲线函数。类似地,二元函数在几何上的表现形式通常都是曲面,因此它的泛函也可以称为是曲面函数。如果x是多维域(x1,x2,…,xn)上的变量时,以上定义的泛函也适用。此时,泛函记为=[u(x1,x2,…,xn)]。同时也可以定义依赖于多个未知函数的泛函,记为=[y1(x),y2(x),…,ym(x)]。其中,y1(x),y2(x),…,ym(x)都是独立变化的。还有泛函记为=[y1(x1,x2,…,xn),y2(x1,x2,…,xn),…,ym(x1,x2,…,xn)],同样要求y1(x1,x2,…,xn),y2(x1,x2,…,xn),…,ym(x1,x2,…,xn)也都是独立变化的。这就表示该泛函的定义依赖于多个未知函数,且每个未知函数又依赖于多维变量。
设已知函数F(x,y(x),y′(x))是由定义在区间[x0,x1]上的三个独立变量x,y(x),y′(x)所共同确定的,并且是二阶连续可微的,则泛函
称为最简单的积分型泛函,或简称为最简泛函。被积函数F称为泛函的核。
同理,还可以定义变量函数为二元函数u(x,y)时的泛函为
其中,ux=∂u/∂x,uy=∂u/∂y。
此处所讨论的部分主要是古典变分法的内容。它所研究的主要问题可以归结为:在适当的函数类中选择一个函数使得类似于上述形式的积分取得最值。而解决这一问题又归结为求解欧拉-拉格朗日方程。这看起来并非一个多么复杂的问题,而且方法似乎也平常无奇。但依靠这种方法却惊异地发现原来自然世界中许多千差万别的问题居然能够使用统一的数学程序来求解,而且奇妙的变分原理还可以用来解释无数的自然规律。在3.3.2节中,将从最简泛函开始导出欧拉-拉格朗日方程。
3.3.2 变分的概念
已知一个函数在某一点处取极值,那么函数在该点处的导数(如果存在)必为零。那么要考虑一个泛函的极值问题,就不妨参照函数求极值的思想引入一个类似的概念,为此需引入变分的概念,这也是得出欧拉-拉格朗日方程的关键所在。
对于任意定值x∈[x0,x1],可取函数y(x)与另一个可取函数y0(x)之差称为函数y(x)在y0(x)处的变分,记作δy,δ称为变分符号,此时有
δy=y(x)-y0(x)=εη(x)
其中,ε是一个参数,η(x)为x的任意函数。由于可取函数都通过区间的端点,即它们在区间的端点值都相等,因此在区间的端点,任意函数η(x)满足
η(x0)=η(x1)=0
因为可取函数y(x)是泛函[y(x)]的宗量,故也可以这样定义变分:泛函的宗量y(x)与另一宗量y0(x)之差y(x)-y0(x)称为宗量y(x)在y0(x)处的变分。
上述变分的定义也可以推广到多元函数的情形。
显然,函数y(x)的变分δy是x的函数。注意,函数变分δy与函数增量Δy的区别。函数的变分δy是两个不同函数y(x)与y0(x)在自变量x取固定值时的差αη(x),函数发生了改变;函数的增量Δy是由于自变量x取了一个增量而使得函数y(x)产生的增量,函数仍然是原来的函数。
如果函数y(x)与另一函数y0(x)都可导,则函数的变分δy有如下性质
δy′=y′(x)-y′0(x)=[y(x)-y0(x)]′=(δy)′
由此得到变分符号δ与导数符号之间的关系
即函数导数的变分等于函数变分的导数。换言之,求变分与求导数这两种运算次序可以交换。在进行变分法的推导时要经常用到变分的这个性质。上面这些性质也可推广到高阶导数的变分情形,具体情况这里不再赘述。
上面介绍了函数的变分,下面来考虑泛函的变分。例如,对于泛函
的增量,可以表示为
其中,δy=y1(x)-y(x)。
可见,此泛函的增量Δ由两项相加而得。将第一项记为
当函数y(x)固定时,T[y(x),δy]是关于δy的线性泛函。这是因为对任何常数C而言,有
且
再来考查第二项,此处δy=y1(x)-y(x),其中y(x)是已经给定的函数,y1(x)是任意取的函数,y(x)和y1(x)均属于C[a,b]
若
由
可知
上式表明,当max|δy|→0时,分子是比分母更高阶的无穷小量,不妨记为
于是Δ=T[y(x),δy]+0(δy)。这其实表明,原泛函的增量可以分解为两个部分,第一部分是δy的线性泛函,第二部分是比δy更高阶的无穷小量。回想函数微分的概念,函数的微分其实是函数增量的线性主要部分。换言之,微分就是当自变量的变化非常小时,用来近似等于因变量的一个量。上述对函数增量及微分关系的分析其实在提示人们,是否可以用泛函增量中的线性主要部分来近似等于泛函的增量。其实这种所谓的泛函增量中的线性主要部分就是下面定义中所给出的泛函的变分。
定义 对于泛函[y(x)],给y(x)以增量δy,即y(x)的变分,则泛函有增量Δ=[y(x)+δy]-[y(x)]。如果Δ可以表示为Δ=T[(x),δy]+β[(x),δy]。其中,当y(x)给定时,T[y(x),δy]对δy来说是线性泛函,而当max|δy|→0时,有
那么,T[y(x),δy]称为泛函的变分,记作δ。可见,泛函[y(x)]的变分δ本质上来讲就是的增量的线性主要部分。
3.3.3 变分法的基本方程
导致变分法创立的著名问题是由瑞士数学家约翰·伯努利于1696年提出的所谓最速降线(brachistorone)问题。牛顿、莱布尼茨、约翰·伯努利以及他的学生洛必达各自采用不同的方法都成功地解决了这一问题,尽管他们采用的方法各不相同,但最终殊途同归,所得答案都是一致的。后来,欧拉也对最速降线问题进行了研究。1734年,欧拉给出了更为广泛的最速降线问题的解答。但欧拉对自己当时所采用的方法不甚满意,进而开始寻求解决这类问题的一种普适方法。而在此过程中,欧拉便建立了变分法。1736年,欧拉在其著作中给出了变分法中的基本方程,这正是后来变分法所依托的重要基础。欧拉在推导该基本方程时采用的方法非常复杂,而拉格朗日则给出了一个非常简洁的方法,并于1755年在信中将该方法告知了欧拉。后来人们便称这个基本方程为欧拉-拉格朗日方程(Euler-Lagrange equation)。
在推导出欧拉-拉格朗日方程之前,先给出一个预备定理,也被称为是变分学引理。
引理 如果函数y=f(x)在[a,b]上连续,又
对任何具有如下性质的函数η(x)成立,这些性质是:
(1)η(x)在[a,b]上有连续导数;
(2)η(a)=0=η(b);
(3)|η(x)|<ε,其中ε是任意给定的正数。
那么,函数f(x)在[a,b]上恒为0。
这里不对该定理进行详细证明,有兴趣的读者可以参阅变分法或数学分析方面的相关资料以了解更多。但同时可以对上述预备定理进行推广,即如果把三个条件中的第一条改为:η(x)在[a,b]上有n阶连续导数。其中,n为任何给定的非负整数,而且规定η(x)的零阶导函数就是其本身。那么原命题中的结论仍然成立。特别地,当n=1时,所描述的就是原来的预备定理。
至此准备工作已经基本就绪,接下来便可以开始考虑最简泛函的极值问题了。首先,可以利用类似函数极值的概念定义泛函的极值。当变量函数为y(x)时,泛函[y]取极小值的含义就是:对于极值函数y(x)及其附近的变量函数y(x)+δy(x),恒有
所谓函数y(x)+δy(x)在另一个函数y(x)的附近,指的是:首先,|δy(x)|<ε;其次,有时还要求|(δy)′(x)|<ε。
接下来,可以仿照函数极值必要条件的导出办法,导出泛函取极值的必要条件。不妨不失普遍性地假定,所考虑的变量函数均通过固定的两个端点y(x0)=a,y(x1)=b,即δy(x0)=0,δy(x1)=0。
考虑泛函的差值
当函数的变分δy(x)足够小时,可以将第一项的被积函数在极值函数的附近进行泰勒展开,于是有
由于舍弃掉了二次项及以上高次项,所以这里用的是约等号。由上式也可推出
上式就称为是[y]的一阶变分,记为δ[y]。泛函[y]取极值的必要条件是泛函的一阶变分为0,即
应用分部积分,同时代入边界条件,就有
由于δy的任意性,结合前面给出的预备定理,就可以得到
上述这个方程称为欧拉-拉格朗日方程,而在力学中则被称为拉格朗日方程。变分法的关键定理是欧拉-拉格朗日方程。它对应于泛函的临界点,它是泛函取极小值的必要条件的微分形式。值得指出的是,欧拉-拉格朗日方程只是泛函有极值的必要条件,并不是充分条件。
同理可得二维情况下泛函极值问题的欧拉-拉格朗日方程为
定理 设F(x,y,y′)是三个变量的连续函数,且当点(x,y)在平面上的某个有界域B内,而y′取任何值时,F(x,y,y′)及其直到二阶的偏导数(指对变量x,y及y′的偏导数)均连续。若满足:
(1)y(x)∈C1[a,b];
(2)y(a)=y0,y(b)=y1;
(3)y(x)曲线位于平面上的有界区域B内的函数集合中,泛函[y(x)]在某一条确定的曲线y(x)上取极值,且此曲线y(x)在[a,b]有二阶连续导数,那么函数y(x)满足微分方程
最后,尝试利用已经得到的欧拉-拉格朗日方程来解决著名的最速降线问题。该问题的描述是这样的:设平面V与地面垂直,A和B是此平面上任取的两点,A点的位置高于B点。质点M在重力作用下沿着曲线AB由A点降落到B点。现在问AB是什么曲线时,总时间最短?设质点在A点处的初速度为零,而且A点不位于B点的正上方。
图3-1 最速降线问题
解 取坐标系如图3-1所示,并记质点的质量为m,速度为v,又时间为t,则质点下落时动能的增加就等于势能的减少,则mv2。曲线y=y(x)的弧长微分是dS=dx,又有v=dS/dt,所以得到
于是得到质点滑落的总时长为
由此可见,只需求出函数y=y(x),使泛函
在此曲线y(x)上取得极小值即可。现在设法写出欧拉-拉格朗日方程,因为有
于是得到
所以得到欧拉-拉格朗日方程方程
下面求解此方程。为了便于更加直观地理解计算过程,不妨将等式右边的∂F/∂y′用f代替。注意,f是关于y和y′的一个多元复合函数,而y和y′又分别都是关于x的函数。所以,在计算的时候还需用到复合函数的链式求导法则。于是,可得方程的右边为
于是上面得到的欧拉-拉格朗日方程可以写为
而且上式等价于
这是因为
将
做一次积分得到(其中,C表示任意常数)
将F的表达式代入上式,得
即y(1+y′2)=D,D为任意常数。
令y′=tanθ,则y=D/(1+tan2θ)=Dcos2θ=D(1+cos2θ)/2,dy=-Dsin2θdθ。又有
于是有(其中,E是任意常数)
这就是最速降线问题的欧拉-拉格朗日方程的解。如果令2θ=π-φ,则上式化为
又当φ=0时,取x=0=y,于是
最终得到,最速降线问题的解是一条旋轮线(也称摆线)。推荐对旋轮线感兴趣的读者参阅文献[11]以了解更多。
最后,讨论其他一些特殊形式变分问题的欧拉方程。
定理 使泛函(其中,F是具有三阶连续可微的函数,y是具有四阶连续可微的函数)
取极值且满足固定边界条件y(x0)=y0,y(x1)=y1,y′(x0)=y′0,y′(x1)=y1的极值曲线y=y(x)必满足微分方程
上式称为欧拉-泊松方程。
特别地,对含有未知函数的n阶导数,或未知函数有两个或两个以上的固定边界变分问题,若被积函数F足够光滑,则可得到如下推论。
推论 使依赖于未知函数y(x)的n阶导数的泛函
取极值且满足固定边界条件
的极值曲线y=y(x)必满足欧拉-泊松方程
其中,F具有n+2阶连续导数,y具有2n阶连续导数,这是2n阶微分方程,它的通解中含有2n个待定常数,可由2n个边界条件来确定。
定理 设D是平面区域,(x,y)∈D,u(x,y)∈C2(D),使泛函
取极值且在区域D的边界L上满足边界条件,极值函数u=u(x,y)必满足偏微分方程
这个方程称为奥斯特洛格拉茨基方程,简称奥氏方程。它是欧拉方程的进一步发展。
例3.1 已知(x,y)∈D,求下述泛函的奥氏方程。
根据前面给出的公式,不难写出奥氏方程为
这也是二维拉普拉斯方程。
例3.2 已知(x,y)∈D,写出泛函
的奥氏方程。其中,在区域D的边界上u与f(x,y)均为已知。
根据前面给出的公式,不难写出奥氏方程为
这就是人们所熟知的泊松方程。
1777年,拉格朗日研究万有引力作用下的物体运动时指出:在引力体系中,每一质点的质量mk除以它们到任意观察点P的距离rk,并且把这些商加在一起,其总和
就是P点的势函数,势函数对空间坐标的偏导数正比于在P点的质点所受总引力的相应分力。在1782年,拉普拉斯证明了引力场的势函数满足偏微分方程
该方程叫做势方程,后来通称为拉普拉斯方程。1813年,泊松撰文指出,如果观察点P在充满引力物质的区域内部,则拉普拉斯方程应修改为
该方程叫做泊松方程。其中,ρ为引力物质的密度。
3.3.4 理解哈密尔顿原理
3.3.3节从最简泛函开始导出了变分法的基本方程为欧拉-拉格朗日方程。但仍然不禁要问为什么要以形如最简泛函那样的一种表达式来作为问题的开始?事实上,数学中的很多问题都不是凭空而来的,每一个看似高深的数学问题背后往往都有一个具体的实际问题作为支撑。数学问题也仅仅是实际问题抽象化的结果。在这一节中,将从物理问题的角度阐释变分法的发展与应用。
当牛顿建立了以三大定律及万有引力定律为基础的力学理论之后,无数的自然现象都得到了定量的说明。这部分知识在中学物理中都已经涵盖,大学物理也仅从微积分的角度对这部分内容进行了更为细致的阐述。貌似经典物理学所讨论的内容已经相当完善。然而科学发展的脚步并未因此而停滞。后来,拉格朗日提出了一个变分原理,从这个原理出发,运用变分法,不仅能够十分方便地解决力学问题,而且还能够推导出力学中的主要定律。这些成果后来都收录在他的著作《分析力学》一书中。拉格朗日还创立了拉格朗日运动方程,比牛顿的运动方程适应的范围更广泛,用起来也更加方便。
下面就来导出描写质点运动的拉格朗日方程。先设质点只有一个广义坐标x。因为,质点的位置由广义坐标x(t)决定,即位置是时间的函数。于是,动能T和位能U是x和x′(距离对时间的导数其实就是速度)的函数。把T-U叫做拉格朗日函数,记为
T-U=L=L(t,x,x′)
于是,质点的作用量定义为
根据之前的推导,因为S取极值,所以真实轨迹x(t)满足
这就是力学中著名的拉格朗日方程。同样,若质点系的位置由广义坐标x1,x2,…,xk决定,且xi(t1)及xi(t2)均已给定。其中,i=1,2,…,k,即在t=t1及t=t2两时刻,体系的位置均已给定。当质点系由t1时刻的位置变到t2时刻的位置时,作用量
取极值。这种形如
的泛函,其对应的欧拉-拉格朗日方程为(具体证明过程略)
由此可知,真实轨迹xi(t),i=1,2,…,k,满足
这就是质点系的拉格朗日方程组。它是在广义坐标系中质点系的运动方程,表达了质点系运动的一般规律。
此后,哈密尔顿又发展了拉格朗日的理论,他在1834年提出了一个著名的原理,即哈密尔顿原理,其内容为在质点(甚至是质点系或物体)的一切可能的运动中,真实的运动应当使得积分
取极值。其中,T和U分别是动能和位能,t1和t2是两个任意取的时刻。
这个原理后来成为了力学中的基本原理。以它为基础,可以导出牛顿三大定律以及能量、动量和动量矩守恒定律。
哈密尔顿原理的精确表述是:假定在t=t1及t=t2时刻质点的位置已分别确定在A点和B点,那么质点运动的真实轨道及速度,使积分
取极值,即
图3-2 两点间的距离
其中,S是作用量,而T和U分别表示质点的动能和位能,L=T-U称为拉格朗日函数。
接下来,尝试利用哈密尔顿原理及变分法来证明欧几里得平面上两点之间直线距离最短这个命题。
解 建立如图3-2所示的坐标系。则曲线AB的长度可以用弧长积分表示为
因为F(t,x,x′)=1+x′2(t),于是Fx=0,又
所以得到欧拉-拉格朗日方程为
其中,C是任意常数
由此解得(其中,C2≠1)
即x′=D,D为任意常数。由此式便可看出x(t)是一条直线。结论得证。
3.3.5 等式约束下的变分
在许多极值或最优化问题中,往往要求极值点或最优解满足一定的约束条件。这些所谓的约束条件可能是用等式表示的,也可能是用不等式表示的。这里主要关注采用等式约束的形式。因此,首先介绍著名的拉格朗日乘子法。
定理 (拉格朗日乘子法)设泛函f在x0∈X的邻域内连续可微,x0是Φ的正则点。如果x0是泛函f在约束条件Φ(x)=0下的极值点,则存在有界线性泛函,使得拉格朗日函数
以x0为驻点,即
其中,上式左端的第2项应该理解为两个有界线性算子的复合(乘积)。
例如,在约束条件
下求F=F(x1,x2,…,xn)的极值,其中k<n。如果要利用拉格朗日乘子法,则设有拉格朗日乘子λ1,λ2,…,λk,并有
把F∗作为x1,x2,…,xn;λ1,λ2,…,λk等变量的函数求极值。
其中,xj和λi都是独立变量,得
于是便得到了求解n+k个变量的n+k个方程。
上式也可以通过下面的考虑求得。首先,F=F(x1,x2,…,xn)的变分极值要求
然而,由于问题开始所给出了k个约束条件,这些dxj中只有n-k个是独立的。于是从原k个约束条件可以求得下列微分条件:
在上式上乘以λi,再加到dF的表达式上,就会得到
这里的λi是任选的。其中,i=1,2,…,k,如果选择k个特定的λi,使k个条件
满足,就可以得到
这里只有n-k个微分dxj(j=k+1,k+2,…,n),它们是作为独立的微分来处理的。于是
综上,得到了同样的求解极值的方程。这也就证明了拉格朗日乘子法。
为了加深对拉格朗日乘子法的理解,这里给出一个例子。
证明算术-几何平均值不等式:设x1,x2,…,xn为n个正实数,它们的算术平均数是An=(x1+x2+…+xn)/n,它们的几何平均数是Gn=。算术-几何平均值不等式表明,对于任意的正实数,总有An≥Gn,等号成立当且仅当x1=x2=…=xn。
证明这个不等式的方法有很多,这里采用条件极值的方法来对其进行证明。此时,问题转化为:总和等于常数C,C>0的n个非负实数,它们的乘积P的最大值为多少?
考虑采用拉格朗日乘子法求n元函数P=x1x2…xn对如下条件的极大值,条件为这n个非负实数的和等于C,即x1+x2+…+xn=C,xi≥0,i=1,2,…,n。于是构造如下函数
L=x1x2…xn+λ(x1+x2+…+xn-C)
其中,λ是拉格朗日乘子,然后分别对x1,x2,…,xn求偏导数,然后令其结果等于0,构成如下方程组
求解方程组,可得x1=x2=…=xn=C/n。因为根据题目的描述,P的极小值是等于0的,而当xi满足上述条件时显然P是不等于0的,所以可知此时函数取极大值,这个极大值就等于
即
对两边同时开根号,显然有下式成立,所以原不等式得证。
下面就参照上述函数条件极值问题的解决思路处理泛函在约束条件Φi(x,y1,y2,…,yn)=0作用下的极值问题,其中i=1,2,…,k。
定理 泛函
在约束条件Φi(x,y1,y2,…,yn)=0,i=1,2,…,k,k<n下的变分极值问题所定义的函数y1,y2,…,yn必须满足由泛函
的变分极值问题所确定的欧拉方程
其中,λi(x)为k个拉格朗日乘子。在前面式子的变分中,把yj和λi(x)都看作是泛函∗的宗量,所以Φi=0同样也可以看作是泛函∗的欧拉方程。上述欧拉方程也可以写成
这里不对该定理做详细证明。有兴趣的读者可以参阅变分法方面的资料以了解更多。此处尝试运用该定理解决一个著名的变分问题——短程线问题。设φ(x,y,z)=0为已知曲面,求曲面上所给两点A和B间长度最短的曲线。这个最短曲线叫做短程线。位于曲面φ(x,y,z)=0上的A(x1,y1,z1)和B(x2,y2,z2)两点间的曲线长度为
其中,y=y(x),z=z(x)满足φ(x,y,z)=0的条件。
此处把问题描述为:在y=y(x),z=z(x)满足z=的条件下,从一切y=y(x),z=z(x)的函数中,选取一对y(x)和z(x)使得上述泛函L为最小。
用拉格朗日乘子λ(x)建立泛函
其变分(把y、z和λ当作独立函数)为
把积分符号中的首两项做分部积分,得到
根据变分法的预备定理,把δy,δz和δλ都看成是独立的函数变分,δL∗=0给出欧拉方程
这是求解y(x),z(x)和λ(x)的三个微分方程。
现在设所给的约束条件为一个圆柱面z=1-x2,于是上述方程组可以写成
第一式和第二式可以积分一次,同时引入弧长s,则ds=,则积分以后原方程组可以写成
其中,a为积分常数,则
从方程组中的第二式和第三式,可得
因此,根据ds的定义有
它可以化简为Λ(x)=。于是,把上式代入dx的表达式,消去Λ(x),即得
积分后,得cos-1x=s+d,其中d为另一个积分常数,或为
并且还可以得到
以及y=as+b。其中,b也为积分常数。于是,便得到了本题的参数解,弧长s为参数。积分常数a,b,d由起点和终点的坐标决定。这个解就是圆柱面z=上的螺旋线。
还可以把原定理加以推广,使得Φi不仅是x,y1,y2,…,yn的函数,而且是的函数的情况,于是有推广后的定理如下。
泛函
在约束条件Φi(x,y1,y2,…,yn,)=0,i=1,2,…,k,k<n下的变分极值问题所定义的函数y1,y2,…,yn必须满足由泛函
的变分极值问题所确定的欧拉方程
或
在前面式子的变分中,把yj和λi(x)都看作是泛函∗的宗量,所以Φi=0同样也可以看作泛函∗的欧拉方程。
3.3.6 巴拿赫不动点定理
设X为巴拿赫空间,F为由X到X的算子,且D(F)∩R(F)非空。如果点x∗∈X满足
则称x∗为算子F的不动点。换句话说,不动点x∗是算子方程x=F(x)的解。巴拿赫不动点定理,又称为压缩映射原理,它不仅指出了上述算子方程之解的存在性和唯一性,还提供了求出这些近似解的方法及误差估计。
设集合Q⊂D(F),如果存在常数q∈(0,1),使得对任意的x′,x″∈Q,均有不等式
则称F为集合Q上的压缩算子,q称为压缩系数。
压缩映射原理 设算子F映巴拿赫空间X中的闭集Q为其自身,且F为Q上的压缩算子,压缩系数为q,则算法F在Q内存在唯一的不动点x∗。若x0为Q中任意一点,做序列
则序列{xn}⊂Q,且xn→x∗,并有误差估计
例如,可以利用巴拿赫不动点定理求的近似值。注意是方程x3-5=0的实根,构造辅助函数f(x)=x3-5,则任意给定的x∈[1,2],都有
再令
容易验证,当x∈[1,2]时,有1≤g(x)≤2,以及
所以,g:[1,2]→[1,2]是压缩因子q=3/4的压缩映射。由于[1,2]是ℝ中的有界闭集,因此有x∗=使得g(x∗)=x∗。进而可用迭代法求得的近似值。取x0=1,从而有
由上述说明可知
从而也可由此求出近似值与精确值之间的误差。
3.3.7 有界变差函数空间
在数学分析中,有界变差(bounded variation)函数,有时也称为BV函数,是一个实值函数,它的全变差(total variation)是有界的,即为有限值。首先,讨论最简单的全变差函数定义——单变量的BV函数。
定义 一个实值函数f定义在区间[a,b]⊂ℝ上的全变差(total variation),就是如下这样一个量
其中,P={x0,x1,x2,…,xnP}是区间[a,b]上的一个划分。被考查区间上的所有划分构成一个集合,而上确界是取遍该集合所得到的。
如果f是可微的,并且它的导数是黎曼可积的,那么它的全变差就是
例如,设f(x)是定义在区间[a,b]上的有限函数。在[a,b]上做分点
并且做和
那么,V的上确界就是f(x)在[a,b]上的全变差,记作(f),有时也会记为(f)。本书采用前一种记法。
定义 一个位于实数轴上的实值函数f在被选定的区间[a,b]⊂ℝ上被称为是有界变差的(BV函数),只需它的全变差是有限的,即
换句话说,当(f)<+∞时,称f(x)在[a,b]上是有界变差的,或称f(x)在[a,b]上具有有界的变差。
定理 单调函数是有界变差的。
本定理,就增函数证明即足矣。设f(x)在定义在[a,b]上的一个增函数,那么f(xi+1)-f(xi)不是负的,从
即得到定理的证明。
满足利普希茨(R. Lipschitz)条件的函数是有界变差函数的又一个例子。利普希茨条件是一个比一致连续更强的光滑性条件。直观上,利普希茨连续函数限制了函数改变的速度,符合利普希茨条件的函数的斜率,必小于一个称为利普希茨常数的实数(该常数依函数而定)。在微分方程理论中,利普希茨条件是初值条件下解的存在唯一性定理中的一个核心条件。利普希茨条件的一个特殊形式即压缩映射原理,被应用在巴拿赫不动点定理中。
定义 在[a,b]上所有定义的有限函数f(x),如果存在有大于0的常数K使得不等式
|f(x)-f(y)|≤K|x-y|
对于[a,b]中任何两点x,y成立,称f(x)在[a,b]上满足利普希茨条件,K称为利普希茨常数。
若f(x)在区间上满足利普希茨条件,必定有f(x)在此区间上一致连续。假如f(x)在[a,b]上的每一点x中具有有界的导数f′(x),那么由拉格朗日中值定理可得
f(x)-f(y)=f′(z)(x-y), x<z<y
即f(x)是满足利普希茨条件的。
假如f(x)在[a,b]上满足利普希茨条件,则
|f(xi+1)-f(xi)|≤K(xi+1-xi)
从而有V≤K(b-a)。所以,f(x)是有界变差的函数。
连续函数的全变差可以是无穷大的。例如
如果在[0,1]中采取如下划分方式
那么很容易证明
这个级数在前面证明过它是发散的。所以有
定理 有界变差函数是有界的。
证明 对于a≤x≤b,有
从而得到|f(x)|≤|f(a)|+(f),所以结论得证。
关于有界变差函数的性质还有如下一些结论成立,具体证明过程从略。
定理 两个有界变差函数之和、差、积仍然是有界变差的。
定理 设f(x)和g(x)都是有界变差的。若|g(x)|≥σ>0,则f(x)/g(x)也是有界变差的。
定理 设f(x)是[a,b]上的有限函数,又a<c<b,则。
推论 设a<c<b,如果f(x)在[a,b]上是有界变差的,则f(x)在[a,c]及[c,b]上也是有界变差的。该命题的逆命题也为真。
推论 若[a,b]可分为有限个部分,在每一个部分区间中f(x)成为单调函数,则f(x)在[a,b]上是有界变差的。
定理 函数f(x)是有界变差的充分必要条件是f(x)可以表示为两个增函数的差。该定理也称为若尔当(Jordan)分解定理。
证明 其充分性由前面给出的定理很容易推得,此处仅证明其必要性,令
显然,π(x)是一个增函数。令v(x)=π(x)-f(x),则可证明v(x)也是增函数。这是因为,当a≤x<y≤b时,可得
所以,v(y)-v(x)=Vyx(f)-[f(y)-f(x)]。但是由全变差的定义,可知
即有v(y)-v(x)≥0,于是v(x)是增函数。而f(x)=v(x)-π(x),即证明了其必要性。
推论 如果f(x)在[a,b]上是有界变差的,则f′(x)在[a,b]上几乎处处存在且为有限,并且f′(x)在[a,b]上是可和的。
推论 有界变差函数的不连续点的全体至多是一个可数集。在每一个不连续点x0存在着两个极限
设x1,x2,…(a<xn<b)是π(x)或v(x)的不连续点的全体。做跳跃函数
如果xk是π(x)或v(x)的连续点,那么xk所对应的一项就化为0。而且还要指出v(x)的不连续点不可能是π(x)的连续点,这一点这里不做赘述。
设s(x)=sπ(x)-sv(x),则
s(x)也是一个有界变差函数,称为f(x)的跳跃函数。显然,若从x1,x2,…中除去f(x)的连续点,则s(x)仍旧没有什么改变。所以,不妨设x1,x2,…中的所有点都是f(x)的不连续点。而增函数f(x)与其跳跃函数s(x)的差是一个连续的增函数。因此,π(x)-sπ(x)和v(x)-sv(x)都是连续的增函数。由此便得到φ(x)=f(x)-s(x)是一个连续的有界变差函数。换言之,也证明了如下这个定理。
定理 任意一个有界变差函数可表示为它的跳跃函数与一个连续的有界变差函数的和。
下面讨论更为复杂的情况——多变量的BV函数。
定义 令Ω是ℝn的一个开子集。如果存在一个有限的向量拉东(Radon)测度Du∈M(Ω,ℝn)使得如下等式成立
其中,u∈L1(Ω),则函数u就是一个有界变差函数,并记作u∈BV(Ω)。
也就是说,u在空间(Ω,ℝn)上定义了一个线性泛函(Ω,ℝn)表示由在Ω中紧支的(compact support)连续可微的向量函数ϕ所组成的函数空间。向量测度Du因此表示u的分布梯度或弱梯度。
上述定义涉及的陌生概念较多,所以给出如下这个等价的定义。
定义 给定一个函数u∈L1(Ω),那么u在Ω中的全变差就定义为
其中,是本性上确界的范数。有时,下面的记号也会被使用
这主要是为了强调V(u,Ω)是u分布梯度或弱梯度的全变差。这种记法也提醒人们,如果u源自于一个C1空间,即一个连续可微且其一阶导数也连续的函数,那么它的变差就是其梯度的绝对值的积分。
有界变差函数空间可被定义为
BV(Ω)={u∈L1(Ω):V(u,Ω)<+∞}
这两个定义是等价的,因为如果V(u,Ω)<+∞,那么
因此
在空间上定义了一个连续的线性泛函。而且因为),作为一个线性子空间,这个连续的线性泛函根据汉恩-巴拿赫定理可以被连续地、线性地扩展到整个C0(Ω,ℝn)。即它定义了一个拉东测度(Radon measure)。
接下来,讨论另外一个概念——局部的BV函数。如果在前面的定义中所考虑的函数属于一个由局部可积函数组成的空间,即函数属于(Ω),而非是来自一个全局可积函数空间,那么如此被定义的函数空间就属于是局部有界变差函数空间。更准确地讲,一个局部变差可以被定义成如下形式:
对于每一个集合U∈C(Ω),这里C(Ω)表示关于有限维向量空间的标准拓扑Ω的所有准紧开子集的集合,那么相应地局部有界变差的函数族被定义成
通常,用BV(Ω)表示全局有界变差函数空间,并相对应的用BVloc(Ω)表示局部有界变差函数空间;有时,也采用(Ω)表示全局有界变差函数空间,并相对应的采用BV(Ω)表示局部有界变差函数空间。本书中采用第一种记法。
下面讨论一下有界变差函数的基本性质。注意,这里所说的基本性质是指单变量有界变差函数与多变量有界变差函数共有的一些性质。而下面所给出的证明主要是针对多变量函数进行的,这是因为对于单变量的情况而言,其证明往往是多变量情况的一个简化版。此外,在每个部分还会指出具体的某个性质是否对局部有界变差函数同样适用。
首先,BV函数仅有跳跃型间断点。对于单变量的情况,这个结论是很显然的:对于函数u的定义区间[a,b]⊂R上的每一点x0,下面的两个断言中必有一个是对的(当左右两个极限都存在而且是有限的时)
对于多变量函数的情况,有一些前提条件需要说明:有一个方向的连续统,沿着这些方向可以逼近属于域Ω⊂Rn中的一个给定点x0。有必要精确地给极限下一个合适的概念。选取一个单位向量,它可以将Ω划分成两个集合
那么,对于BV函数u的定义域Ω∈ℝn中的每一点x0,下面的两个断言中仅有一个是正确的
或者x0属于含有零个n-1维的豪斯多夫测度(Hausdorff measure)的Ω一个子集。如下的量
就被称为是BV函数u在点x0处的近似极限。
其次,V(·,Ω)在BV(Ω)上是下半连续的。泛函V(·,Ω):BV(Ω)→R+是下半连续的,为了说明这一点,选取一个BV函数的柯西序列{un}收敛于(Ω),其中n∈N。因为所有序列中的函数以及它们的极限函数都是可积的,并且根据下限的定义,对于∀ϕ∈有
现在考虑在函数的集合上的上确界,可知,那么有下列不等式成立
这也就是下半连续的准确定义。
其次,有界变差函数空间BV(Ω)是一个巴拿赫空间。根据定义,BV(Ω)是L1(Ω)的一个子集,而线性性质可以从积分的线性属性中得到,即
对于所有的成立。因此,对于所有的u,v∈BV(Ω),有u+v∈BV(Ω)成立。并且对于所有的c∈ℝ,还有下式成立
因此,对于所有的u∈BV(Ω),以及c∈ℝ,有cu∈BV(Ω)成立。上述这些被证明的向量空间属性表明BV(Ω)是L1(Ω)的一个向量子空间。
现在考虑函数‖ ‖BV:BV(Ω)→ℝ+,它的定义形式如下
其中,‖ ‖L1是通常的L1(Ω)的范数,很容易证明它是在BV(Ω)上的一个范数。为了说明BV(Ω)是一个巴拿赫空间,考虑在BV(Ω)中的一个柯西序列{un},其中n∈ℕ。根据定义它也是L1(Ω)中的一个柯西序列,它在L1(Ω)中有一个极限u存在。因为un在BV(Ω)中对于每一个n来说都是有界的,那么‖u‖BV<+∞。根据变差V(·,Ω)的下半连续性,所以u是一个BV函数。最后,再由下半连续性,选择一个任意小的正数ε,则有
此外,BV(Ω)是不可分的。为了说明这一点,考虑下面这个位于空间BV([0,1])中的例子,对于每一个0<α<1,定义
为左闭区间[α,1]上的指示函数。选取α,β∈[0,1],且α≠β,那么则有下述关系成立
现在为了证明BV([0,1])的每一个稠密子集都不可能是可数的,不妨从下面这个角度考察。对于每一个α∈[0,1],可以构建一些球
显然,这些球是两两不相交的,而且它们还是一个集的加标族,其指标集是[0,1]。这其实暗示这个族具有连续统的势。如此一来,因为BV([0,1])的任意稠密子集必须至少有一点在这个族的每个成员里,它的势至少为连续统的势,因此不可能是一个可数集。这个例子可以很显然地扩展到高维的情况,而且因为仅仅涉及局部属性,所以它也表明同样的性质对于BVloc也是成立的。
上述描述中涉及一些集合论的内容,在此稍作说明。以集合为元素的集合称为集族(collection of sets),记为。设是一个非空集族,的指标函数(indexing function)是从某一个集合J到的一个满射f,其中J称为指标集(index set),族连同指标函数f一起称为一个集的加标族(indexed family of sets)或加标集族。给定α∈J,集合f(α)记成符号Aα。该加标集族本身则记作{Aα}α∈J,读作“α取遍J时,所有Aα的族”。当指标集自明时,则简单地记为{Aα}。
而且,BV(Ω)是一个巴拿赫代数。这个性质从BV(Ω)不仅是一个巴拿赫空间还是一个结合代数(associative algebra)这个事实就可直接得到。结合代数是指一个向量空间,其允许向量有具分配律和结合律的乘法。因此,它是一个特殊的代数。这也暗示如果{vn}和{un}是BV函数的柯西序列而且分别收敛到BV(Ω)中的函数v和u,那么
因此,两个函数的普通逐点乘积在空间BV(Ω)中关于每个参数都是连续的。这就使得该函数空间成为一个巴拿赫代数。关于逐点乘积这个概念,此处稍作说明。如果f和g都是函数f,g:X→Y,那么对于每个X中的x,逐点乘积(f·g):X→Y就被定义成(f·g)(x)=f(x)·g(x)。前面所说的参数就是指这里的x,也就是说(f·g)(x)在BV(Ω)中是连续的。
索伯列夫空间W1,1(Ω)是BV(Ω)的一个真子集。事实上,对于每个在空间W1,1(Ω)中的u,可以选择一个测度μ:=,其中是在Ω上的勒贝格测度。如此,即有下列等式成立
因为它只不过是弱微分的定义,所以等式是成立的。弱微分(weak derivative)是一个函数的微分(强微分)概念的推广,它可以作用于那些勒贝格可积的函数,而不必预设函数的可微性(事实上大部分可以弱微分的函数并不可微)。
很容易找到一个不是W1,1的BV函数的例子,在一维情况下,任何带有非平凡跳跃(non-trivial jump)的阶梯函数都是。回忆函数间断点的分类。通常当人们说到函数间断点的类型时,如果按照间断点处的左右极限是否存在来划分,那么可以分为第一类间断点和第二类间断点。其中,如果间断点处的左右极限都存在,这个间断点就是第一类间断点。第一类间断点又分为可去间断点和跳跃间断点两种。如果间断点处的左右极限至少有一个不存在,那么则称该点为函数的第二类间断点。从另外一个角度也可以分成平凡间断点和非平凡间断点。其中,前面提及的可去间断点又称为平凡间断点。当函数在间断点处的极限存在,但此极限不等于该点处的函数值时,这就是一个可去间断点。显然,非平凡间断点包含了跳跃间断点和第二类间断点。如果函数在间断点处的左右极限存在,但是左右极限却不相等,则该间断点就是一个跳跃间断点。如果非平凡间断点特指跳跃间断点,有时也说非平凡跳跃间断点(non-trivial jump discontinuity)。阶梯函数是具有非平凡跳跃间断点的典型例子。