§0 历史

变分法可以说始于Newton在1687年提出的最小阻力问题，随后是由Johann Bernoulli在1696年提出的最速降线问题。这个领域立即引起了Jacob Bernoulli和Marquis de l'Hôpital的关注，但Leonhard Euler在1733年开始系统地阐述了这一主题。Lagrange受Euler的工作影响，对这一理论做出了重要贡献。在Euler看到19岁的Lagrange于1755年发表的工作后，放弃了自己部分几何的方法，转而采用Lagrange的纯解析方法，并在1756年的讲座《Elementa Calculi Variationum》中重新命名了这一学科。

Legendre在1786年提出了一种方法，用于区分极大值和极小值，但并不完全令人满意。Isaac Newton和Gottfried Leibniz也早期对这个主题给予了一些关注。在这一领域做出贡献的还有Vincenzo Brunacci（1810年）、Carl Friedrich Gauss（1829年）、Siméon Poisson（1831年）、Mikhail Ostrogradsky（1834年）和Carl Jacobi（1837年）。Sarrus（1842年）的一部重要著作被Cauchy（1844年）简化并改进。其他重要的论文和专著包括Strauch（1849年）、Jellett（1850年）、Otto Hesse（1857年）、Alfred Clebsch（1858年）和Lewis Buffett Carll（1885年）的著作，但本世纪最重要的工作或许要属Weierstrass的贡献。他关于该理论的著名课程具有划时代的意义，可以说他是第一个使变分法建立在牢固且无可争议的基础上的人。1900年发表的Hilbert第20和第23个问题进一步促进了这一领域的发展。

在20世纪，David Hilbert、Oskar Bolza、Gilbert Ames Bliss、Emmy Noether、Leonida Tonelli、Henri Lebesgue和Jacques Hadamard等人都对变分法做出了重要贡献。Marston Morse将变分法应用于现在称为Morse理论的领域。Lev Pontryagin、Ralph Rockafellar和F.H. Clarke在最优控制理论中发展了变分法的新数学工具。Richard Bellman的动态规划是变分法的一个替代方法。

§1 简介：积分的稳定值

首先，让我们回顾微积分中关于寻找单变量函数最大值和最小值的基本原理：原理（最大值是稳定点）令 $f(x)$ 是一个“好”函数，则 $f$ 的最大值或最小值出现在 $f^{\prime}(x)=0$ 。

(上面原理中的“好”指的是连续可微，在本文中将不精确区分可能出现的例外，通常假设我们只对足够光滑的函数感兴趣，这样就不用担心函数的可微性)

变分法(Calculus of Variation) 是一系列技术的集合，其不再是寻找单变量函数的最大值或最小值，而是寻找一个泛函(一个函数的函数)，即：选择函数使得某个值最小。这样的问题在物理中经常出现。

例 1 (两点之间最短路径) 给定二维空间中的点 $(x_{1},y_{1})$ 和 $(x_{2},y_{2})$ 它们之间的最短路径是什么？

通过旋转平面(不影响两点之间的距离)，我们可以假设 $y_{1}=y_{2}$ 。

让我们想象路径是由一个合适的好(连续可微)函数 $y(x)$ 给出的，那么路径的长度由下面的公式给出

I[y]=\int_{x_{1}}^{x_{2}}\sqrt{1+y^{\prime}(x)^{2}}\mathrm{d}x

而我们对于 $y(x)$ 的唯一约束是 $y(x_{1})=y(x_{2})=y_{1}$ 。由于 $y^{\prime}(x)^{2}\geqslant 0$ ，我们可以看到当

y^{\prime}(x)=0

积分最小，同时直线路径使得距离最小。 (直觉上很明显，任何路径都可以用光滑路径来任意地近似，因此只考虑光滑路径就足够了；这不是本文的重点，因为我们将经常假设我们可以将自己限制在足够好的函数上，而没有严格的理由)。

注意到我们已经从全局标准——所有可能路径的变化推导出了关于在某一点发生什么的一个局部规则。这就是变分法的基本思想，我们将对它进行相当程度的概括，并应用于广泛的问题。

物理学中最简单的观点之一是光沿直线传播。如果用下面的方式来解释，这个观点就会获得更大的力量：光沿直线传播，因为直线段是两点之间最短的距离。这可能听起来是一个微不足道的重述，但它仍然是Einstein广义相对论的基本观点之一，并与用量子电动力学现代理解光紧密相连，所以应该认真对待。

例 2 (铁人二项问题) 一群运动员从点 $A$ 到点 $B$ ，他们首先需要穿过一片田野(以速度 $c_{1}$ 奔跑)，然后横渡一条河(以 $c_{2}$ 游泳)。按照哪条路径从 $A$ 到 $B$ 最快？

很明显，运动员应该从 $A$ 以直线跑到河边的 $P$ 处，然后再从 $P$ 处以直线游到 $B$ 处，因为直线能使距离最小。(如果 $c_{1}\geqslant c_{2}$ ，则考虑最后运动员在田野上的最后一点 $P$ ；从 $A$ 到 $P$ 最快的方式是在田野上跑直线。在这之后最快的方式是从 $P$ 游直线到 $B$ 。)

令 $A=(x_{A},y_{A})$ , $B=(x_{B},y_{B})$ 和 $P=(x_{P},y_{P})$ 。我们想选择 $y_{P}$ 使得总时间最少。在 $y_{P}$ 的最佳值，我们有

\frac{\mathrm{d}}{\mathrm{d}y_{P}}\left(\frac{\sqrt{(x_{A}-x_{P})^{2}+(y_{A}-y_{P})^{2}}}{c_{1}}+\frac{\sqrt{(x_{B}-x_{P})^{2}+(y_{B}-y_{P})^{2}}}{c_{2}}\right)=0

即

\frac{(y_{A}-y_{P})}{c_{1}\sqrt{(x_{A}-x_{P})^{2}+(y_{A}-y_{P})^{2}}}=\frac{(y_{B}-y_{P})}{c_{2}\sqrt{(x_{B}-x_{P})^{2}+(y_{B}-y_{P})^{2}}}

所以 $P$ 的最佳位置是使得角度 $\psi_{1}$ , $\psi_{2}$ 满足：

\frac{\sin\psi_{1}}{c_{1}}=\frac{\sin\psi_{2}}{c_{2}}\tag{1}

你也许认出了(1)是Snell定律，该定律处理光从一种介质到另一种介质的折射，条件是观察到介质的折射率与速度的倒数一致。Fermat观察到Snell定律来自于一个最小时间原理，尽管直到20世纪这个原理才从量子物理和相对论的角度被理解。

我们现在可以解决一个稍微一般的问题。假设有人在泥泞的场地上跑步 $x>0$ ，速度与 $c(x)$ 成正比，其中 $c(x)$ 是一些只取决于 $x$ 坐标的光滑函数。等价地，我们有一个光学介质，其连续变化的折射率与 $(c(x))^{-1}$ 成正比。那么从一个点到另一个点的最短时间的路径是什么？

我们可以按照下面的方式考虑这个问题。将泥地分成厚度为 $\delta x$ 的条带，这样从 $x$ 到 $x+\delta x$ 的条带中，速度是一个常数，由 $c(x)$ 给出。

然后反复应用方程(1)的Snell定律，

\frac{\sin\psi(x)}{c(x)}\text{是路径的一个常数}\tag{2}

一定是正确的。

现在取 $\delta x\to 0$ 的极限，这条定律依旧是正确的。

§1.1 一点基本的微积分

路径与 $x$ -轴的角度 $\psi=\psi(x)$ 使得 $\tan\psi=\frac{\mathrm{d}y}{\mathrm{d}x}=y^{\prime}$ 。我们也有弧长的定义 $\mathrm{d}s^{2}=\mathrm{d}x^{2}+\mathrm{d}y^{2}$ 。把这些放在一起，我们有

\sin\psi=\frac{y^{\prime}}{\sqrt{1+y^{\prime 2}}}=\frac{\mathrm{d}y}{\mathrm{d}s},\quad \cos\psi=\frac{1}{\sqrt{1+y^{\prime 2}}} =\frac{\mathrm{d}x}{\mathrm{d}s}\tag*{}

从中也可以推导出

\kappa=\frac{\mathrm{d}\psi}{\mathrm{d}s}=\frac{y^{\prime\prime}}{(1+y^{\prime 2})^{3/2}}

其中， $\kappa$ 是路径的曲率(curvature)，其定义方式在轴的旋转下是不变的。

例 3 (“泥泞场地”上的最短路径) 作为一个特别有趣的例子，以 $c(x)$ 在 $x$ 中是线性的情况为例，实际上，假设 $c(x)=x$ ，那么我们有

\frac{\sin\psi(x)}{x}=\text{常数}\tag{3}

因此，我们可以将Snell定律的表述转化为 $y=y(x)$ 是

\frac{y^{\prime}}{\sqrt{1+y^{\prime 2}}}=Ax\tag{4}

的一个解的表述。如果 $A=0$ ，这就给出线 $y=\text{常数}$ ，而对于 $A\neq 0$ ，我们得到

x^{2}+(y-y_{0})^{2}=A^{-2}\tag{5}

i.e. 圆心在 $x=0$ 的圆的集合。这就完全解决了在场地任何两点之间寻找跑步者最短路径的问题。我们将稍后回到这个优美的几何事实。

显然，我们现在可以考虑当 $c=c(x,y)$ 时出现的更一般的问题。取而代之，我们将换一个观点来看。我们用更一般的术语重新表述我们一直在研究的问题。

我们把覆盖路径所需的时间视为所走路径的一个泛函。也就是说，它是可能路径空间上的一个函数，可能的路径本身就是函数。

具体来说，在我们考虑的问题中，我们可以对函数 $y=y(x)$ 定义一个泛函 $I[y]$ ：

I[y]=\int_{a}^{b}\frac{\sqrt{1+y^{\prime}(x)^{2}}}{c(x)}\mathrm{d}x\tag{6}

然后，我们寻找 $I[y]$ 的最小值， $y(x)$ 变过所有可能的路径。达到这一最小值的函数 $y(x)$ 被称为一个极值(extremal)。

在这种情况下，很明显我们是在寻找积分的最小值，但一般情况这太局限了。我们使用术语稳定值(stationary value)。这将意味着(在有待定义的意义上) $I[y]$ 的一阶导数为零。这将允许一系列可能性(最小值或最大值，或相当于马鞍的东西，或更复杂的情况，高阶导数也消失)。

我们现在把它看作是一个更为普遍问题的一个特例，在这个问题中，我们寻找的是下面泛函的稳定值

I[y]=\int_{a}^{b}F(x,y(x),y^{\prime}(x))\mathrm{d}x\tag{7}

对于一个确定的函数 $F(x_{1},x_{2},x_{3})$ 。为了简化，我们记为 $I[y]=\displaystyle\int_{a}^{b}F(x,y,y^{\prime})\mathrm{d}x$ 。

卓越的发现(原则上归功于Euler和Lagrange)是存在处理所有这些问题的一个单一方法。这种方法还可以进一步拓展(到多维，多导数和约束)。

更值得注意的是，那些看起来完全不像最小时间问题的问题也可以用这种方式重新表述。动力系统的轨迹可以被认为是这种稳定值问题的解，不是最短距离或最短时间的问题，而是最小作用的问题，这一点将被解释。这是对物理问题非常有用的描述，原因之一是稳定值的概念与用来描述它的坐标无关。

今天的理论物理学植根于场的泛函的稳定值的思想。目前粒子和力的标准模型是通过写下最小作用原理来定义的，弦和超弦理论也是如此。因此，变分法的部分动机来自于物理世界最深层的属性，这些属性只有通过创造性数学的转化能力才能显现出来。

§2 Euler-Lagrange方程

我们现在来一般地考虑寻找 $y(x)$ 给出泛函

I[y]=\int_{a}^{b}F(x,y(x),y^{\prime}(x))\mathrm{d}x\tag{8}

稳定值。

我们在微分方程1中证明Picard定理时，有时将 $F$ 视为 $x, u, v$ 这三个独立变量的函数，有时则通过将 $u = y(x)$ 和 $v = y^{\prime}(x)$ 代入，只把它当作 $x$ 的函数。例如，链式法则给出：

\frac{\mathrm{d}}{\mathrm{d} x} F(x, y(x), y^{\prime}(x)) = \frac{\partial F}{\partial x} + \frac{\partial F}{\partial y} \frac{\mathrm{d} y}{\mathrm{d} x} + \frac{\partial F}{\partial y^{\prime}} \frac{\mathrm{d}^2 y}{\mathrm{d} x^2} = \frac{\partial F}{\partial x} + y^{\prime} \frac{\partial F}{\partial y} + y^{\prime \prime} \frac{\partial F}{\partial y^{\prime}},\tag{9}

其中 $\frac{\partial F}{\partial y^{\prime}}$ 表示 $F(x, u, v)$ 对其第三个变量 $v$ 的偏导数，并在 $u = y(x)$ 和 $v = y^{\prime}(x)$ 处取值。

从一个完整严格的观点来看，我们需要确定函数 $y(x)$ 的确切的类使得泛函取得稳定值(可微，连续导数可微，可微到任意阶？)，且我们需要一些概念说明什么是在改变一个函数到一个‘附近’函数，通过把一个度规或至少一个拓扑“放”在函数的类上。

本文中我们假设所有的函数对于要处理的问题都是足够可微的。我们通常表述成光滑(无穷可微)函数的结果，因为现实世界中的大多数情况都是光滑的(或者可以被光滑函数任意地逼近)。为了这一点的合理性，我们将使用‘bump函数’。

引理 2.1 (bump函数) 存在一个函数 $B(x)$ 具有下面的性质： (1) $B(x)$ 是无穷可微， (2) $B(x)=0$ 除非 $x\in[0,1]$ ， (3) $0<B(x)\leqslant 1$ 如果 $x\in(0,1)$ 。

证明：令 $B(x)$ 是函数

B(x)=\left\{ \begin{aligned} &0,&x\leqslant 0,\\ &\exp(-x^{-1}(1-x)^{-1}),&0<x<1,\\ &0,&x\geqslant 1. \end{aligned} \right.

则对于所有 $n$ ，当 $x\downarrow0$ 或 $x\uparrow 1$ 时 $B^{(n)}(x)\to 0$ (因为指数衰减占据了多项式增长的主导)，所以 $f$ 在 $0$ 或 $1$ 处无穷可微，所以到处都无穷可微。很明显， $0\leqslant B(x)\leqslant 1$ 并且当且仅当 $x\in(0,1)$ 时， $B(x)>0$ 。

~\tag*{$\square$}

通过考虑 $B((x-a)/(b-a))$ ，我们可以在任意区间 $[a,b]$ 上定义‘bump函数’，并且通过缩放，我们可以假设它在中点取值为 $1$ (在它的最大处)，这在有的时候会很方便。

因此，一个函数总是可以在任何区间内变化（通过增加一个bump函数）而不影响其可微性，而且我们谈论的可微性的程度并不重要。

引理 2.2 (检验函数引理I) 令 $y(x)$ 是 $[a,b]$ 上一个连续函数，使得

\int_{a}^{b}y(x)\eta(x)\mathrm{d}x=0\tag{10}

对于任意光滑函数 $\eta(x)$ 有 $\eta(a)=\eta(b)=0$ 。则对于 $x\in[a,b]$ ， $y(x)=0$ 。

证明：用反证法证明，假设对于一些 $x_{0}\in(a,b)$ ， $y(x_{0})\neq 0$ 。不失一般性地假设 $y(x_{0})>0$ 。则我们在某些包含 $x_{0}$ 的区间 $[c,d]$ （其中 $a<c<d<b$ ）上必须有 $y(x)>0$ 。(因为 $y(x)$ 是连续的。)现在在 $[c,d]$ 上选取一个bump函数 $b(x)$ 。通过假设

\int_{a}^{b}y(x)b(x)\mathrm{d}x=0,

但是因为 $b(x)=0$ 除非 $x\in[c,d]$ ，这意味着

\int_{c}^{d}y(x)b(x)\mathrm{d}x=0,

这是不可能的，因为 $y(x)b(x)$ 是正的且在这个区间是连续的。与前提假设相矛盾，因此我们在 $[a,b]$ 上必须有 $y(x)=0$ 。

~\tag*{$\square$}

这个定理的一个小变化如下。

引理 2.3 (检验函数引理II) 令 $y(x)$ 是 $[a,b]$ 上的连续函数， $c_{1},c_{2}$ 是常数，使得：对于任意光滑函数 $\eta(x)$ ，有

c_{1}\eta(a)+c_{2}\eta(b)+\int_{a}^{b}y(x)\eta(x)\mathrm{d}x=0\tag{11}

则对于 $x\in[a,b]$ ，有 $c_{1}=c_{2}=0$ 和 $y(x)=0$ 。

证明：先假设 $c_{1}\neq 0$ ，那么不失一般性地假设 $c_{1}>0$ 。令 $\eta(x)$ 是区间 $[a-\epsilon,a+\epsilon]$ 上的一个bump函数，所以 $\eta(a)=1$ ,对于 $x>a+\epsilon$ , $\eta(x)=0$ ,并且 $\eta(x)\in[0,1]$ 。我们看到对于 $\epsilon$ 足够小，有

0=c_{1}\eta(a)+c_{2}\eta(b)+\int_{a}^{b}y(x)\eta(x)\mathrm{d}x\geqslant c_{1}-\int_{0}^{a+\epsilon}|y(x)|\mathrm{d}x>0

这出现矛盾了。因此我们必须有 $c_{1}=0$ 。相同的讨论得出 $c_{2}=0$ 。则通过引理 2.2，我们有 $y(x)=0$ ，给出了结论。

~\tag*{$\square$}

我们现在开始分析泛函 $I[y]$ 的稳定值。我们可能很想尝试用某个无穷小函数 $\delta(x)$ 来改变 $I[y]$ ，但有无数个可能的函数，这会导致很多困难。为了避免担心这些可能性，我们转而关注某个单个一维变分系列。我们固定一个函数 $\eta(x)$ ，并考虑

y(x)+\alpha\eta(x)\tag{12}

其中， $\alpha$ 是一个实参数。这允许我们来考虑

I[y+\alpha\eta]=\int_{a}^{b}F(x,y+\alpha\eta,y^{\prime}+\alpha\eta^{\prime})\mathrm{d}x\tag{13}

特别的我们有下面的引理。

引理 2.4 (最小值给出稳定值) 令 $y(x)$ 给出 $I[y]$ 的最小值，而 $\eta(x)$ 是一个光滑函数。则我们有

\left.\frac{\mathrm{d}}{\mathrm{d}\alpha}I[y+\alpha\eta]\right|_{\alpha=0}\tag{14}

证明：这实际上只是标准的微积分极小值判据的另一种表现形式。如果 $y(x)$ 给出 $I$ 的最小值，则对于所有在零的邻域中的 $\alpha$ 有 $I[y+\alpha\eta]\geqslant I[y]$ ，所以 $f(\alpha)=I[y+\alpha \eta]$ 在 $\alpha=0$ 时取得最小。因此 $f^{\prime}(0)=0$ ，这正是引理的表述。

~\tag*{$\square$}

引理 2.5 (约束最小值给出稳定值) 令 $y(x)$ 给出 $I[y]$ 的最小值，受制于 $y(a)=c_{1}$ 和 $y(b)=c_{2}$ ，而 $\eta(x)$ 是一个光滑函数且 $\eta(a)=\eta(b)=0$ 。则我们有

\left.\frac{\mathrm{d}}{\mathrm{d}\alpha}I[y+\alpha\eta]\right|_{\alpha=0}=0

证明：和之前的证明一样，注意到如果 $\eta(a)=\eta(b)=0$ ，则 $y+\alpha\eta$ 仍然满足约束 $y(a)=c_{1}$ 和 $y(b)=c_{2}$ 。

~\tag*{$\square$}

定理 2.6 (自然边界条件的Euler-Lagrange方程) 令 $I[y]$ 是泛函

I[y]:=\int_{a}^{b}F(x,y,y^{\prime})\mathrm{d}x

对于一些光滑函数 $F$ 。则 $y(x)$ 给出 $I$ 的最小化满足

\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial F}{\partial y^{\prime}}-\frac{\partial F}{\partial y}=0\tag{15}

并且

\left.\frac{\partial}{\partial y^{\prime}}F\right|_{x=a}=\left.\frac{\partial}{\partial y^{\prime}}F\right|_{x=b}=0\tag{16}

证明：令 $y=y(x)$ 给出 $I[y]$ 的最小化，而 $\eta=\eta(x)$ 是一个光滑函数。通过引理 2.4，我们有

\left.\frac{\mathrm{d}}{\mathrm{d}\alpha}I[y+\alpha\eta]\right|_{\alpha=0}=0

通过应用链式法则，我们可以写出

\left.\frac{\mathrm{d}}{\mathrm{d}\alpha}I[y+\alpha\eta]\right|_{\alpha=0}=\int_{a}^{b}\left(\eta(x)\frac{\partial}{\partial y}F(x,y,y^{\prime})+\eta^{\prime}(x)\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})\right)\mathrm{d}x

(这里通过 $\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})$ ，我们指的是 $F_{3}(x,y,y^{\prime})$ ，其中函数 $F_{3}$ 定义为 $F_{3}(x,y,z)=\frac{\partial}{\partial z}F(x,y,z)$ 。)

下一个关键步骤是分部积分，来估计 $\eta^{\prime}(x)$ ，首先注意到

\frac{\mathrm{d}}{\mathrm{d}x}\left(\eta\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})\right)=\eta^{\prime}\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})+\eta\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})

所以

\int_{a}^{b}\eta^{\prime}(x)\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})\mathrm{d}x=\left[\eta\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})\right]_{a}^{b}-\int_{a}^{b}\eta(x)\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})\mathrm{d}x

(这里 $\frac{\mathrm{d}}{\mathrm{d}x}$ 表示全导数，作用在显式或非显式出现的 $x$ 上( $y$ 和 $y^{\prime}$ 中)。)

因此

\left.\frac{\mathrm{d}}{\mathrm{d}\alpha}I[y+\alpha\eta]\right|_{\alpha=0}=\left[\eta\frac{\partial F}{\partial y^{\prime}}\right]_{a}^{b}+\int_{a}^{b}\eta(x)\left(\frac{\partial F}{\partial y}-\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial F}{\partial y^{\prime}}\right)\mathrm{d}x

现在，为了 $y$ 取得极值，方程等号左边在 $\eta$ 的任意选取下必须消失。因此方程等号右边对于任意 $\eta(x)$ 必须消失。但是对于引理 2.3意味着

\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial F}{\partial y^{\prime}}-\frac{\partial F}{\partial y}=0

和

\left.\frac{\partial}{\partial y^{\prime}}F\right|_{x=a}=\left.\frac{\partial}{\partial y^{\prime}}F\right|_{x=b}=0

如要求的一样。

~\tag*{$\square$}

定理 2.7 (固定端点边界条件Euler-Lagrange方程) 令 $I[y]$ 是泛函

I[y]:=\int_{a}^{b}F(x,y,y^{\prime})\mathrm{d}x

对于一些光滑函数 $F$ 。则 $y(x)$ 给出 $I$ 的最小值和 $y(a)=c_{1}$ 与 $y(b)=c_{2}$ 满足

\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial F}{\partial y^{\prime}}-\frac{\partial F}{\partial y}=0\tag{17}

证明：这与前面的证明基本相同，通过引理 2.5，我们只考虑函数 $\eta$ 满足 $\eta(a)=\eta(b)=0$ 。对于所有这样的函数，我们发现

\begin{aligned} 0=\left.\frac{\mathrm{d}}{\mathrm{d}\alpha}I[y+\alpha\eta]\right|_{\alpha=0}&=\left[\eta\frac{\partial F}{\partial y^{\prime}}\right]_{a}^{b}+\int_{a}^{b}\eta(x)\left(\frac{\partial F}{\partial y}-\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial F}{\partial y^{\prime}}\right)\mathrm{d}x\\ &=\int_{a}^{b}\eta(x)\left(\frac{\partial F}{\partial y}-\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial F}{\partial y^{\prime}}\right)\mathrm{d}x \end{aligned}

(项 $\left[\eta\frac{\partial F}{\partial y^{\prime}}\right]_{a}^{b}$ 消失，因为 $\eta(a)=\eta(b)=0$ 。)现在根据引理 2.2，我们看到我们必须有

\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial F}{\partial y^{\prime}}-\frac{\partial F}{\partial y}=0

如要求的一样。

~\tag*{$\square$}

注意：找到极值和稳定值与找到最大值或最小值并不是一回事。它需要一些进一步的信息来确定一个极值是（局部）最大值，还是（局部）最小值，或者两者都不是。然而，最大值和最小值必须是极值。

§3 经典例子和基本定理

我们现在从Euler-Lagrange方程的角度来看前面的两个例子。

例 4 (Euclid平面上的最短距离) 路径 $y=y(x)$ 在 $(x_{1},y_{1})$ 到 $(x_{2},y_{2})$ 之间距离的最小化等价于最小化 $I[y]=\int_{a}^{b}F(x,y,y^{\prime})\mathrm{d}x$ ，其中 $y(x_{1})=y_{1}, y(x_{2})=y_{2}$ ，其中 $F$ 由下式给出

F(x,y,y^{\prime})=\sqrt{1+y^{\prime 2}}\tag{18}

因为 $\frac{\partial F}{\partial y}=0$ ，Euler-Lagrange方程变成

\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial F}{\partial y^{\prime}}=\frac{\mathrm{d}}{\mathrm{d}x}\frac{y^{\prime}}{\sqrt{1+y^{\prime 2}}}=0\tag{19}

因为 $\frac{y^{\prime}}{\sqrt{1+y^{\prime 2}}}$ 是常数，因此 $y^{\prime}$ 是常数，所以我们得到一条直线。

例 5 (“泥泞场地”上的最短路径) 接下来，我们验证第一节中“泥泞场地”问题中的路径是圆。我们现在取

F(x,y,y^{\prime})=\frac{\sqrt{1+y^{\prime 2}}}{x}\tag{20}

Euler-Lagrange方程是

\frac{\mathrm{d}}{\mathrm{d}x}\frac{\partial F}{\partial y^{\prime}}=\frac{\mathrm{d}}{\mathrm{d}x}\frac{y^{\prime}}{x\sqrt{1+y^{\prime 2}}}=\frac{\partial F}{\partial y}=0\tag{21}

积分得到

\frac{y^{\prime}}{x\sqrt{1+y^{\prime 2}}}=c\tag{22}

这和我们通过推广的Snell定律推导出的方程(4)一样。为了提醒你，解是圆心在 $y$ 轴上的圆。(同样地需要同时考虑固定点和自然边界条件，你可以检查这些都使得解有意义。)

§3.1 一个“可忽略坐标”

你应该特别注意这些问题从二阶ODE化简为一阶ODE的方式，因这个特别的 $F(x,y,y^{\prime})$ 不显式依赖 $y$ ,i.e. $\frac{\partial F}{\partial y}=0$ 。这一点非常的重要，特别是在数学物理的应用中。依赖变量 $y$ 在这种情况下被称为是可忽略的(ignorable)。我们可以表述一个一般定理：

定理 3.1 (Euler-Lagrange方程的特殊情况) 令 $F(x_{1},x_{2},x_{3})$ 是一个光滑函数使得

\frac{\partial}{\partial x_{2}}F(x_{1},x_{2},x_{3})=0

令 $y=y(x)$ 是一个最小值对于泛函

I[y]:=\int_{a}^{b} F(x,y,y^{\prime})\mathrm{d}x

则 $\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})$ 是一个常数。

§3.2 从另一个基准点的相同问题

如果我们考虑的问题是寻找泛函 $I[y]$ 的稳定值，其中取

F(x,y,y^{\prime})=\frac{\sqrt{1+y^{\prime 2}}}{y}\tag{23}

几何表述立刻告诉我们极值必须是圆心在 $x$ 轴上的圆。然而，这并不明显当我们写出Euler-Lagrange方程

\frac{\mathrm{d}}{\mathrm{d}x}\left(\frac{y^{\prime}}{y\sqrt{1+y^{\prime 2}}}\right)+\frac{\sqrt{1+y^{\prime 2}}}{y^{2}}=0\tag{24}

给出了一个看起来很复杂的二阶ODE。关键是要注意当 $F$ 不显式依赖 $x$ ，会得到一个更普遍的结果，这就是Beltrami恒等式(Beltrami's identity)，它也非常重要。

定理 3.2 (Bletrami恒等式) 令 $F(x_{1},x_{2},x_{3})$ 是一个光滑函数使得

\frac{\partial}{\partial x_{1}}F(x_{1},x_{2},x_{3})=0.

令 $y=y(x)$ 为 $I[y]=\displaystyle\int_{a}^{b}F(x,y,y^{\prime})\mathrm{d}x$ 。则我们有

\frac{\mathrm{d}}{\mathrm{d}x}\left(y^{\prime}\frac{\partial F}{\partial y^{\prime}}-F\right)=0\tag{25}

即

H=y^{\prime}\frac{\partial F}{\partial y^{\prime}}-F=\text{常数}.\tag{26}

证明：因为 $\partial F(x_{1},x_{2},x_{3})/\partial x_{1}=0$ ，我们有

\frac{\mathrm{d}}{\mathrm{d}x}F(x,y,y^{\prime})=0+y^{\prime}\frac{\partial}{\partial y}F(x,y,y^{\prime})+y^{\prime\prime}\frac{\partial}{\partial y^{\prime}}F(x,y,y^{\prime})

但根据Euler-Lagrange方程，这是

y^{\prime} \frac{\mathrm{d}}{\mathrm{d} x} \frac{\partial}{\partial y^{\prime}} F\left(x, y, y^{\prime}\right)+y^{\prime \prime} \frac{\partial}{\partial y^{\prime}} F\left(x, y, y^{\prime}\right)=\frac{\mathrm{d}}{\mathrm{d} x}\left(y^{\prime} \frac{\partial}{\partial y^{\prime}} F\left(x, y, y^{\prime}\right)\right)

结论得证。

~\tag*{$\square$}

替代证明：虽然前面的证明很容易，但它并没有说明为什么这第一个积分存在。下面的论证说明了原因：它实际上只是一个可忽略坐标的特例。我们只需交换 $x$ 和 $y$ 的角色，把要找到的曲线看作函数 $x(y)$ ，而不是函数 $y(x)$ 。（在我们研究的这个特殊问题中，这显然是一个非常自然的想法！）记 $x^{\prime}$ 为 $\mathrm{d}x/\mathrm{d}y$ ，使得 $y^{\prime}=(x^{\prime})^{-1}$ ，积分

\int_{a}^{b}F(x,y,y^{\prime})\mathrm{d}x,\quad y(a)=c, y(b)=d\tag{27}

变成

\int_c^d F\left(x, y,\left(x^{\prime}\right)^{-1}\right) x^{\prime} \mathrm{d} y, \quad x(c)=a, x(d)=b\tag{28}

现在 $x$ 是可忽略坐标，所以Euler-Lagrange方程变为

\frac{\partial}{\partial x^{\prime}}(F(x,y,(x^{\prime})^{-1})x^{\prime})=\text{常数}

注意这里的偏导数，即记住像 $\frac{\partial}{\partial y^{\prime}}F (x,y,y^{\prime})$ 这样的表达式是如何正确定义的，这样就可以得到

-\left(x^{\prime}\right)^{-2} F_3\left(x, y,\left(x^{\prime}\right)^{-1}\right) x^{\prime}+F\left(x, y,\left(x^{\prime}\right)^{-1}\right)=\text{常数}

（这里 $F_{3}(x_{1},x_{2},x_{3})=\frac{\partial F(x_{1},x_{2},x_{3})}{\partial x_{3}}$ 。）因此

-y^{\prime} F_3\left(x, y, y^{\prime}\right)+F\left(x, y, y^{\prime}\right)=\text{常数}

其等价于Beltrami恒等式。

~\tag*{$\square$}

应用于 "泥泞场地 "问题，我们可以推导出

H=\frac{-1}{y\sqrt{1+y^{\prime 2}}}=\text{常数}\tag{29}

这样就可以直接进行剩余的积分操作，从而得到圆形路径。

在这种情况下，没有满足自然边界条件的解。这与积分在 $x = a$ 和 $x = b$ 之间没有最小值或最大值的事实相符。它可以取任意正值，并且无法达到下确界0。

我们将在第五讲中回到这种最短路径问题，或者更一般地，短程线问题。事实证明，“泥泞场”实际上是表示双曲平面的核心数学概念的一种方式。

例 6 （最速降线问题） 找出一条曲线，使得从某一点静止释放的粒子能够以最短的时间到达其下方的给定低点，而不是立即在其下方。

（我们假设重力是一个常数力 $g$ 。）这是Newton、J. Bernoulli 及其他人在17世纪解决的最著名的定常积分问题之一。答案并不直观。

这需要一些第一年力学知识来获得相关的 $F(x, y, y^{\prime})$ 。在这个问题中，我们使用 $x$ 表示水平方向的距离， $y$ 表示垂直方向向下的距离。（这样做纯粹是为了能够从原点开始，同时避免诸如 $\sqrt{-y}$ 之类的表达式。）

具体来说，假设粒子从 $t = 0$ 时刻的 $(x, y) = (0, 0)$ 释放，然后沿着曲线 $y = y(x)$ 运动，该曲线到达 $(x, y) = (a, h)$ ，其中 $h$ 是下降的高度， $a$ 是水平方向的距离。使用初始条件以及能量守恒，我们知道在曲线 $y = y(x)$ 上的运动中的每一点都有

E = \frac{1}{2}m(\dot{x}^2 + \dot{y}^2) - mgy = 0

所以

\dot{x}^2 = \frac{2gy}{1 + y^{\prime2}}

其中 $y^{\prime} = \frac{\mathrm{d}y}{\mathrm{d}x}$ ，因此

\mathrm{d}t = \frac{1}{\sqrt{2g}} \frac{\sqrt{1 + y^{\prime2}}}{\sqrt{y}} \mathrm{d}x,

因此，总时间 $T$ 被定义为 $y(x)$ 曲线的泛函，由

T[y] = \frac{1}{\sqrt{2g}} \int_0^a \frac{\sqrt{1 + y^{\prime2}}}{\sqrt{y}} \mathrm{d}x.\tag{30}

我们希望找到曲线 $y(x)$ 使 $T[y]$ 最小化，满足通过 $(0, 0)$ 和 $(a, h)$ 的固定端边界条件。（注意，这也可以解释为解决“泥泞场”问题中速度与 $\sqrt{y}$ 成比例的最快路径问题。）

我们可以轻松地推导出 Euler-Lagrange 方程，但更有效的是采用捷径并使用 Beltrami 恒等式，因为 $F(x, y, y^{\prime})$ 仅取决于 $y$ ， $y^{\prime}$ ，这告诉了我们

\sqrt{y}\sqrt{1+y^{\prime 2}}=\sqrt{2c}\tag{31}

对于一些常数 $2c$ 。要解决这个问题，进行替换 $y = 2c\sin^2(\phi/2)$ ，然后它变为

\frac{\mathrm{d}x}{\mathrm{d}\phi} = 2c\sin^2(\phi/2) = c(1 - \cos \phi),

因此（使用初始条件）

x = c(\phi - \sin \phi), \quad y = c(1 - \cos \phi),\tag{32}

这就是一个摆线（cycloid）。请参见下图：

$a$ 与 $h$ 的比值决定了解决问题的摆线的弧度。如果 $a/h = \pi/2$ ，那么摆线一直到其最低点 $\phi = \pi$ ，其中 $c = a/\pi$ ；如果 $a/h < \pi/2$ ，那么它是摆线的一个更小的段落，其中 $c$ 的值选择以适应，等等。

值得补充一些细节。发现 $\dot{\phi}$ 是常数，即 $\sqrt{g/c}$ 。因此，到达参数为 $\phi$ 的点的时间就是 $\sqrt{c/g}\phi$ 。假设给定了水平距离 $a$ ，我们要求最快到达它的路径，这要在所有可能的 $h$ 中求解。时间由 $\sqrt{c/g}\phi$ 给出，其中 $c$ 通过关系 $a = c(\phi - \sin \phi)$ 隐含地给定。因此，找到最快到达 $a$ 的方法等同于最小化 $\frac{\phi}{\sqrt{\phi - \sin \phi}}$ 。可以检查这由 $\phi = \pi$ 给出。这验证了我们从自然边界条件 $y^{\prime} = 0$ 得到的结果 $x = a$ 。这选择了在 $x = a$ 处的摆线，它到达最低点，即 $\phi = \pi$ 。

例 7（肥皂膜） 考虑通过围绕 $x$ 轴旋转曲线 $y = y(x)$ ，在 $x = x_1$ 和 $x = x_2$ 之间获得的表面。哪条曲线给出了最小面积？

在这个问题中，目标是找到最小面积，但由于这是一个旋转曲面的面积问题，这个问题简化为寻找一条曲线。这可以想象为悬挂在 $x_1$ 和 $x_2$ 两个圆形线圈之间的肥皂膜，假设膜将在最小面积的位置建立平衡。

在这种情况下，需要最小化的泛函 $A[y]$ 很容易给出

A[y] = 2\pi \int_{x_1}^{x_2} y \sqrt{1 + y^{\prime 2}} \, \mathrm{d}x.\tag{33}

积分不显式依赖于 $x$ ，所以Beltrami恒等式给我们一个第一积分：

\frac{y}{\sqrt{1 + y^{\prime 2}}} = c

其解为

y = c \cosh\left(\frac{x - x_0}{c}\right).\tag{34}

填充细节并适配初始条件是一个相当麻烦的过程，作为练习留给读者。

双曲余弦曲线在另一种问题中再次出现——寻找悬挂链条线的形状。由于这个联系，它被称为悬链线(catenary)。我们发现的表面是悬链面(catenoid)，它在表面几何学中起着重要作用。

例 8（一个典型的二阶常微分方程问题） 假设

F(x, y, y^{\prime}) = \frac{1}{2} y^{\prime 2} - \frac{1}{2} y^2 + y f(x), \quad y(0) = 0 = y(1).\tag{35}

那么

\frac{\partial F}{\partial y^{\prime}} = y^{\prime}, \quad \frac{\partial F}{\partial y} = -y + f,

并且Euler-Lagrange方程是

y^{\prime \prime} + y - f(x) = 0.\tag{36}

在这种情况下，我们没有可以利用的可忽略坐标或Beltrami恒等式的帮助。然而，我们认识到这个二阶常微分方程是微分方程课程中深入研究的方程类型，具有可以通过Green函数求解的边界条件。

在本文中，我们不会进一步探讨这种方程的解；实际上，我们对另一个问题更感兴趣。我们能否将以前遇到的微分方程转化为寻找极值的一个问题？

§4 扩展到多变量和Hamilton原理

在本节中，我们探讨变分法在经典力学中的应用。

首先，我们需要进行适度的推广，以允许多个因变量。为此，改变我们的符号表示是很方便的，因为在力学应用中，通常时间是唯一的自变量。多个因变量代表力学系统的空间坐标。因此，我们首先考虑 $q(t)$ 和 $F(t, q, \dot{q})$ ，而不是 $y(x)$ 和 $F\left(x, y, y^{\prime}\right)$ ，其中 $q$ 是典型的空间坐标， $t$ 是时间。使用 $q$ 而不是 $x$ 作为因变量是有原因的；我们不希望被限制在直角坐标系内，因为使用字母 $x$ 可能会错误地暗示这一点。变量 $q$ 可能是角度或径向距离等。然后我们推广到 $q_1(t), q_2(t), \ldots, q_n(t)$ 和函数 $F\left(t, q_1, \ldots, q_n, \dot{q}_1, \ldots, \dot{q}_n\right)$ 。因此，我们考虑以下泛函的稳定值

I\left[q_1, \ldots, q_n\right]=\int_a^b F\left(t, q_1, \ldots q_n, \dot{q}_1, \ldots, \dot{q}_n\right) \mathrm{d} t\tag{37}

定理 4.1 设 $F$ 为一个光滑函数，并且

I\left[q_1, \ldots, q_n\right]:=\int_a^b F\left(t, q_1, \ldots, q_n, \dot{q}_1, \ldots, \dot{q}_n\right) \mathrm{d} t

那么泛函 $I$ 的极小化函数 $q_1=q_1(t), \ldots, q_n=q_n(t)$ 满足

\frac{\mathrm{d}}{\mathrm{d} t} \frac{\partial F}{\partial \dot{q}_i}-\frac{\partial F}{\partial q_i}=0, \text{对于 } i=1, \ldots, n\tag{38}

以及自然边界条件

\left[\frac{\partial F}{\partial \dot{q}_i}\right]_a^b=0, \text{对于 } i=1, \ldots, n\tag{39}

在满足约束条件 $q_i(a)=c_{1, i}$ 和 $q_i(b)=c_{2, i}$ 的情况下，泛函 $I$ 的极小化函数满足上述方程(37)，但不一定满足方程(38)。

证明概要：找到这些极小化函数的方法与最简单情况下相同；我们选择一个指标 $i$ 和一个检验函数 $\eta_i$ ，并暂时固定 $q_j$ （对于 $j \neq i$ ），但使 $q_i$ 变化，即 $q_i(t) \rightarrow q_i(t)+\alpha \eta_i(t)$ 。由于我们暂时固定了 $j \neq i$ 的 $q_j$ ，因此泛函 $I$ 的形式正是已经考虑过的情形。Euler-Lagrange方程给出

\frac{\mathrm{d}}{\mathrm{d} t} \frac{\partial F}{\partial \dot{q}_i}-\frac{\partial F}{\partial q_i}=0

并且自然边界条件为

\left[\eta_i \frac{\partial F}{\partial \dot{q}_i}\right]_a^b=0 。

依次对每个指标 $i$ 执行上述步骤，得出结果。

~\tag*{$\square$}

我们有两个重要的特殊情况：

当某个变量 $q_i$ 不出现在 $F$ 中时，会出现“可忽略坐标”，

\frac{\partial F}{\partial q_i}=0\text{意味着}\frac{\partial F}{\partial \dot{q}_i}\text{是一个常数。}\tag{40}

当 $F$ 与时间 $t$ 无关时，会出现Beltrami恒等式的推广形式，

\frac{\partial F}{\partial t}=0\text{意味着}H=\sum\limits_{i=1}^n \dot{q}_i \frac{\partial F}{\partial \dot{q}_i}-F\text{是一个常数。}\tag{41}

§4.1. Hamilton原理

以下陈述总结了为什么经典力学可以通过极值问题重构，并通过变分法求解。

定义 1. 如果在力学系统中没有摩擦，约束不做功，则称该约束为无功约束(workless constraint)。

如果一个约束的形式为 $\phi\left(q_i, t\right)=0$ ，其中 $q_i$ 为一组坐标，且该约束不涉及速度 $\dot{q}_i$ ，则称该约束为完整约束(holonomic constraint)。

如果一个力是某个势函数 $V$ 的梯度，则称该力为保守力(conservative force)。

原理（Hamilton原理）。如果一个力学系统仅受完整的无功约束且所有力都是保守力，则根据Newton定律，系统的运动是积分

I[q]=\int L\left(q_i, \dot{q}_i, t\right) \mathrm{d} t\tag{42}

的极值，其中坐标 $q_i$ 是任意但不受约束的， $L=T-V$ ，即系统的动能减去势能在这些坐标中的表达。 $L$ 被称为Lagrange量。

这就是Hamilton原理，也称为最小作用量原理(principle of least action)，其中积分 $I[q]$ 称为作用量(action)。

在本文中，我们将其视为已知而不加以证明，即它正确使用了物理定律。（在经典力学课程中将证明它与Newton定律是等价的。）注意， $I[q]$ 的量纲是能量乘以时间。作用量是具有这些量纲的物理量的一个术语。事实证明，它是最基本的物理量（特别是Planck常数是作用量的一个量子）。

例 9（无任何外力作用下的自由空间中的运动） 最简单的例子是取 $L=T=\frac{1}{2} m\left(\dot{x}^2+\dot{y}^2+\dot{z}^2\right)$ 。Euler-Lagrange方程为

\ddot{x}=\ddot{y}=\ddot{z}=0，\tag{43}

即自由粒子的Newton运动定律。

例 10（受保守力作用的自由空间中的运动） 下一个最简单的例子是 $L=T-V=\frac{1}{2} m\left(\dot{x}^2+\dot{y}^2+\dot{z}^2\right)-m \psi(x, y, z)$ ，描述在仅受具有势 $\psi$ 的保守力（通常是Newton引力）作用下的自由空间中的运动。此时，Euler-Lagrange方程变为

\ddot{x}=-\frac{\partial \psi}{\partial x}, \quad \ddot{y}=-\frac{\partial \psi}{\partial y}, \quad \ddot{z}=-\frac{\partial \psi}{\partial z}。

如果我们进行坐标变换，作为稳定积分的重构价值通常会更加明显。对于轨道问题，当 $\psi=-k / r$ 时，使用Cartesian坐标 $x, y, z$ 虽然有效，但并不十分有用。由于Lagrange量形式不在意我们使用哪种坐标，因此更方便使用球极坐标。

例 11（势 $\psi=-k/r$ 的轨道问题） 在极坐标 $(r, \phi, \theta)$ 中，对于具有势 $\psi=-k / r$ 的自由空间运动，我们有

L=T-V=\frac{1}{2} m\left(\dot{r}^2+r^2 \dot{\theta}^2+r^2 \sin ^2 \theta \dot{\phi}^2\right)+\frac{k m}{r} 。

$\theta$ 方程为：

\frac{\mathrm{d}}{\mathrm{d} t}\left(r^2 \dot{\theta}\right)-r^2 \sin \theta \cos \theta \dot{\phi}^2=0

其解为 $\theta \equiv \pi / 2$ ，即路径始终在赤道平面上。将注意力限制在这种路径上，剩下的方程变为

\begin{gathered} \ddot{r}-r \dot{\phi}^2+\frac{k}{r^2}=0 \\ \frac{\mathrm{d}}{\mathrm{d} t}\left(r^2 \dot{\phi}\right)=0 \end{gathered}

在初步动力学中，通过更长的论证得出了相同的方程。显然， $\phi$ 方程可以积分为

r^2 \dot{\phi}=h

非常重要的是要注意，这一步的简洁性直接来源于 $\phi$ 从未出现在 $L$ 中；它是一个可忽略坐标。角动量守恒是这种Lagrange量形式中使用Hamilton原理的可忽略坐标的直接结果。

能量守恒定律同样可以很容易地推导出来；它相当于Beltrami恒等式。根据上述观点， $L$ 对 $t$ 没有显式依赖意味着

H=\sum_{i=1}^n \dot{q}_i \frac{\partial L}{\partial \dot{q}_i}-L\tag{44}

沿着路径保持不变。

从 $L$ 的原始形式（在专注于赤道路径之前）可以立即看出，在这种情况下 $H$ 就是 $T+V$ ，即总能量。对于赤道路径，我们简化为

\frac{1}{2}\left(\dot{r}^2+r^2 \dot{\phi}^2\right)-\frac{k}{r}=E\tag{45}

因此，现在我们将整个问题简化为单一积分，得出了众所周知的圆锥曲线解。

我们使用的两个简化定理——可忽略坐标和Beltrami恒等式——指出了物理理论的一个深刻特征。对称性概念（即在一组变换下的不变性）与守恒定律之间存在直接联系。

角度 $\phi$ 的独立性意味着作用量在 $\phi \rightarrow \phi+\alpha$ 下保持不变，这一事实等价于角动量的守恒。在一个 $x$ 是可忽略的情况下，即作用量在 $x \rightarrow x+\alpha$ 下保持不变，对应的 $x$ 方向的动量是守恒的。而当 $t$ 可以被替换为 $t+\alpha$ 时，我们有能量守恒。

注意到角度 $\times$ 角动量、长度 $\times$ 动量和时间 $\times$ 能量，这些都具有作用量的量纲。这种共轭关系在量子力学中变得至关重要，并且是著名的Heisenberg不确定性原理的基础。

Euler-Lagrange方程在坐标变化下必须保持相同的形式，因为稳定性的概念不依赖于使用哪个坐标系来描述问题。从技术层面上讲，这意味着我们可以使用任何我们喜欢的坐标来写出 $T$ 和 $V$ ，而无需进行任何链式规则的变量变换。

我们将通过几个例子来说明这种简洁性。

§5 物理和几何中更多的例子

到目前为止，我们还没有利用施加完整约束的新自由度。

在初步动力学中研究的一个典型问题是粒子在旋转曲面上平滑移动，例如抛物面 $a z=x^2+y^2$ 。让我们从Hamilton原理推导出运动方程。

例 12（在抛物面上的运动） 在任意时刻，粒子的位置可以表示为 $(\sqrt{a z} \cos \theta, \sqrt{a z} \sin \theta, z)$ 。也就是说，我们利用了由光滑表面提供的完整约束，消除了三个空间维度中的一个，将空间简化为二维。在这里，我们使用 $z, \theta$ 作为两个必要的 $q_i$ ，但原则上我们可以使用任何我们喜欢的坐标。不过，选择角度 $\theta$ 作为两个坐标之一是个好主意，因为这样一来，它在 $L$ 中是可忽略的，从而产生一个简单的第一积分。具体来说，

L=T-V=\frac{1}{2}\left(\left(1+\frac{a}{4 z}\right) \dot{z}^2+a z \dot{\theta}^2\right)-g z

而 $\theta$ 是可忽略的这一事实意味着 $\dot{\theta}=h / z$ ，其中 $h$ 是某个常数。由于 $L$ 对 $t$ 没有显式依赖，并且它在速度上是二次的，这意味着 $T+V$ 是守恒的。因此，在初步处理中的所有结果都可以立即推导出来，而无需通过点乘和楔积向量来消除反作用力。

例 13（旋转铁丝上的粒子） 一个粒子沿着与竖直方向成角度 $\beta$ 的直线铁丝平滑移动，并以恒定角速度 $\omega$ 绕竖直轴旋转。

在初步动力学中，直接从Newton第二定律出发，需要通过将Newton第二定律与一个切向铁丝的向量点乘来消除法向反作用力。使用Hamilton原理，我们可以忽略法向反作用力，直接求解Lagrange量 $L=T-V$ 。相对于惯性系，粒子的位置为

\mathbf{x}=(z \tan \beta \cos \omega t, z \tan \beta \sin \omega t, z)

粒子的质量无关紧要，可以设为1，因此粒子的动能和势能为

T=\frac{1}{2}|\dot{\mathbf{x}}|^2=\frac{1}{2}\left\{(z \omega \tan \beta)^2+(\dot{z} \sec \beta)^2\right\}, \quad V=g z

这里只有一个广义坐标 $z$ ，因此只有一个Euler-Lagrange方程。这样立即得到了运动方程：

\ddot{z}-\omega^2 \sin ^2 \beta z=-g \cos ^2 \beta。

这正是问题中要求的方程。该问题还需讨论 $E=T+V$ 是否守恒，实际上并不守恒。为了保持铁丝以恒定角速度 $\omega$ 旋转，必须施加扭矩，因此必须做功。

Lagrange方法做得更好。它构建了一个守恒的Hamilton量 $H$ ，但该Hamilton量并不等于总能量，

H=\dot{z} \frac{\partial L}{\partial \dot{z}}-L=\frac{1}{2}\left\{(\dot{z} \sec \beta)^2-(z \omega \tan \beta)^2\right\}+g z

Hamilton量与 $T+V$ 不同，因为 $T$ 不是速度的齐次二次多项式。动能 $T$ 既包含来自 $z^2$ 的贡献，也包含来自 $\dot{z}^2$ 的贡献。

现在我们可以自由考虑更一般的问题，这些问题使用初步动力学方法可能难以解决。

例 14（在无外力作用下的一般曲面上的运动） 假设我们有一个粒子在嵌入三维空间的一个相当一般的曲面上运动。（在接下来的讨论中，我们将假设粒子始终与曲面接触这一约束，而不担心如何在物理上实现粒子永远不失去接触的情况。你可以想象一个外表面为双层的航天器；粒子在这两层之间运动，因此法向反作用力可以指向内侧或外侧。）

Hamilton原理立即为这种运动提供了一个Lagrange量：它只是受约束在曲面上运动的动能 $T$ 。具体来说，假设曲面由 $(u, v)$ 参数化，因此其点由 $\mathbf{x}(u, v)=$ $(x(u, v), y(u, v), z(u, v))$ 指定。然后将 $L$ 写成 $(u, v)$ 坐标的形式，我们有：

L=T=\frac{m}{2}\left(\dot{x}^2+\dot{y}^2+\dot{z}^2\right)=\frac{m}{2}\left(E(u, v) \dot{u}^2+2 F(u, v) \dot{u} \dot{v}+G(u, v) \dot{v}^2\right)

其中

E(u, v)=\mathbf{x}_u \cdot \mathbf{x}_u, F(u, v)=\mathbf{x}_u \cdot \mathbf{x}_v, G(u, v)=\mathbf{x}_v \cdot \mathbf{x}_v

现在我们可以写出Euler-Lagrange方程，从而原则上确定整个运动。一般来说，这些关于 $u$ 和 $v$ 的二阶微分方程不易解，但简化的一点是粒子所走的路径是曲面上的测地线——弧长的稳定值。

为了证明这一点，首先注意到纯“动能”形式的Lagrange量（即速度 $\dot{q}_i$ 的二次方，且不显式依赖于 $t$ ）具有一个特殊属性：根据Beltrami恒等式， $L$ 的值本身是运动的一个常数。

动能也是正定的。假设 $f$ 是正实数上的某个严格递增函数，并考虑 $f(L)$ 的稳定值问题。Euler-Lagrange方程将是

\begin{gathered} \frac{\mathrm{d}}{\mathrm{d} t} \frac{\partial f(L)}{\partial \dot{q}_i}-\frac{\partial f(L)}{\partial q_i}=0 \\ \frac{\mathrm{d}}{\mathrm{d} t}\left(f^{\prime}(L) \frac{\partial L}{\partial \dot{q}_i}\right)-f^{\prime}(L) \frac{\partial L}{\partial q_i}=0 \\ f^{\prime \prime}(L) \frac{\mathrm{d} L}{\mathrm{~d} t} \frac{\partial L}{\partial \dot{q}_i}+f^{\prime}(L)\left(\frac{\mathrm{d}}{\mathrm{d} t} \frac{\partial L}{\partial \dot{q}_i}-\frac{\partial L}{\partial q_i}\right)=0 \end{gathered}

但由于 $\mathrm{d} L / \mathrm{d} t=0$ 且 $f^{\prime}(L) \neq 0$ ，这简化为 $L$ 的Euler-Lagrange方程。

取 $f(L)$ 为 $\sqrt{L}$ 告诉我们

\int \sqrt{E(u, v) \dot{u}^2+2 F(u, v) \dot{u} \dot{v}+G(u, v) \dot{v}^2} \mathrm{~d} t

产生了相同的Euler-Lagrange方程。而这正是曲面上轨迹的弧长，在测地线上弧长是稳定的。

如果我们希望，我们可以消除时间变量 $t$ ，将积分写为

\int \sqrt{E(u, v)+2 F(u, v) v_u+G(u, v) v_u^2} \mathrm{~d} u

此时， $v=v(u)$ 被认为定义了曲面上的曲线。这与我们之前研究的形式相同。

因此，在没有外力的情况下，粒子仅仅沿着符合几何约束的最短路径（至少在局部最小的意义上）运动。在这种情况下，最小作用量实际上与最短距离重合。这是对Newton第二定律的推广。

§5.1 更多短程线

例 15（圆柱面） 假设曲面为半径为1、轴沿着 $z$ 轴的圆柱面。其参数化方程为

\mathbf{x}(u, v)=(\cos u, \sin u, v)

我们计算得出 $\mathbf{x}_u=(-\sin u, \cos u, 0), \mathbf{x}_v=(0,0,1)$ ，因此 $E=G=1, F=0$ 。Lagrange量就是动能，

L(u, v, \dot{u}, \dot{v})=\frac{1}{2}\left(\dot{u}^2+\dot{v}^2\right)

所以短程线由以下方程给出

\ddot{u}=\ddot{v}=0。

这些在 $(u, v)$ 坐标系中是直线。同样，通过寻找作为弧长稳定曲线的短程线也可以得出相同的结论。上述方法给出 $v_{uu}=0$ ，即短程线的方程为 $v=a u+b$ 。（注意，圆柱面上的路径清楚地说明了路径长度的局部最小值与全局最小值完全不同。）

为什么这如此简单？关键在于，尽管圆柱面在 $\mathbb{R}^3$ 中被视为一个曲面，但它实际上本质上是平的，这一点直观上很明显：该曲面可以在不拉伸的情况下展开，并铺展在欧几里得平面上。正确的术语是，它与平面是等距的。在这种等距映射下，短程线保持不变，因为它们是本质定义的。

值得注意的是，短程线的概念在曲面上要比此处讨论的更为广泛。我们无需将曲面限制为嵌入在三维空间中的曲面。度量可以抽象地给出（实际上我们在开篇讲座中用“速度”函数做了类似的事情）。此外，也不需要仅关注曲面上的短程线；我们同样可以研究任意维度空间中的短程线。

在物理学中，这一概念在Einstein广义相对论的发展中起到了极为重要的作用。在广义相对论中，重力成为四维时空几何的一部分，而不是一种力，自由落体（包括光线）的轨迹必须是结果空间中的短程线；四维空间并不被视为嵌入在更大空间中的东西。

在纯数学中，短程线的研究是几何学的一个重要组成部分，你可以在课程“曲面几何”中进一步深入研究这一内容。

§6 多独立变量和更高阶导数情况的推广

§6.1 多个自变量

假设我们不再考虑曲线 $y(x)$ 的泛函的稳定值，而是提高一个维度，考虑曲面 $z(x, y)$ 的变分。因此，我们定义泛函

I[z]=\iint_R F\left(x, y, z, z_x, z_y\right) \mathrm{d} x \mathrm{~d} y

其中 $R$ 是 $(x, y)$ 平面上的某个区域， $z_x, z_y$ 是 $z(x, y)$ 关于 $x$ 和 $y$ 的偏导数。

例如， $F\left(x, y, z, z_x, z_y\right)=\sqrt{1+z_x^2+z_y^2}$ 将给出曲面的面积，从而可以广泛地研究极小曲面（不限于旋转曲面）。

方法如往常一样，是沿一维路径改变因变量：

z(x, y) \rightarrow z(x, y)+\alpha \eta(x, y)

得到

\left.\frac{\mathrm{d} I}{\mathrm{~d} \alpha}\right|_{\alpha=0}=\iint_R\left(\eta \frac{\partial F}{\partial z}+\eta_x \frac{\partial F}{\partial z_x}+\eta_y \frac{\partial F}{\partial z_y}\right) \mathrm{d} x \mathrm{~d} y

我们可以使用散度定理（或Green定理，因为我们在二维中）来消去 $\eta_x$ 和 $\eta_y$ ：

\begin{aligned} \left.\frac{\mathrm{d} I}{\mathrm{~d} \alpha}\right|_{\alpha=0} & =\iint_R\left\{\eta \frac{\partial F}{\partial z}+\frac{\partial}{\partial x}\left(\eta \frac{\partial F}{\partial z_x}\right)-\eta \frac{\partial}{\partial x} \frac{\partial F}{\partial z_x}+\frac{\partial}{\partial y}\left(\eta \frac{\partial F}{\partial z_y}\right)-\eta \frac{\partial}{\partial y} \frac{\partial F}{\partial z_y}\right\} \mathrm{d} x \mathrm{~d} y \\ & =\int_{\partial R} \eta\left(\frac{\partial F}{\partial z_x} n_x+\frac{\partial F}{\partial z_y} n_y\right) \mathrm{d} s+\iint_R \eta\left\{\frac{\partial F}{\partial z}-\frac{\partial}{\partial x} \frac{\partial F}{\partial z_x}-\frac{\partial}{\partial y} \frac{\partial F}{\partial z_y}\right\} \mathrm{d} x \mathrm{~d} y \end{aligned}

其中 $\mathbf{n}=\left(n_x, n_y\right)$ 是边界曲线 $\partial R$ 上的外指法向量，弧长为 $s$ 。

在固定边界条件下， $\eta=0$ 在 $\partial R$ 上， $\partial R$ 上的积分消失，因此我们得到：

\left.\frac{\mathrm{d} I}{\mathrm{~d} \alpha}\right|_{\alpha=0}=\iint_R \eta\left(\frac{\partial F}{\partial z}-\frac{\partial}{\partial x} \frac{\partial F}{\partial z_x}-\frac{\partial}{\partial y} \frac{\partial F}{\partial z_y}\right) \mathrm{d} x \mathrm{~d} y

我们得出结论，Euler-Lagrange方程在 $R$ 中的所有点必须成立：

\frac{\partial}{\partial x} \frac{\partial F}{\partial z_x}+\frac{\partial}{\partial y} \frac{\partial F}{\partial z_y}-\frac{\partial F}{\partial z}=0

直接进一步推广到 $n$ 个独立变量而非2个独立变量。结果是以下定理。

定理 6.1 设 $F$ 为一个光滑函数， $I$ 为泛函

I[u]=\int_R F\left(x_1, \ldots, x_n, u, u_1, \ldots, u_n\right) \mathrm{d} x_1 \ldots \mathrm{d} x_n

在 $R \subseteq \mathbb{R}^n$ 区域上，对光滑函数 $u=u\left(x_1, x_2 \ldots x_n\right)$ ，其中 $u_i$ 表示 $\partial u / \partial x_i$ 。那么在 $\partial R$ 上满足固定边界条件的 $I[u]$ 的最小函数满足Euler-Lagrange方程

\sum_{i=1}^n \frac{\partial}{\partial x_i} \frac{\partial F}{\partial u_i}-\frac{\partial F}{\partial u}=0

注意：在上述定理中，我们假设不仅 $u$ ，而且区域 $R$ 也是足够“良好”的，以使该结论成立。

我们可以通过引入记号

\frac{\partial F}{\partial \nabla u}=\left(\frac{\partial F}{\partial u_1}, \frac{\partial F}{\partial u_2}, \ldots, \frac{\partial F}{\partial u_n}\right)\tag{46}

将Euler-Lagrange方程更简洁地写为

\nabla \cdot\left(\frac{\partial F}{\partial \nabla u}\right)-\frac{\partial F}{\partial u}=0\tag{47}

例 16（Laplace方程的重构） 一个简单而优美的例子是，当

F=\frac{1}{2}|\nabla u|^2=\frac{1}{2} \sum_{i=1}^n u_i^2

此时，Euler-Lagrange方程为

0=\sum_{i=1}^n \frac{\partial}{\partial x_i} \frac{\partial F}{\partial u_i}-\frac{\partial F}{\partial u}=\sum_{i=1}^n \frac{\partial}{\partial x_i} u_i=\nabla^2 u

即Laplace方程或其 $n$ 维推广形式。这表明Laplace方程或波动方程问题可以很容易地以变分形式重构——这一思想在现代量子场论以及使用有限元方法求解椭圆方程的数值解中都是基础性的。

§6.2 高阶导数

现在假设我们希望找到以下泛函的稳定值：

I[y]=\int_a^b F\left(x, y, y^{\prime}, y^{\prime \prime}\right) \mathrm{d} x .

对 $y(x)$ 进行变分，如前所述，我们得到

\left.\frac{\mathrm{d} I}{\mathrm{~d} \alpha}\right|_{\alpha=0}=\int_a^b\left(\eta \frac{\partial F}{\partial y}+\eta^{\prime} \frac{\partial F}{\partial y^{\prime}}+\eta^{\prime \prime} \frac{\partial F}{\partial y^{\prime \prime}}\right) \mathrm{d} x

通过两次分部积分，我们得到

\begin{aligned} \left.\frac{\mathrm{d} I}{\mathrm{~d} \alpha}\right|_{\alpha=0} & =\left[\eta\left(\frac{\partial F}{\partial y^{\prime}}-\frac{\mathrm{d}}{\mathrm{d} x} \frac{\partial F}{\partial y^{\prime \prime}}\right)+\eta^{\prime} \frac{\partial F}{\partial y^{\prime \prime}}\right]_a^b \\ & +\int_a^b \eta\left(\frac{\partial F}{\partial y}-\frac{\mathrm{d}}{\mathrm{d} x} \frac{\partial F}{\partial y^{\prime}}+\frac{\mathrm{d}^2}{\mathrm{~d} x^2} \frac{\partial F}{\partial y^{\prime \prime}}\right) \mathrm{d} x \end{aligned}

因此，作为稳定解的必要条件，现在必须满足以下Euler-Lagrange方程

\frac{\partial F}{\partial y}-\frac{\mathrm{d}}{\mathrm{d} x} \frac{\partial F}{\partial y^{\prime}}+\frac{\mathrm{d}^2}{\mathrm{~d} x^2} \frac{\partial F}{\partial y^{\prime \prime}}=0 。

这是一个四阶微分方程，需要四个积分常数。这些常数必须从合适的端点条件（现在既在 $y$ 上也在 $y^{\prime}$ 上）和自然边界条件中获得

\frac{\partial F}{\partial y^{\prime}}-\frac{\mathrm{d}}{\mathrm{d} x} \frac{\partial F}{\partial y^{\prime \prime}}=0, \quad \frac{\partial F}{\partial y^{\prime \prime}}=0

例 17（跳板问题） 我们将研究一个问题，以展示变分法如何解决工程和经济学中出现的优化实际问题。

我们考虑泛函

E[y]=\int_0^L\left(\frac{1}{2} K\left(y^{\prime \prime}\right)^2+\rho g y\right) \mathrm{d} x

这个泛函可以被视为水平长度为 $L$ 的弹性梁的总能量，该梁在 $x=0$ 处被夹紧，因此在该点有 $y=0, y^{\prime}=0$ ，但在 $x=L$ 处是自由的，并在其自身重量下弯曲。（我们假设 $y$ 足够小，使得该泛函合理地近似物理情况。）梁将处于能量最小化的平衡位置，因此变分法提供了一种找到梁形状的方法。

Euler-Lagrange方程为

K y^{\prime \prime \prime \prime}+\rho g=0

四个边界条件由一端的 $y(0)=y^{\prime}(0)=0$ 提供，另一端则为自然边界条件 $y^{\prime \prime}(L)=y^{\prime \prime \prime}(L)=0$ 。这显然指定了一个四次多项式，满足边界条件的解为

y(x)=-\frac{\rho g}{24 K}\left(x^4-4 L x^3+6 L^2 x^2\right)

注意在这种情况下，跳板的自由端将下垂至高度 $y=-\frac{\rho g L^4}{8 K}$ 。想象泳池中的游泳者将手放在自由端，并将其固定在高度 $y=-\frac{\rho g L^4}{8 K}+h$ 。显然，如果 $h=0$ ，则不需要施加任何力。但对于 $h \neq 0$ ，需要施加一个力。我们可以通过扩展分析来评估这个力。

首先，再次解决固定端条件 $y(L)=-\frac{\rho g L^4}{8 K}+h$ 的稳定问题。为简化表达式，以下写作 $w=\frac{\rho g}{K}$ 。我们很容易发现，现在有

y(x)=-\frac{w}{24}\left(x^4-4 L x^3+6 L^2 x^2\right)+\frac{h}{2 L^4}\left(-L x^3+3 L^2 x^2\right)

显然，现在可以将能量泛函 $E[y]$ 视为 $h$ 的函数。当 $h=0$ 时，它将取最小值。如果自由端被抬起，能量将增加，而这只能来自所做的功，该功由 $\int F(h) \mathrm{d} h$ 给出，其中 $F(h)$ 是保持 $y(L)=-\frac{w}{8 L^4}+h$ 所需的力。因此 $F(h)=\frac{\mathrm{d}}{\mathrm{d} h} E(h)$ 。

这很容易计算出为 $\frac{3 h K}{L^3}$ 。

回到 $x=L$ 端自由的情况，我们可以应用相同的思想来找到在 $x=0$ 处施加的力，以维持约束条件。在这种情况下，更容易看出保持 $y(0)=0$ 的向上力只是跳板的总重量 $\rho g L$ ；稍微不太明显的是，夹具施加了一个力矩，其力矩为 $\frac{1}{2} \rho g L^2$ ，以维持条件 $y^{\prime}(0)=0$ 。在这种情况下，我们使用力矩乘以角度 $=$ 所做的功。

你可能已经熟悉了与约束相关的力这一概念，因为这正是你在初级力学中遇到的法向反作用力的概念。

但假设泛函测量的不是能量，而是成本。那么问题的各个元素，包括约束条件，将具有经济解释。你可以将这个跳板曲线想象成一家公司收购了一家医院，并将稳定就业的政策改为缩减员工的政策所产生的效果。（此时自变量 $x$ 是时间， $y$ 表示员工的规模。）如何以最低成本执行这一政策？假设其成本泛函由与跳板泛函中相同的元素构成：工资，与 $y$ 成正比，以及由大幅裁员引起的管理混乱、罢工等成本，模型化为与 $\left(y^{\prime \prime}\right)^2$ 成正比。具有自然边界条件的解将表示在一段时间结束时的理想情况（当然是从公司的角度来看，而不是从患者的角度）。如果政府监管机构强加了一个约束，规定了在该时点员工数量必须达到的水平，那么该约束自然会与一个价格相关联：即公司为了说服监管机构将强加的配额减少一个单位而愿意支付的价值。在优化课程中，通过线性规划，你已经遇到了价格是与约束相关的对偶变量的概念，而这是这一概念的另一个例子。

§7 受积分约束的极值

本节探讨的问题是如何在满足积分约束的情况下，找到积分的稳定值：

I[y]=\int_a^b F\left(x, y, y^{\prime}\right) \mathrm{d} x

受积分约束

J[y]=\int_a^b G\left(x, y, y^{\prime}\right) \mathrm{d} x=C

我们可以使用初级课程中的Lagrange乘数法来解决这个问题。假设 $\eta_1$ 和 $\eta_2$ 是两个线性无关的检验函数，并考虑变分

y \rightarrow y+\alpha_1 \eta_1+\alpha_2 \eta_2

其中 $\alpha_1$ 和 $\alpha_2$ 是实数参数。对于固定的 $\eta_1$ 和 $\eta_2$ ，这确定了两个关于 $\alpha_1$ 和 $\alpha_2$ 的函数，

\hat{I}\left(\alpha_1, \alpha_2\right)=I\left[y+\alpha_1 \eta_1+\alpha_2 \eta_2\right], \quad \hat{J}\left(\alpha_1, \alpha_2\right)=J\left[y+\alpha_1 \eta_1+\alpha_2 \eta_2\right]

我们从初级课程中知道，寻找 $\hat{I}\left(\alpha_1, \alpha_2\right)$ 的稳定值，满足 $\hat{J}\left(\alpha_1, \alpha_2\right)=C$ 的问题，相当于寻找 $\hat{I}\left(\alpha_1, \alpha_2\right)-\lambda \hat{J}\left(\alpha_1, \alpha_2\right)$ 的稳定值。

由于这对所有线性无关的 $\eta_1$ 和 $\eta_2$ 成立，实际上对于形式为

y \rightarrow y+\sum_{i=1}^n \alpha_i \eta_i

的变分，假设 $n$ 个实数参数 $\alpha_i$ 和线性无关的检验函数 $\eta_i$ ，我们可以合理稳定值地认为，通过寻找

I[y]-\lambda J[y]

的稳定值，来找到在约束条件 $J[y]=C$ 下的 $I[y]$ 的稳定值。

因此 $y$ 必须满足Euler-Lagrange方程

\frac{\mathrm{d}}{\mathrm{d} x}\left(\frac{\partial}{\partial y^{\prime}}(F-\lambda G)\right)-\frac{\partial}{\partial y}(F-\lambda G)=0

对于某个常数 $\lambda$ 。此外， $y$ 还必须满足相应的固定端点或自然边界条件，其中自然边界条件现在为

\frac{\partial}{\partial y^{\prime}}(F-\lambda G)=0 \quad \text { 在 } x=a \text{和} x=b \text{处}

我们可以将这一结果记录为一个有用的定理：

定理 7.1 设 $F, G$ 为两个光滑函数，并且

I[y]:=\int_a^b F\left(x, y, y^{\prime}\right) \mathrm{d} x, \quad J[y]:=\int_a^b G\left(x, y, y^{\prime}\right) \mathrm{d} x

那么在约束 $J[y]=C$ 下的 $I[y]$ 的任意光滑稳定值满足

\frac{\mathrm{d}}{\mathrm{d} x}\left(\frac{\partial}{\partial y^{\prime}}(F-\lambda G)\right)-\frac{\partial}{\partial y}(F-\lambda G)=0

对于某个常数 $\lambda$ 。

自由悬挂链——悬链线

我们可以使用这种方法来找出理想化的恒定密度悬挂链条仅在两端支撑时的形状。假设链条位于由 $y=y(x)$ 描述的曲线上，其端点固定在 $x=\pm a$ 处， $y=b$ 。它的总长度是固定的：

J[y]=\int_{-a}^a \sqrt{1+y^{\prime 2}} \mathrm{~d} x=\ell

其中 $\ell>2 a$ 。链条的平衡状态由最小化其重力势能确定，即

I[y]=g \rho \int_{-a}^a y \sqrt{1+y^2} \mathrm{~d} x

应用Lagrange乘数法，将 $\rho g$ 吸收到 $\lambda$ 中，得到

F-\lambda G=(y-\lambda) \sqrt{1+y^{\prime 2}}

这不显式依赖于 $x$ ，因此Beltrami恒等式给出了一个第一积分：

(y-\lambda)=c \sqrt{1+y^{\prime 2}}

代入 $y=\lambda+c \cosh u$ 容易得出解

y=\lambda+c \cosh \left(\frac{x-x_0}{c}\right)

将常数 $c, \lambda, x_0$ 与给定数据 $a, b, \ell$ 相匹配，作为一个练习留给读者。

Dido问题

另一个类似的经典问题是最简单的等周问题。在Euclid平面上，给定一个固定长度作为周长，能够围成的最大面积是多少？（答案是一个圆。）我们将考虑这个问题的稍微不同版本，其中面积位于给定直线的一侧，不失一般性为 $x$ 轴。此时答案是将边界设为圆弧。你会发现这个问题被称为“Dido问题”，因为它可以被认为是在《Aeneid》中出现的。Dido（更广为人知的是她激发了普赛尔的著名哀歌）据说按照这个标准固定了迦太基的边界。直线 $y=0$ 代表地中海的海岸线。

更多信息可以查看http://mathworld.wolfram.com/DidosProblem.html。

对于这个问题，我们可以取 $F=y$ 和 $G=\sqrt{1+y^{22}}$ ，其中边界曲线取为 $y=y(x)$ ，但实际上将边界曲线表示为 $(x(t), y(t))$ 的参数形式更好，其中 $t$ 是任意参数。我们考虑以下泛函的极值：

\int\left(y \dot{x}-\lambda \sqrt{\dot{x}^2+\dot{y}^2}\right) \mathrm{d} t

Euler-Lagrange方程为：

\frac{\mathrm{d}}{\mathrm{d} t}\left(\frac{-\lambda \dot{y}}{\sqrt{\dot{x}^2+\dot{y}^2}}\right)=\dot{x}, \quad \frac{\mathrm{d}}{\mathrm{d} t}\left(\frac{-\lambda \dot{x}}{\sqrt{\dot{x}^2+\dot{y}^2}}\right)=-\dot{y} \tag{48}

所以

\frac{-\lambda \dot{y}}{\sqrt{\dot{x}^2+\dot{y}^2}}=(x-a), \quad \frac{-\lambda \dot{x}}{\sqrt{\dot{x}^2+\dot{y}^2}}=-(y-b) \tag{49}

消去 $\lambda$ ，得出

(x-a) \dot{x}+(y-b) \dot{y}=0

通过积分得到

(x-a)^2+(y-b)^2=c^2

因此这些曲线必须是圆形的。

对于原始的Dido问题，我们感兴趣的是固定边界条件 $y(t)=0$ 在每个端点处，以及 $x(t)$ 的自然边界条件（即在给定 $y=0$ 的情况下，我们考虑所有可能 $x$ 的极值）。 $x$ 的自然边界条件为 $y-\lambda \dot{x} / \sqrt{\dot{x}^2+\dot{y}^2}=0$ ，由于 $y=0$ ，这意味着 $\dot{x}=0$ 。这里 $\mathrm{d} y / \mathrm{d} x$ 是无穷大的，这就是为什么 $y(x)$ 的表述不适用的原因。因此，圆的中心必须位于 $y=0$ 上，并且在给定约束的情况下，稳定面积将由半圆界定，这与预期相符。

这些是我们在泥泞场问题中遇到的最快路径（更正式地，双曲平面上的短程线）中的相同半圆。如果我们以略微不同的方式进行，可以更直接地看出这一点。方程(47)中的第二个

方程可以写为

\frac{\mathrm{d}}{\mathrm{d} t}\left(\frac{\lambda \dot{x}}{\sqrt{\dot{x}^2+\dot{y}^2}}-y\right)=0, \quad \text { 所以 } \frac{\lambda \dot{x}}{\sqrt{\dot{x}^2+\dot{y}^2}}-y=\text { 常数. }

当施加边界条件 $y=0, \dot{x}=0$ 时，该常数必须为0，因此

y \sqrt{1+y^{\prime 2}}=\lambda

这与最快路径问题中产生的方程相同，在(28)中出现，因此具有相同的半圆解。

这一特征扩展到更一般的土地围护问题，在该问题中，一个变化的值 $h(y)$ 与土地相关，并且目标是确保在给定边界长度的情况下最大的总价值。在这种情况下，问题可以通过取 $F=H(y)$ 和 $G=\sqrt{1+y^2}$ 来表示，其中 $H(y)=\int_0^y h(u) \mathrm{d} u$ 。对于自然边界条件的情况，得到的方程为

H(y) \sqrt{1+y^{\prime 2}}=\lambda

你可以检查该方程与泥泞场上最快路径问题（当移动速度为 $H(y)$ 时）所产生的方程相同。

因此，如果 $h(y)=1 / \sqrt{y}$ ，则 $H(y)=2 \sqrt{y}$ ，我们重新得到了从最速降线问题中产生的方程(30)，因此解为摆线。

约束与价格再探

现在我们有了另一个可以将约束视为定义价格的例子。如果我们将约束 $J=C$ 改为 $J=C+\delta C$ ，可以得到多少额外的 $I$ ？记 $I(C)$ 为在约束 $J=C$ 下 $I$ 的稳定值。然后我们发现

\lambda=\frac{\mathrm{d} I(C)}{\mathrm{d} C}\tag{50}

为 $\lambda$ 提供了一个很好的解释。

要证明这一点，请回想， $I-\lambda J$ 的解是稳定值的，即在极值 $y$ 变为与边界条件一致的任意 $y+\delta y$ 时，解在一阶上保持不变。假设我们选择特定的 $\delta y$ ，使得 $y+\delta y$ 成为约束 $J=C+\delta C$ 问题的极值。然后我们有

I(C)-\lambda C=I(C+\delta C)-\lambda(C+\delta C)

在一阶上。减去并取 $\delta C \rightarrow 0$ ，我们恢复了该关系。

因此，在Dido问题中，解中的 $\lambda$ 值表示增加定义周长的绳索长度所获得的额外面积的价值。我们因此解决了一个额外的问题：Dido应该愿意为额外的绳索支付多少钱。

具体来说，在该问题中，对于长度为 $L$ 的周长，稳定值面积为 $I(L)=L^2 /(2 \pi)$ ，因此 $\mathrm{d} I / \mathrm{d} L=L / \pi$ ，这正是圆的半径。很容易检查这确实是 $\lambda$ 的值。

§8 Sturm-Liouville方程的应用

§8.1 来自量子力学的动机

在量子力学中，物理系统的状态并不依赖于点粒子的运动，而是依赖于波函数。这些波函数实际上是复值的，但为了讨论的简化，我们可以用实函数来描述。最简单的情况是单个粒子被限制在一维有限区间 $[0,1]$ 内。虽然点粒子可以简单地停留在这个区间内，并且具有零动能，但波函数 $\psi(x)$ 与其导数平方的积分（即动能的一半）相关联： $\displaystyle\int_0^1\left\{\psi^{\prime}(x)\right\}^2 \mathrm{~d} x$ 。到目前为止，这看起来有点像流体的动能，但有一个细微差别使波函数与经典流体完全不同。能量实际上是由以下比值决定的：

\frac{\displaystyle\int_0^1\left\{\psi^{\prime}(x)\right\}^2 \mathrm{~d} x}{\displaystyle\int_0^1\{\psi(x)\}^2 \mathrm{~d} x}

因此，将 $\psi(x)$ 乘以一个常数不会产生任何影响。能量是 $\psi$ 形状的泛函，而不是其尺度的泛函。特别地，在这个比值中 $\psi \equiv 0$ 是没有意义的，因此没有明显的静止粒子的类比。相反，最小值的问题浮现出来，但它远非直观上明显。事实上，对于满足 $\psi(0)=0=\psi(1)$ 的函数，答案是 $\pi^2$ ，我们将证明这一点，而这种非零基态能量的存在是量子系统在更一般设置中典型的特征。

我们需要一个形式来处理这个问题，同时也处理当能量泛函不那么简单且空间几何不是简单区间时出现的更一般的问题。显然，在积分约束下的稳定积分理论正好提供了这种形式。上述的比值问题可以重新表述为在约束 $\displaystyle\int_0^1\{\psi(x)\}^2 \mathrm{~d} x=1$ 下，寻找 $\displaystyle\int_0^1\left\{\psi^{\prime}(x)\right\}^2 \mathrm{~d} x$ 最小值的问题。

因此，感兴趣的比值可以与解中的Lagrange乘数 $\lambda$ 的值相关联。如果我们从前面的讨论来看这个问题，我们会发现 $I[y]$ 与 $J[y]$ 的关系在这个例子中非常简单：它只是线性的， $I=\lambda J$ ， $\lambda$ 可以解释为一个常数价格。但在这种情况下，新的点在于我们首次认真考虑到存在许多局部极值，实际上是可数的无限个，我们正在研究它们之间的相互关系。

极值之间的相互关系自然通过看到 $\lambda$ 也作为微分算子的特征值的意义得到表达。

§8.2. Sturm-Liouville方程

我们关心的微分算子与您可能在《微分方程2》中遇到的相同，但以稍微不同的方式写出。标准的Sturm-Liouville形式为：

\left(p(x) y^{\prime}\right)^{\prime}+q(x) y=-\lambda r(x) y \quad \text {对于 } a \leqslant x \leqslant b

其中 $p, q, r$ 是连续可导的，我们假设 $p \geqslant 0$ 且 $r>0$ 。

这是一个变分问题的Euler-Lagrange方程，该问题涉及找到

\begin{gathered} I[y]=\int_a^b\left(p\left(y^{\prime}\right)^2-q y^2\right) \mathrm{d} x \\ J[y]=\int_a^b r y^2 \mathrm{~d} x=\text {常数。} \end{gathered}

的稳定值。

我们现在可以指出与这一解释一致的边界条件：我们在每端通常可以选择固定边界条件或自然边界条件，因此要么是

y(a)=0 \text { 或 } p(a) y^{\prime}(a)=0

在 $b$ 处同样如此。

§8.3 例子

如果 $p \equiv 1, q \equiv 0, r \equiv 1$ ，我们重新得到了本节开始时的例子。但现在我们可以解它：允许的 $\lambda$ 值只是序列 $\lambda_n=n^2 \pi^2$ ，相应的 $y_n(x)$ 是（成比例的） $\sin (n \pi x)$ 。
如果 $p(x)=1-x^2, q \equiv 0, r \equiv 1$ ，我们得到了区间 $[-1,1]$ 上的Legendre方程。对于自然边界条件，解是Legendre多项式 $P_n(x)$ ，如在《微分方程2》中遇到的。
如果 $p(x)=x, q(x)=-k^2 / x, r(x)=x$ ，我们得到方程

\left(x y^{\prime}\right)^{\prime}-\frac{k^2}{x} y=-\lambda x y

这相当于

y^{\prime \prime}+\frac{1}{x} y^{\prime}-\frac{k^2}{x^2} y=-\lambda y

也可以在《微分方程2》中识别为阶数为 $k$ 的Bessel方程。当 $k>0$ 时，其在 $x=0$ 处消失的解形式为 $J_k(\lambda x)$ 。更全面的处理将引入在 $x=0$ 处发散的Bessel方程解，但在最简单的情况下，当边界条件 $y=0$ 在 $x=0$ 和 $x=a$ 处施加时，将存在一个离散的 $\lambda_n$ 谱，使得 $J_k\left(\lambda_n x\right)$ 在 $x=0$ 和 $x=a$ 处消失。

§8.4 特征函数展开

Sturm-Liouville理论的思想是推广与第一个例子自然相关的Fourier分析。您可能在《微分方程2》中遇到过Sturm-Liouville理论。《量子理论》中的时间独立Schrödinger方程在有界域内是一个Sturm-Liouville问题的特例， $p(x)$ 被取为常数。

从初级Fourier级数和偏微分方程，您知道如何利用它们的完备性和正交性，将一般函数展开成正弦和余弦函数。事实证明，这些属性不仅限于三角函数。

它们可以被看作是作为Sturm-Liouville常微分方程的解出现的，并且任何其他Sturm-Liouville方程都会产生具有这些完备性和正交性的新一组函数。也就是说，对于任何Sturm-Liouville方程，一般都有一个特征函数序列 $y_n(x)$ ，具有完备性和正交性属性，这样可以有用地将一般函数展开为 $\sum_n c_n y_n$ ，如在《微分方程2》中那样。

完整的声明和证明超出了本课程的范围（请记住，即使对于Fourier理论，完备性的问题也是微妙的，在不连续点处需要特别注意）。然而，我们可以展示如何从这种表述中直接导出重要的正交性属性。

假设对于一个 $(p, q, r)$ 的Sturm-Liouville系统，我们有两个解 $y_n, y_m$ ，它们对应的 $\lambda_n \neq \lambda_m$ 。

我们首先验证，与特征函数 $y_n$ 相关的特征值 $\lambda_n$ 等于商 $I\left[y_n\right] / J\left[y_n\right]$ ，因此等于积分形式中的Lagrange乘数。我们有

\left(p(x) y_n^{\prime}\right)^{\prime}+q(x) y_n=-\lambda_n r(x) y_n

因此乘以 $y_n$ 并积分，

\int_a^b\left(p(x) y_n^{\prime}\right)^{\prime} y_n+q(x) y_n^2 \mathrm{~d} x=-\lambda_n \int_a^b r(x) y_n^2 \mathrm{~d} x

因此

\int_a^b \frac{\mathrm{d}}{\mathrm{d} x}\left(p y_n^{\prime} y_n\right) \mathrm{d} x-\int_a^b\left(p(x) y_n^{\prime 2}-q(x) y_n^2\right) \mathrm{d} x=-\lambda_n \int_a^b r(x) y_n^2 \mathrm{~d} x

即

\left[p y_n^{\prime} y_n\right]_a^b-I\left[y_n\right]=-\lambda_n J\left[y_n\right]

但由于在边界 $a$ 处我们要么有 $y_n(a)=0$ ，要么有 $p(a) y_n^{\prime}(a)=0$ ，在 $b$ 处也是如此，因此边界项消失。因此如所要的， $I\left[y_n\right]=\lambda_n J\left[y_n\right]$ 。

现在我们将证明 $y_m, y_n$ 是正交的，意味着

\int_a^b r y_n y_{m n} \mathrm{~d} x=0

我们有

\begin{aligned} \left(p(x) y_n^{\prime}\right)^{\prime}+q(x) y_n & =-\lambda_n r(x) y_n \\ \left(p(x) y_m^{\prime}\right)^{\prime}+q(x) y_m & =-\lambda_m r(x) y_m \end{aligned}

将第一个乘以 $y_m$ ，第二个乘以 $y_n$ ，相减并从 $a$ 到 $b$ 积分得出

\int_a^b\left(y_m\left(p y_n^{\prime}\right)^{\prime}-y_n\left(p y_m^{\prime}\right)^{\prime}\right) \mathrm{d} x=-\left(\lambda_n-\lambda_m\right) \int_a^b r(x) y_m y_n \mathrm{~d} x

左边的项可以精确积分为

\left[p\left(y_m y_n^{\prime}-y_n y_m^{\prime}\right)\right]_a^b

因此由于边界条件而消失。在 $a$ 处，我们要么有 $y_m(a)=0=y_n(a)$ ，要么有 $p(a) y_m^{\prime}(a)=0=p(a) y_n^{\prime}(a)$ ，在 $b$ 处也是如此。因此右边的项消失，并且由于假设 $\lambda_m-\lambda_n \neq 0$ ，正交性成立。

这个论证与在代数课程中讨论内积的一般定义时所使用的论证相同。我们实际上通过使用 $r(x)$ 作为权函数，在一个函数空间上定义了一个内积结构。然后我们可以通过选择适当的尺度使

J\left[y_n\right]=\int_a^b r(x)\left\{y_n(x)\right\}^2 \mathrm{~d} x=1

来定义相对于这个内积的正交基函数集 $y_m$ 。

§8.5 Rayleigh-Ritz近似法

在整个课程中，我们强调了变分形式是一条双向街道。我们的理论通过微分方程的求解，解决了涉及极值的著名问题。另一方面，它可以有效地将与微分方程相关的问题重构为稳定积分。在Sturm-Liouville方程的背景下，谱特征值可以通过计算积分 $I[y]$ 和 $J[y]$ 来有效地研究。特别是，尝试任何满足边界条件的 $y$ 都可以为最低特征值 $\lambda_1$ 给出一个上界。

因此，回到原始例子

\frac{\displaystyle\int_0^1\left\{\psi^{\prime}(x)\right\}^2 \mathrm{~d} x}{\displaystyle\int_0^1\{\psi(x)\}^2 \mathrm{~d} x}

我们可以尝试最简单的满足边界条件的 $y$ ， $y=x(1-x)$ ，并计算

Q=\frac{\displaystyle\int_0^1(2 x-1)^2 \mathrm{~d} x}{\displaystyle\int_0^1 x^2(1-x)^2 \mathrm{~d} x}=10

因此 $\lambda_1 \leqslant 10$ 。这是一个对 $\lambda_1=\pi^2$ 的良好近似。

这一过程可以改进。显然，通过在一组参数上优化检验 $y$ ，可以改善这一近似。因此，我们得到对 $y_1$ 的一个良好近似 $\bar{y}_1$ 。然后，下一特征值可以通过在所有与 $\bar{y}_1$ 正交的检验函数类上进行优化来估计。这给出了 $\lambda_2$ 和 $y_2$ 的估计，依此类推。

特征值近似好的原因在于；如果检验函数 $\bar{y}_1$ 对 $O(\epsilon)$ 是正确的，则特征值 $\lambda_1$ 将对 $O\left(\epsilon^2\right)$ 是好的。因为如果

\bar{y}_1=y_1+\sum_{n=2}^{\infty} c_n y_n

其中每个 $c_n$ 都是 $O(\epsilon)$ ，则 $Q\left[y_1\right]$ 与 $\lambda_1$ 的差异为 $O\left(\epsilon^2\right)$ ，因为

I\left[\bar{y}_1\right]=\lambda_1+\sum_{n=2}^{\infty} \lambda_n\left|c_n\right|^2, \quad J\left[\bar{y}_1\right]=1+\sum_{n=2}^{\infty}\left|c_n\right|^2

目录