9.3 Postačující podmínka existence lokálního extrému

Po studiu nutných podmínek konečně přistupme k postačující podmínce. Stačí zpřísnit podmínku definitnosti (ze semidefinitnosti na definitnost). Navíc dále ukážeme, že ID existenci extrému vylučuje (tzv. sedlový bod).

Věta 9.3 (Postačující podmínka existence lokálního extrému)

Mějme funkci $f: D_f \to \R$, $D_f \subset \R^n$, mající spojité všechny třetí parciální derivace na okolí bodu $\va$ a nechť jsou splněny následující dvě podmínky

  1. $\nabla f(\va) = \theta$,

  2. $\nabla^2 f(\va)$ je PD (resp. ND).

Potom má funkce $f$ v bodě $\va$ ostré lokální minimum (resp. maximum).

Pokud platí první podmínka a Hesseova matice $\nabla^2 f(\va)$ je ID, pak tato funkce v bodě $\va$ lokální extrém nemá.

Než se pustíme do důkazu, tak opět upozorníme na záludnosti předchozí věty. Studenti mají tendenci v předchozí větu rozšiřovat i na případ PSD (resp. NSD) a z toho pak vyvozovat existenci neostrého lokálního extrému. Následující příklad ukazuje, že nic takového neplatí.

Příklad 9.3

Funkce $f(x,y) = x^2 + y^3$ má v bodě $\theta$ nulový gradient, skutečně:

\begin{equation*} \nabla f(x,y) = \big(2x,\, 3y^2) \ \Rightarrow \ \nabla f(\theta) = \theta. \end{equation*}

Pro Hessovu matici platí

\begin{equation*} \nabla^2 f(x,y) = \begin{pmatrix} 2 & 0 \\ 0 & 6y \end{pmatrix} \end{equation*}

a proto $\nabla^2 f(\theta) = \left(\begin{smallmatrix} 2 & 0 \\ 0 & 0 \end{smallmatrix}\right)$. Odpovídající kvadratická forma je rovna $(x_1, x_2) \mapsto 2x_1^2$ a je PSD.

Funkce $f$ v bodě $\theta$ extrém nemá: $f(0,y) = y^3$ je kladná pro $y > 0$ a záporná pro $y < 0$, $f(\theta) = 0$. Tedy jsme ve sporu se všemi podmínkami v Definici 9.1. Graf této funkce je znázorněn na Obrázku 9.8.

Obrázek 9.8: Graf funkce z Příkladu 9.3.

Klíčem k důkazu je v podstatě Taylorova věta pro funkce více proměnných, kterou zde zformulujeme jenom v jednodušší verzi využívající pouze kvadratické členy.

Lemma 9.1 (Taylorova věta do kvadratických členů s odhadem chyby)

Mějme funkci $f: D_f \to \R$, $D_f \subset \R^n$, mající spojité všechny parciální derivace do třetího řádu včetně na okolí $U_\va$ bodu $\va \in D_f$. Potom existuje konstanta $M > 0$ taková, že pro každé $\vx \in U_\va$ platí

\begin{equation*} f(\vx) = f(\va) + \nabla f(\va) \cdot (\vx - \va) + \frac{1}{2} (\vx - \va)^T \cdot \nabla^2 f(\va) \cdot (\vx - \va) + R_2(\vx), \end{equation*}

kde $|R_2(\vx)| \leq M \|\vx - \va\|^3$.

Uvažme $\vx \in U_\va$ a funkci $g(t) \ceq f(\va + (\vx - \va) t)$, definovanou pro všechna přípustná $t$ (zcela jistě pro nějaký otevřený interval obsahující interval $\langle 0,1 \rangle$). Funkce $g$ má na tomto intervalu spojité derivace do řádu 3 včetně.

Podle Taylorovy věty (Věta 5.4) pro funkci $g$ a $t \in \langle 0, 1 \rangle$ platí

\begin{equation*} g(t) = g(0) + g'(0) t + \frac{1}{2} g''(0) t^2 + \frac{1}{3!} g'''(\xi) t^3, \quad \text{kde} \ \xi \in \langle 0, t ). \end{equation*}

Použitím věty o derivaci složené funkce opět zjistíme, že

\begin{equation*} g'(0) = \nabla f(\va) \cdot (\vx - \va) \quad \text{a} \quad g''(0) = (\vx - \va)^T \cdot \nabla^2 f(\va) \cdot (\vx - \va). \end{equation*}

Konečně, pro $g'''$ platí

\begin{equation*} g'''(t) = \sum_{i,j,k=1}^n \frac{\partial^3 f}{\partial x_i \partial x_j \partial x_k}\big(\va + (\vx - \va)t\big) (\vx - \va)_i (\vx - \va)_j (\vx - \va)_k. \end{equation*}

Díky spojitosti parciálních derivací a uzavřenosti intervalu $\langle 0, 1\rangle$ můžeme v absolutní hodnotě tento výraz odhadnout výrazem tvaru $C \cdot \left(\sum_{i=1}^n |(\vx - \va)_i|\right)^3$. Lze ukázat, že tento výraz je dále menší než $M \|\vx - \va\|^3$ a konstanta $M$ nezávisí na $\vx$. Nyní stačí položit $t = 1$.

$\square$

Nyní přistupme k důkazu Věty 9.3. Nejprve ošetříme případ PD a poté ostatní případy.

Mějme okolí $\mathcal{U} \ceq U_\va$ bodu $\va$, na kterém má funkce $f$ spojité všechny třetí parciální derivace a nechť platí uvedené podmínky: $\nabla f(\va) = \theta$ a $\nabla^2 f(\va)$ je PD.

Uvažme libovolný bod $\vx \in U_\va$ různý od $\va$. Podle předchozího Lemmatu 9.1 existuje konstanta $M > 0$ nezávislá na $\vx$ taková, že

\begin{equation*} f(\vx) - f(\va) = 0 + \frac{1}{2} (\vx - \va)^T \cdot \nabla^2 f(\va) \cdot (\vx - \va) + R_2(\vx), \end{equation*}

kde $|R_2(\vx)| < M \|\vx - \va\|^3$.

Z PD kvadratické formy $q(\vy) = \vy^T \nabla^2 f(\va) \vy$ plyne existence ortogonální regulární matice $\mP$ splňující

\begin{equation*} q(\vy) = (\mP\vy)^T \mathrm{diag}(\lambda_1, \ldots, \lambda_n) \mP \vy = \sum_{j=1}^n \lambda_j (\mP \vy)_j^2 \geq \lambda_* \sum_{j=1}^n (\mP \vy)^2_j = \lambda_* \|\vy\|^2, \end{equation*}

kde $\lambda_*$ je nejmenší z kladných vlastních čísel $\nabla^2 f(\va)$.

Je-li nyní $\vx \in U_{\va}(\varepsilon) \subset \mathcal{U}$, kde $M \varepsilon < \frac{\lambda_*}{4}$, pak

\begin{equation*} f(\vx) - f(\va) \geq \frac{\lambda_*}{2} \|\vx - \va\|^2 - M \|\vx - \va\|^3 > \|\vx - \va\|^2 \left( \frac{\lambda_*}{2} - M \veps \right) > \frac{\lambda_*}{4} \|\vx - \va\|^2. \end{equation*}

$\square$

Případ ND ihned plyne z PD (jaký je vztah mezi typem extrému funkce $f$ a $-f$, definitností formy $q$ a $-q$?)

Případ ID se ošetří analogicky, využijeme existence $\vx$ a $\vy$ takových, že

\begin{align*} (\vx - \va)^T \nabla^2 f(\va) (\vx - \va) &> 0, \\ (\vy - \va)^T \nabla^2 f(\va) (\vy - \va) &< 0,\end{align*}

k tomu, abychom v odpovídajícím směru od $\va$ nalezli vhodným škálováním (dost blízko k $\va$) kladná $h$ a $t$ splňující

\begin{equation*} f(\va + h\vx) > f(\va) \quad \text{a} \quad f(\va + t\vy) < f(\va). \end{equation*}

Tím je náčrt důkazu dokončen.

$\square$

Opět poznamenejme, že Věta 9.3 dává pouze postačující podmínky pro existenci lokálních extrémů. Pokud Hesseova matice ve stacionárním bodě vyjde PSD, nebo NSD, pak z této věty nic neplyne. V takovém případě nám nezbývá nic jiného, než se obrátit zpět na Definici 9.1 a zkoumat chování funkce v okolí stacionárního bodu. To jsme již několikrát ukázali v příkladech napříč touto kapitolou.