9.2 Nutné podmínky existence lokálního extrému

V této podkapitole odvodíme nutné podmínky existence lokálního extrému. Ty nám umožňují podstatně zúžit body, kde extrém může nastávat. Postačující podmínkou se budeme zabývat v následující kapitole.

9.2.1 Nutná podmínka prvního řádu

Vzpomeňte si na známé tvrzení z  BI-MA1: pokud má reálná funkce reálné proměnné lokální extrém v bodě $a$, pak její derivace v bodě $a$ buď neexistuje, nebo je rovna nule. Vzhledem k úzké souvislosti mezi parciální derivací a „obyčejnou“ derivací, popsané v podkapitole 7.6.1, dostáváme následující analogické tvrzení.

Věta 9.1 (Nutná podmínka existence lokálního extrému I: parciální derivace)

Mějme funkci $f: D_f \to \R$, $D_f \subset \R^n$, mající v bodě $\va$ lokální extrém (klidně ostrý) a $j \in \hat n$. Potom parciální derivace funkce $f$ v bodě $\va$ podle $j$-té proměnné je rovna nule nebo neexistuje.

Zobrazit důkaz

Stačí použít výše zmíněné tvrzení z BI-MA1 na funkci $g(x) = f(\va + x \ve_j)$: tato funkce má dle předpokladů jistě (ostrý) lokální extrém v bodě $x = 0$, tudíž $g'(0)$ je buď nula nebo neexistuje. Ale $g'(0)$ je identická s $\partial_j f(\va)$.

$\square$

Důsledek 9.1 (Nutná podmínka existence lokálního extrému I: gradient)

Mějme funkci $f: D_f \to \R$, $D_f \subset \R^n$, mající v bodě $\va$ (ostrý) lokální extrém a mající parciální derivace v bodě $\va$ podle všech proměnných. Potom $\nabla f(\va) = \theta$.

Ukázkou extrému (ostrého lokálního minima; snadno ukážeme z definice) v bodě s neexistujícím gradientem je například funkce $f(x, y) = \sqrt{x^2 + y^2}$ v bodě $\theta$. Její graf představuje kužel, viz Obrázek 9.2. Existence ostrého lokálního minima plyne jednoduše přímo z Definice 9.1. Pro všechna nenulová $(x,y)^T \in \R^2$ jistě platí $f(x,y) = \sqrt{x^2 + y^2} > 0 = f(\theta)$.

Obrázek 9.2: Extrém v bodě s neexistující derivací, grafem funkce $f(x, y) = \sqrt{x^2 + y^2}$ je kužel.
Varování 9.1

Opět upozorněme, že Věta 9.1, resp. Důsledek 9.1, představuje pouze nutnou podmínku! To znamená, že z nulovosti gradientu neplyne existence extrému. Například, pro funkci $f(x,y) = x^2 - y^2$ sice platí $\nabla f(0,0) = \theta$, ale v $(0,0)$ očividně extrém nenastává!

Proč v tomto bodě tato funkce extrém nemá? Protože pro každé nenulové reálné $t$ platí $f(0, t) = -t^2 < 0 = f(\theta)$ a $f(t, 0) = t^2 > 0 = f(\theta)$, což je v rozporu se všemi podmínkami v Definici 9.1. Jinak řečeno, lze nalézt dva různé směry, jak se k bodu $\theta$ blížit tak, že odpovídající funkční hodnoty jsou jednou nad a jednou pod hodnotou $f(\theta)$.

Obrázek 9.3: Funkce $f(x, y) = x^2 - y^2$ má v bodě $\theta$ sice nulový gradient, ale nemá v tomto bodě lokální extrém. Ilustrace k Varování 9.1.

Bod, kde je gradient nulový, je tedy potenciálním bodem lokálního extrému. Tečná rovina (viz Poznámku 7.3) v tomto bodě je kolmá na osu $z$ (závisle proměnná). Zavádíme pro něj proto následující terminologii.

Definice 9.2 (Stacionární bod / Stationary point)

Mějme funkci $f: D_f \to \R$, $D_f \subset \R^n$. Bod $\va \in D_f$ splňující $\nabla f(\va) = \theta$ nazýváme stacionárním bodem. Kritickým bodem nazýváme bod, kde neexistuje gradient nebo je stacionární.

9.2.2 Nutná podmínka druhého řádu

V případě funkce jedné proměnné jsme často při hledání extrémů hledali nulové body první derivace a poté zkoumali znaménko první derivace na okolí takovéhoto bodu. U funkcí více proměnných tento přístup použitelný není. Musíme se podívat na analog druhé derivace, tedy Hessovu matici a její definitnost.

Věta 9.2 (Nutná podmínka existence lokálního extrému II)

Nechť funkce $f: D_f \to \R$, $D_f \subset \R^n$, má spojité všechny druhé parciální derivace na okolí bodu $\va$ a nechť má v tomto bodě lokální minimum (resp. maximum), potom je Hesseova matice $\nabla^2 f(\va)$ PSD (resp. NSD).

Obrázek 9.4: Ilustrace k důkazu Věty 9.2.

Zobrazit důkaz

BÚNO $\va = \theta$. Buď $U_\theta$ okolí bodu $\theta$ kde má funkce $f$ spojité všechny parciální derivace až do druhého řádu (včetně) a platí $f(\vx) \geq f(\theta)$ pro každé $\vx \in U_\theta$. Viz Obrázek 9.4.

Mějme $\vx \in U_\theta$ libovolné nenulové a uvažme funkci $g(h) = f(h\vx)$ definovanou určitě na nějakém okolí $U_0 \subset \R$ obsahujícím $1$ ($\vx \in U_\theta$).

Tato funkce má v bodě $0$ lokální minimum ($g(h) \geq f(\theta)$) a pro její derivace podle pravidla o derivaci složené funkce (Věta 7.12) platí

\begin{align*} g'(h) &= \sum_{j=1}^n \frac{\partial f}{\partial x_j}(h\vx) \cdot x_j, \\ g''(h) &= \sum_{j,k=1}^n \frac{\partial^2 f}{\partial x_k \partial x_j}(h\vx) \cdot x_j x_k.\end{align*}

Funkce $g$ má proto spojitou druhou derivaci a navíc dle předpokladu platí $g'(0) = 0$.

Podle Taylorovy věty (Věta 5.4) pro $h \in U_0$ platí

\begin{equation}\label{eq_dukaz_podminka_star}\tag{9.1} 0 \leq g(h) - g(0) = \frac{1}{2} g''(\xi_h) h^2, \end{equation}

kde $\xi_h$ leží mezi $0$ a $h$ (a tedy $\xi_h \to 0$ když $h \to 0$).

Dále podle předchozího textu platí

\begin{equation*} g''(\xi_h) = \vx^T \cdot \nabla^2 f(\xi_h \vx) \cdot \vx. \end{equation*}

Dosazením tohoto vztahu do (9.1), podělením nerovnosti $h^2$ a provedením limity $h \to 0$ získáváme nerovnost

\begin{equation*} \vx^T \cdot \nabla^2 f(\theta) \cdot \vx \geq 0, \end{equation*}

kde $\vx$ bylo libovolné z $U_\theta$.

Libovolné $\vx \neq \theta$ ale snadno přenásobením vhodnou kladnou konstantou lze převést do $U_\theta$, kde nerovnost platí a poté opět vytknout škálovací faktor.

Tím je důkaz dokončen.

$\square$

Ihned na tomto místě upozorněme, že semi/definitnost nám nepomůže rozlišit ne/ostrost extrému. To je smysl následujících dvou příkladů. Hesseova matice zkrátka „vidí“ pouze kvadratické chování funkce.

Příklad 9.1

Funkce $f(x, y) = x^2 + y^2$ má jediný stacionární bod $\theta$ a její Hesseova matice v tomto bodě je PD, tedy

\begin{align*} \nabla f(0,0) &= \theta, \\ \nabla^2 f(0,0) &= \begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix}.\end{align*}

V bodě $\theta$ také má ostré lokální minimum (to vidíme naprosto očividně pomocí definice extrému (Definice 9.1): ano, skutečně pro každé nenulové $(x,y)^T \in \R^2$ platí $f(x,y) = x^2 + y^2 > f(\theta)$). Graf této funkce je na Obrázku 9.5.

Obrázek 9.5: Ilustrace funkce z Příkladu 9.1.
Příklad 9.2

Funkce $f(x, y) = x^4 + y^4$ má jediný stacionární bod $\theta$ a její Hesseova matice v tomto bodě je PSD (ale i NSD), ale není PD (ani ND). Tedy platí

\begin{align*} \nabla f(0,0) &= \theta, \\ \nabla^2 f(0,0) &= \begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}.\end{align*}

V bodě $\theta$ také má ostré lokální minimum (to vidíme naprosto očividně pomocí definice extrému (Definice 9.1): ano, skutečně pro každé nenulové $(x,y)^T \in \R^2$ platí $f(x,y) = x^4 + y^4 > f(\theta)$). Graf této funkce je na Obrázku 9.6.

Obrázek 9.6: Ilustrace funkce z Příkladu 9.2.
Varování 9.2

Opět upozorněme, že jde pouze o nutnou podmínku! Z nulovosti gradientu a PSD (resp. NSD) Hessovy matice v daném stacionárním bodě neplyne existence lokálního extrému. Například pro funkci $f(x,y) = x^2 - y^4$ sice platí $\nabla f(0,0) = \theta$ a Hesseova matice

\begin{equation*} \nabla^2 f(0,0) = \begin{pmatrix} 2 & 0 \\ 0 & 0 \end{pmatrix} \end{equation*}

je PSD, ale v $(0,0)$ očividně extrém nenastává! Skutečně, pro každé nenulové $t$ platí $f(t,0) = t^2 > 0 = f(\theta)$ a $f(0,t) = -t^4 < 0 = f(\theta)$, což je v rozporu se všemi podmínkami v Definici 9.1. Viz Obrázek 9.7.

Obrázek 9.7: Ilustace k Varování 9.2. Funkce mající ve stacionárním bodě $\theta$ PSD Hessovu matici a nemající v tomto bodě lokální extrém.