V této podkapitole odvodíme nutné podmínky existence lokálního extrému. Ty nám umožňují podstatně zúžit body, kde extrém může nastávat. Postačující podmínkou se budeme zabývat v následující kapitole.
Vzpomeňte si na známé tvrzení z BI-MA1: pokud má reálná funkce reálné proměnné lokální extrém v bodě $a$, pak její derivace v bodě $a$ buď neexistuje, nebo je rovna nule. Vzhledem k úzké souvislosti mezi parciální derivací a „obyčejnou“ derivací, popsané v podkapitole 7.6.1, dostáváme následující analogické tvrzení.
Mějme funkci $f: D_f \to \R$, $D_f \subset \R^n$, mající v bodě $\va$ lokální extrém (klidně ostrý) a $j \in \hat n$. Potom parciální derivace funkce $f$ v bodě $\va$ podle $j$-té proměnné je rovna nule nebo neexistuje.
Stačí použít výše zmíněné tvrzení z BI-MA1 na funkci $g(x) = f(\va + x \ve_j)$: tato funkce má dle předpokladů jistě (ostrý) lokální extrém v bodě $x = 0$, tudíž $g'(0)$ je buď nula nebo neexistuje. Ale $g'(0)$ je identická s $\partial_j f(\va)$.
$\square$
Mějme funkci $f: D_f \to \R$, $D_f \subset \R^n$, mající v bodě $\va$ (ostrý) lokální extrém a mající parciální derivace v bodě $\va$ podle všech proměnných. Potom $\nabla f(\va) = \theta$.
Ukázkou extrému (ostrého lokálního minima; snadno ukážeme z definice) v bodě s neexistujícím gradientem je například funkce $f(x, y) = \sqrt{x^2 + y^2}$ v bodě $\theta$. Její graf představuje kužel, viz Obrázek 9.2. Existence ostrého lokálního minima plyne jednoduše přímo z Definice 9.1. Pro všechna nenulová $(x,y)^T \in \R^2$ jistě platí $f(x,y) = \sqrt{x^2 + y^2} > 0 = f(\theta)$.
Opět upozorněme, že Věta 9.1, resp. Důsledek 9.1, představuje pouze nutnou podmínku! To znamená, že z nulovosti gradientu neplyne existence extrému. Například, pro funkci $f(x,y) = x^2 - y^2$ sice platí $\nabla f(0,0) = \theta$, ale v $(0,0)$ očividně extrém nenastává!
Proč v tomto bodě tato funkce extrém nemá? Protože pro každé nenulové reálné $t$ platí $f(0, t) = -t^2 < 0 = f(\theta)$ a $f(t, 0) = t^2 > 0 = f(\theta)$, což je v rozporu se všemi podmínkami v Definici 9.1. Jinak řečeno, lze nalézt dva různé směry, jak se k bodu $\theta$ blížit tak, že odpovídající funkční hodnoty jsou jednou nad a jednou pod hodnotou $f(\theta)$.
Bod, kde je gradient nulový, je tedy potenciálním bodem lokálního extrému. Tečná rovina (viz Poznámku 7.3) v tomto bodě je kolmá na osu $z$ (závisle proměnná). Zavádíme pro něj proto následující terminologii.
Mějme funkci $f: D_f \to \R$, $D_f \subset \R^n$. Bod $\va \in D_f$ splňující $\nabla f(\va) = \theta$ nazýváme stacionárním bodem. Kritickým bodem nazýváme bod, kde neexistuje gradient nebo je stacionární.
V případě funkce jedné proměnné jsme často při hledání extrémů hledali nulové body první derivace a poté zkoumali znaménko první derivace na okolí takovéhoto bodu. U funkcí více proměnných tento přístup použitelný není. Musíme se podívat na analog druhé derivace, tedy Hessovu matici a její definitnost.
Nechť funkce $f: D_f \to \R$, $D_f \subset \R^n$, má spojité všechny druhé parciální derivace na okolí bodu $\va$ a nechť má v tomto bodě lokální minimum (resp. maximum), potom je Hesseova matice $\nabla^2 f(\va)$ PSD (resp. NSD).
BÚNO $\va = \theta$. Buď $U_\theta$ okolí bodu $\theta$ kde má funkce $f$ spojité všechny parciální derivace až do druhého řádu (včetně) a platí $f(\vx) \geq f(\theta)$ pro každé $\vx \in U_\theta$. Viz Obrázek 9.4.
Mějme $\vx \in U_\theta$ libovolné nenulové a uvažme funkci $g(h) = f(h\vx)$ definovanou určitě na nějakém okolí $U_0 \subset \R$ obsahujícím $1$ ($\vx \in U_\theta$).
Tato funkce má v bodě $0$ lokální minimum ($g(h) \geq f(\theta)$) a pro její derivace podle pravidla o derivaci složené funkce (Věta 7.12) platí
Funkce $g$ má proto spojitou druhou derivaci a navíc dle předpokladu platí $g'(0) = 0$.
Podle Taylorovy věty (Věta 5.4) pro $h \in U_0$ platí
kde $\xi_h$ leží mezi $0$ a $h$ (a tedy $\xi_h \to 0$ když $h \to 0$).
Dále podle předchozího textu platí
Dosazením tohoto vztahu do (9.1), podělením nerovnosti $h^2$ a provedením limity $h \to 0$ získáváme nerovnost
kde $\vx$ bylo libovolné z $U_\theta$.
Libovolné $\vx \neq \theta$ ale snadno přenásobením vhodnou kladnou konstantou lze převést do $U_\theta$, kde nerovnost platí a poté opět vytknout škálovací faktor.
Tím je důkaz dokončen.
$\square$
Ihned na tomto místě upozorněme, že semi/definitnost nám nepomůže rozlišit ne/ostrost extrému. To je smysl následujících dvou příkladů. Hesseova matice zkrátka „vidí“ pouze kvadratické chování funkce.
Funkce $f(x, y) = x^2 + y^2$ má jediný stacionární bod $\theta$ a její Hesseova matice v tomto bodě je PD, tedy
V bodě $\theta$ také má ostré lokální minimum (to vidíme naprosto očividně pomocí definice extrému (Definice 9.1): ano, skutečně pro každé nenulové $(x,y)^T \in \R^2$ platí $f(x,y) = x^2 + y^2 > f(\theta)$). Graf této funkce je na Obrázku 9.5.
Funkce $f(x, y) = x^4 + y^4$ má jediný stacionární bod $\theta$ a její Hesseova matice v tomto bodě je PSD (ale i NSD), ale není PD (ani ND). Tedy platí
V bodě $\theta$ také má ostré lokální minimum (to vidíme naprosto očividně pomocí definice extrému (Definice 9.1): ano, skutečně pro každé nenulové $(x,y)^T \in \R^2$ platí $f(x,y) = x^4 + y^4 > f(\theta)$). Graf této funkce je na Obrázku 9.6.
Opět upozorněme, že jde pouze o nutnou podmínku! Z nulovosti gradientu a PSD (resp. NSD) Hessovy matice v daném stacionárním bodě neplyne existence lokálního extrému. Například pro funkci $f(x,y) = x^2 - y^4$ sice platí $\nabla f(0,0) = \theta$ a Hesseova matice
je PSD, ale v $(0,0)$ očividně extrém nenastává! Skutečně, pro každé nenulové $t$ platí $f(t,0) = t^2 > 0 = f(\theta)$ a $f(0,t) = -t^4 < 0 = f(\theta)$, což je v rozporu se všemi podmínkami v Definici 9.1. Viz Obrázek 9.7.