Pro analýzu funkcí jedné proměnné byl zásadní pojem derivace. Podobně tomu bude i pro funkce více proměnných. Situace nyní ovšem nebude tak přímočará jako v předchozích kapitolách.
Nejprve se soustřeďme na chování pouze vzhledem k jedné zvolené proměnné.
Mějme reálnou funkci $n$ reálných proměnných $f: D_f \to \R$, $D_f \subset \R^n$, definovanou na okolí bodu $\va \in D_f$ a $j \in \hat n$.
Existuje-li limita
pak její hodnotu nazýváme parciální derivací funkce $f$ v bodě $\va$ podle $j$-té proměnné a značíme ji $\frac{\partial f}{\partial x_j}(\va)$, případně $\partial_{x_j} f(\va)$.
Označme $M$ jako množinu všech vnitřních bodů $\va$ množiny $D_f$, v kterých existuje limita (7.4). Potom funkci přiřazující hodnotu $\frac{\partial{f}}{\partial x_j}(\va)$ každému $\va \in M\subset\R^n$ nazýváme parciální derivací funkce $f$ podle $j$-té proměnné a značíme ji
Předchozí definice je nápadně podobná definici derivace reálné funkce reálné proměnné. Má-li funkce $f: D_f \to \R$, $D_f \subset \R^n$, parciální derivaci v bodě $\va \in D_f$ podle $j$-té proměnné, pak pokud definujeme
pak je $g$ je reálná funkce jedné reálné proměnné definována na okolí bodu $0$ a pro její derivaci v bodě $0$ platí
Odtud okamžitě plyne geometrická interpretace parciální derivace: číselná hodnota parciální derivace funkce $f$ v bodě $a$ udává míru růstu/poklesu funkčních hodnot funkce $f$ v bodě $\va$ ve směru $j$-té souřadné osy. Definice 7.10 je koncipována tak, že se „dívá“ na chování funkce $f$ v daném bodě pouze v daném směru.
Toto pozorování má i důležitý početní důsledek. Při parciálním derivování podle $x_j$ se na ostatní proměnné díváme jako na konstanty a můžeme používat známá pravidla pro derivování (součet, součin, podíl, složená funkce,…).
Parciální derivace funkce $f$ podle $j$-té proměnné je obecně funkce a má proto smysl uvažovat o její parciální derivaci podle $k$-té proměnné. K zjednodušení značení používáme následující zápis (pozor na pořadí)
Dále případné opakované derivace podle stejné proměnné zkracujeme takto
Podobně pro vyšší derivace. Například pod výrazem
máme na mysli parciální derivaci podle $x_1$ druhé parciální derivace funkce $f$ podle $x_2$ vypočtenou v bodě $(1,2,3)^T$.
Z výše uvedeného je patrné, že při výpočtu parciální derivace uplatníme znalosti z BI-MA1. Derivujeme podle zadané proměnné a na ostatní se díváme jako na konstanty.
Rozmyslete si následující výsledky.
Pro $f(x, y) = x + xy + y$ platí
Pro $g(x, y, z) = e^y \cdot \sin(x+y) + z y$ platí
Pomocí parciálních derivací, existují-li, můžeme definovat tzv. gradient funkce. Jeho pravý význam odhalíme v další části textu.
Mějme reálnou funkci $n$ reálných proměnných $f: D_f \to \R$, $D_f \subset \R^n$ mající všechny parciální derivace v bodě $\va \in D_f$. Potom řádkový vektor
nazýváme gradientem funkce $f$ v bodě $\va$ a používáme pro něj značení
Podobně jako u parciální derivace se na $\nabla f$ díváme jako na zobrazení (vektorovou funkci), které bodu přiřazuje hodnotu gradientu $f$ v tomto bodě.
Hned se zamysleme nad jednoduchými příklady:
Pro $f(x, y) = \pi$ máme $\nabla f (x,y) = (0, 0)$.
Pro $f(x, y) = x - y$ máme $\nabla f (x,y) = (1, -1)$.
Mějme funkci $f(x_1, x_2) = x_1^3 + x_1 x_2$, $D_f = \R^2$. Potom gradient této funkce existuje v každém bodě jejího definičního oboru a platí
Mějme funkci $f(x, y, z) = \sin(x) \cos(y + z)$, $D_f = \R^3$. Potom gradient této funkce existuje v každém bodě jejího definičního oboru a platí
Parciální derivace zkoumala chování funkce jenom vzhledem k jedné proměnné.
Motivace k zobecnění derivace, bez přívlastku „parciální“, pro funkce více proměnných vychází z role první derivace při lineární aproximaci funkce. V BI-MA1 jsme ukázali, že pro dostatečně diferencovatelnou funkci $f$ v bodě $a$ představuje její první Taylorův polynom $T(x) = f(a) + f'(a) (x-a)$ nejlepší možnou aproximaci této funkce v tomto bodě (na jistém okolí). Graf tohoto polynomu prvního stupně pak navíc představuje tečnu funkce $f$ v bodě $a$. Derivace $f'(a)$, jedno číslo, v tomto vzorci hraje roli směrnice tečny, udává lineární člen. To nás motivuje k následující definici.
Mějme zobrazení $F: D_F \to \R^m$, $D_F \subset \R^n$, definované na okolí bodu $\va$.
Derivací zobrazení $F$ v bodě $\va$ nazýváme matici $DF(\va) \in \R^{m,n}$ splňující
Tj. vágně $F(\vx) \approx F(\va) + DF(\va) \cdot (\vx - \va)$ pro $\vx$ blízko u $\va$, lokální chyba této aproximace je menší než lineární (dle definice). Podmínka v Definici 7.12 nemusí působit intuitivně, od definice derivace funkce jedné proměnné v bodě ( BI-MA1, Definice) se na první pohled liší. Následující poznámka ukazuje souvislost mezi těmito definicemi.
Během dřívějšího studia jsme se již s pojmem derivace setkali, konkrétně s derivací reálné funkce jedné reálné proměnné ( BI-MA1, Definice). Derivací takovéto funkce $f: D_f \to \R$, $D_f \subset \R$, definované na okolí bodu $a$, v bodě $a$ jsme nazývali limitu
Pokud je $f'(a) \in \R$, tj. $f$ je diferencovatelná v bodě $a$, pak je tato podmínka ekvivalentní podmínce
v které již jistě vidíme podmínku z Definice 7.12. V tomto případě diferencovatelné reálné funkce jedné reálné proměnné je tak vlastně $Df(a)$ rovna $1\times 1$ matici $\big(f'(a)\big)$.
Okamžitě se nabízí otázka, jak tato derivace souvisí s dříve zavedenými parciálními derivacemi (Definice 7.10). Odpověď nám dává následující věta.
Pokud má zobrazení $F: D_f \to \R^m$, $D_f \subset \R^n$, definované na okolí bodu $\va$, derivaci $DF(\va) \in \R^{m,n}$ v bodě $\va$, potom
Odtud ihned také plyne, že je tato matice dána jednoznačně, existuje-li.
Určíme prvek matice $DF(\va)$ v $i$-tém řádku a $j$-tém sloupci. Z předpokladu a již jednou použité obecné nerovnosti $|\vz_i| \leq \|\vz\|$, $i\in\hat m$ a $\vz \in \R^m$, dostáváme
Nyní použijeme větu o zúžení a budeme k $\va$ přistupovat po přímce $\vx = \va + h \ve_j$, kde $h \to 0$. Odtud s pomocí jednoduchých úprav plyne
V tomto výrazu již vidíme parciální derivaci funkce $F_i$ podle $j$-té proměnné v bodě $\va$, která má nutně hodnotu $DF(\va)_{i,j}$.
$\square$
Na funkci $n$ proměnných $f: D_f \to \R$, $D_f \subset \R^n$, lze nahlížet jako na zobrazení $f: D_f \to \R^1$ a proto pokud má v bodě $\va \in D_f$ derivaci $Df(\va) \in \R^{1,n}$, pak podle předchozí věty pro ni platí
a není tedy ničím jiným, než gradientem funkce $f$ v bodě $\va$!
Také je z tohoto pozorovaní patrné, proč jsme gradient striktně definovali jako řádkový vektor.
Vrátíme-li se zpět k motivaci, pak vidíme, že máme-li funkci $f: D_f \to \R$, $D_f \subset \R^n$ mající derivaci v bodě $\va \in D_f$, pak tečná rovina ke grafu funkce $f$ v bodě $\va$ (označíme-li osu, kam vynášíme závisle proměnnou jako $z$, tj. zmíněný graf je plocha $z = f(\vx)$) je dána rovnicí
Speciálně v případě dvou proměnných dostáváme rovnici
resp. zcela explicitně
K předchozímu pozorování, resp. vztahu mezi derivací a parciálními derivacemi, učiňme dvě poznámky.
Pokud má $f$ v bodě $\va$ derivaci $Df(\va)$, pak má v tomto bodě i všechny parciální derivace (ukázali jsme).
Toto tvrzení nelze obrátit, tj. samotná existenci parciálních derivací nestačí k existenci derivace. K existenci derivace $Df(\va)$ už ale stačí např. spojitost všech prvních parciálních derivací na okolí bodu $\va$ (nedokazujeme).
Více do této problematiky zabíhat nebudeme.
Při analýze vlastností funkcí jedné proměnné jsme vedle první derivace využívali i druhou derivaci. Ta souvisela s konvexností a konkávností, využívali jsme ji při hledání extrémů. Jak je to s druhou derivací funkce více proměnných?
Na derivaci, resp. gradient, funkce $f: D_f \to \R$, $D_f \subset \R^n$, lze nahlížet jako na zobrazení $Df: A \to \R^n$, $A \subset D_f$, jeho derivací v bodě $\va \in A$ je pak matice typu $\R^{n,n}$, kterou nazýváme Hesseovou maticí a značíme $\nabla^2 f(\va)$. Pokud existuje, pak platí
Hesseova matice (někdy nesprávně zkráceně Hessián) je pojmenována po Ludwigovi Ottovi Hesseovi, německém matematikovi, jenž žil v letech 1811 – 1874.
Pořadí derivování ve smíšených derivacích nelze obecně zaměnit (viz Příklad 7.10 níže). Pokud ale například jsou všechny druhé parciální derivace spojité na okolí bodu $\va$, pak bude Hesseova matice symetrická (typicky náš případ). Toto pozitivní tvrzení je známo pod jménem Schwarzova–Clairautova věta.
Uvažme funkci definovanou předpisem
Tato funkce je definována na $\R^2$ a je spojitá v nule (netriviální cvičení, které není cílem tohoto příkladu). Ukažte, že v bodě $\theta$ existují obě její smíšené derivace a nejsou si rovny, tj.
Graf této funkce je uveden na Obrázku 7.10.
Ukážeme si výpočet jedné z parciálních derivací. U druhé pouze prozradíme výsledek a výpočet necháme k dopočítání zvídavému čtenářstvu. Přímo z definice (7.5) a s využitím znalosti derivace součinu a podílu plyne vztah
Zdůrazněme jeho platnost všude mimo bod $\theta$. K výpočtu parciální derivace funkce $f$ v bodě $\theta$ podle $x$ musíme využít přímo definici, do předchozího vztahu nulu jen tak nedosadíme. To ale není těžké, opět s využitím definice (7.5) rovnou dostáváme
A konečně potom s využitím již napočteného (N.B.: při výpočtu limity $h \to 0$ nás ve výrazu $\partial_x f(0, h)$ situace s $h = 0$ nezajímá)
Naprosto analogickým způsobem lze vypočítat
Na závěr této podkapitoly shrneme ještě několik užitečných vlastností derivací, které budeme v dalším výkladu potřebovat.
Mějme zobrazení $F: D_F \to \R^k$, $D_F \subset \R^m$ a $G: D_G \to \R^m$, $D_G \subset \R^n$ a bod $\va \in D_G$ takové, že existují $DG(\va)$ a $D F\big( G(\va) \big)$. Potom existuje i derivace složeného zobrazení $F \circ G$ v bodě $\va$ a platí
Doceňte kompaktní zápis pomocí matic a jejich násobení! Rozepsán explicitně pro $F = (F_1,\ldots,F_k)^T$ a $G = (G_1,\ldots,G_m)^T$ tento vztah po složkách říká (tzv. řetězové pravidlo)
Důkaz vynecháváme.
$\square$
Nechť $f: D_f \to \R$, $D_f \subset \R^n$ má derivaci v bodě $\va \in D_f$. Buď $\vv$ vektor délky $1$.
Potom existuje limita (tzv. derivace funkce $f$ ve směru $\vv$ v bodě $\va$)
a je rovna $\langle \nabla f(\va)^T \mid \vv \rangle$.
Použijte větu o derivaci složené funkce na $g(h) = f(\va + h \vv)$.
$\square$
Nechť $f: D_f \to \R$, $D_f \subset \R^n$ má nenulovou derivaci v bodě $\va \in D_f$. Buď $\vv$ vektor délky $1$.
Potom $\partial_{\vv}f(\va)$ nabývá největší hodnoty pro $\vv = \nabla f(\va)^T / \|\nabla f (\va)\|$.
Platí nerovnost $|\langle \nabla f(\va)^T \mid \vv \rangle| \leq \|\nabla f(\va)\|$ a současně platí rovnost $\langle \nabla f(\va)^T \mid \pm\nabla f(\va)^T \rangle = \pm \|\nabla f(\va)\|^2$.
$\square$
Na Obrázku 7.11 se pokusíme graficky znázornit funkci $f(x,y) = 2x^2 + y^2$ (levý graf) a jejího gradient $\nabla f(x,y) = (4x, 2y)$ vizualizovaný pomocí vektorového pole (pravý graf). Zdůrazněme, že graf funkce dvou proměnných je množina bodů v $\R^3$, ale gradient takovéto funkce má pouze dvě složky! Vágně řečeno „žije“ v rovině, kde leží definiční obor.
Je také zajímavé zpětně reflektovat situaci reálné funkce jedné reálné proměnné, jak si zde představit gradient? V případě diferencovatelné funkce $f: \R \to \R$ a bodu $a \in D_f$ je gradient řádkový vektor $\nabla f(a) = (f'(a)) \in \R^{1,1}$, jeho ilustraci uvádíme na Obrázku 7.12. Opět si všimněte, že leží na ose $x$!
Je-li funkce $f: \R \to \R$ diferencovatelná v bodě $\va \in \R$, jaký je směrový a normálový vektor její tečny v bodě $\va$?
Normálovým vektorem je například $(-f^\prime(a), 1)$ a směrovým vektorem je například $(1, f^\prime(a))$.
O bodu $\va \in M \subset \R^n$ řekneme, že je vnitřním bodem množiny $M$, právě když existuje okolí $U_{\va}$ bodu $\va$ takové, že $U_{\va} \subset M$.